最近,视频网站音乐区up主掀了“AI孙燕姿”的风潮。这种运用AI技能提取某位歌手的音色,再用其替换另一位歌手音色的方法,能够完结接近歌手本人翻唱的传神作用。除孙燕姿外,面临周杰伦、陶喆、陈奕迅、王菲等众多具有独特嗓音的歌手,歌迷纷纷奔向“AI点唱机”——这个能够生成任何希望被翻歌唱曲的“神器”,让众多粉丝一偿“直接点歌偶像”的愿望。当然,以此为基础,也诞生了许多有意思的开源使用方案,如:无需学习其他伪音技巧,即可完结实时男女声响交换等等。作者将运用 RVC 模型和入梦东西,带咱们完结以下几个功用:

  • 音乐干声别离:布景音(BGM)与人声(干声)的别离
  • 练习个人音色模型:作为仿照其他干声资料的音色数据
  • 男女换声(伪音):基于异性干声资料,进行实时转化声响为异性声响
  • AI 歌唱:仅作基础的仿照演唱,仍需进行调音等等操作,才能够达到完美
  • 音色交融:不同音色的特征交融出一个全新的音色

现实事例阐明

在进行教学前,咱们先假定这样一个场景:现有资料,男声响色A,女声响色B,女声响色C的朗诵资料C,男歌唱状态下的音色D,女声响色C的歌唱资料E,咱们根据以上介绍的功用进行整合,能够做到以下事例:

  • 事例一:将女声C的朗诵资料进行干声别离,再用男声响色A朗诵女声响色C的朗诵资料C。
  • 事例二:能够用女声B的音色去朗诵女声C的朗诵资料。
  • 事例三:甚至能够进行小推迟(0.1s)的实时音色转化,比方将运用男声响色A的声响去讲,能够实时转化为女声响色B的声响,完结无技巧完结男女伪声转化。
  • 事例四:运用音色D的声响去演唱音色C的歌唱资料,完结类似AI孙燕姿的功用。
  • 事例五:拿女音色B和C的资料进行交融出一个新的音色F
  • 事例六:音色A从来没有说过外语(英语、日语等等),但需求现在马上说一段外语音频

作用可参阅出处:【rvc教程】AI变声/AI音色练习-哔哩哔哩 极为传神,值得测验。当然,我也仅仅作为共享。 在此感谢三位UP主:花儿不哭/唯有如梦/干易/掉脑袋切切_bling 的视频 下载资源:pan.baidu.com/s/125_wzk7T… 文件目录如下:

⏰AI 孙燕姿 | AI 音色克隆⏰RVC 使用图文教程⏩无难度男女换声(伪音)、 AI 孙燕姿!

留意事项

  • 功能要求:主张20系N卡以上,显存在 8g 以上,功能越高越好
  • 模型文件目录要求:全英文、无中文、待处理音频、单音色资料独立一个文件夹
  • 发动模型时,命令行界面不能封闭,不然,模型停止运行,下文中说到的所有命令行都运用时不能封闭
  • 留意音色版权问题,不做违法勾当,技能无罪,请勿乱用
  • 音色、音频资料质量好坏不仅仅体现在音源质量,音色练习干声资料更介意有无噪声(气泡音、混响者等不佳),是否贴合仿照场景(歌唱音色对应歌唱音频转化等等),是否音频变调范围较少等等

音色推理流程

什么是音色推理呢?其实便是完结事例一二的进程,也便是推理音色A到音色B,再使用到声响资料上的进程。咱们将运用 RVC 模型的一建练习包,过程如下:

  1. 发动 RVC web 界面:双击翻开 RVC-beta_5\RVC-beta\go-web.bat
  2. 等候发动,发动成功命令行作用如下: 命令行:
    ⏰AI 孙燕姿 | AI 音色克隆⏰RVC 使用图文教程⏩无难度男女换声(伪音)、 AI 孙燕姿!
    web界面:
    ⏰AI 孙燕姿 | AI 音色克隆⏰RVC 使用图文教程⏩无难度男女换声(伪音)、 AI 孙燕姿!
  3. 界面参数阐明:
    • 推理音色:推理成果成品的实践音色
    • 待处理音频:推理成果成品的实践音频内容,支撑绝大部分音频格式
    • index 途径:推理音色相符合的特征文件 index 结束
    • 变调(整数, 半音数量, 升八度12降八度-12):男女腔调差距较大,男转女引荐+12key, 女转男引荐-12key, 假如音域爆破导致音色失真也能够自己调整到适宜音域.
    • 刷新音色列表和索引途径:加载新的推理音色和 index 文件,练习出新音色就需求从头加载
    • 卸载音色:去除加载进的音色,以节约显存
    • 音高提取算法:输入歌声可用pm提速,harvest低声好但巨慢无比
  4. 选定对应参数数据:按照界面参数,挑选推理音色、待处理音频、index 途径、变调等等最基本的参数(也便是说其他参数坚持默许的参数也能运用,有才能、有需求的再自行微调),点击转化即可进行音色推理了。 转化成果作用如下:
    ⏰AI 孙燕姿 | AI 音色克隆⏰RVC 使用图文教程⏩无难度男女换声(伪音)、 AI 孙燕姿!
    点击播映按钮即可在线播映转化后的音频,右键点击即可下载成果音频或许改变播映速度。最好是先听听作用,再下载,毕竟不必定作用适宜,或许需求调整参数。 这便是音色推理的全流程,也是整个模型练习功能要求最低的一个部分之一,假如,你连默许的音色都无法正常推理成功的话,音色练习部分主张在功能更强的电脑上进行。

资料干声别离

资料干声别离也便是别离人声和布景音,这一部分不必定需求本模型一键练习包来完结,仅仅为了取得更好的干声资料而做的预处理操作,有其他现成更简略的东西也能够运用。话扯远了,接下来就说说怎样进行资料的干声别离,过程如下:

  1. 发动 RVC 模型的一建练习包,和推理模型的发动方法一致,切换到干声别离界面,如下:
    ⏰AI 孙燕姿 | AI 音色克隆⏰RVC 使用图文教程⏩无难度男女换声(伪音)、 AI 孙燕姿!
  2. 界面参数阐明:
    • 待处理音频途径:待处理音频的文件夹途径,留意不是文件途径,这也是为什么每个待处理音频都要独立放置到一个文件夹的原因,由于太多文件,练习时刻过长。
    • 按需挑选别离模型:HP2 人声(只要布景音和人声类型)、HP5人声(带有布景音和人声叠加等等作用类型)
    • 指定人声输出目录:默许 RVC-beta\opt
    • 指定乐器文件夹:布景音文件夹,默许 RVC-beta\opt
  3. 填写好对应参数信息之后,点击转化即可完结资料干声别离。终究作用如下:
    ⏰AI 孙燕姿 | AI 音色克隆⏰RVC 使用图文教程⏩无难度男女换声(伪音)、 AI 孙燕姿!
    输出信息为 success 即为干声别离成功,假如报错,就需求检查音频和电脑的硬件问题了。

音色练习

音色练习其实便是运用经过预处理或许自身音源本质杰出的干声资料进行练习,提取对应的音色特征,从而仿照其音色特征,再生成对应的音色包,这个进程中当然能够测验经过微调参数完结更好的音色特征提取,但篇幅有限,本文只介绍最简略,最直接的音色练习教程。过程如下:

  1. 准备好 3 分钟以上、50 分钟以内的优质干声资料,主张在3到7分钟之间,作用就很不错了,做好练习时长等候的准备
  2. 发动练习模型,切换到练习模块,如下:
    ⏰AI 孙燕姿 | AI 音色克隆⏰RVC 使用图文教程⏩无难度男女换声(伪音)、 AI 孙燕姿!
  3. 界面参数阐明:
    • 试验名:行将练习出来的音色包称号
    • 方针采样率:干声资料采集样本占比,按功能需求更改,默许 40k 就有不错的作用了
    • 模型是否带音高指导:假如是歌唱类型的干声资料,必须挑选 true ,反之,选或不选都能够
    • 版别:主张运用 V1,V2 仍存在部分 Bug
    • 提取音高和处理数据所运用的 CPU 进程数,默许为 16 ,可根据功能瓶颈自行更改,最少为 2
    • 练习文件夹途径:所要练习的干声资料文件夹途径,留意是文件夹途径,同一个文件夹里面只能包含一个人的音色干声资料
    • 显卡信息:发动后会主动读取本机显卡信息,多张显卡可输入卡号,指定练习用显卡
    • 音高提取算法:输入歌声可用pm提速,高质量语音但CPU差可用dio提速,harvest质量更好但慢
    • 保存频率:每练习 n 轮,保存一次音色特征数据,主张以 20 为保存频率,可根据功能瓶颈自行更改
    • 总练习轮数:不得小于保存频率数,总练习轮数按功能瓶颈来,主张 200 轮即可,干声资料优异可挑选 50 轮即可,普通人听不出来的,最高可达 1000 轮,轮数越高,功能要求越大,时刻越长,过高也会过拟合,不主张太高。
    • 每张显卡的 back_size:按默许即可,会在读取显卡信息后主动挑选,假如自行指定练习显卡,可根据功能瓶颈自行挑选
    • 是否仅保存最新的ckpt文件以节约硬盘空间:挑选是的话,只要最后一轮的练习特征数据,反之,按保存频率保存音色文件
    • 是否缓存所有练习集至显存.:10min以下小数据可缓存以加快练习, 大数据缓存会炸显存也加不了多少速度
    • 是否在每次保存时刻点将终究小模型保存至weights文件夹:挑选是即可
  4. 填好以上界面参数数据,点击一键练习即可,慢慢等候成果呈现,主张只运行该模型 ckpt 处显现 success,结束有个 2333333 即为成功
    ⏰AI 孙燕姿 | AI 音色克隆⏰RVC 使用图文教程⏩无难度男女换声(伪音)、 AI 孙燕姿!
    练习成果(音色)文件夹:weights 文件夹
    ⏰AI 孙燕姿 | AI 音色克隆⏰RVC 使用图文教程⏩无难度男女换声(伪音)、 AI 孙燕姿!
    练习音色特征成果:logs 文件夹
    ⏰AI 孙燕姿 | AI 音色克隆⏰RVC 使用图文教程⏩无难度男女换声(伪音)、 AI 孙燕姿!
    假如,没有迁移练习和微调参数需求的话,可仅保存 index 和 npy 文件,连同前文的 pth 文件就能够构成一个完好的音色包文件。可共享音色包文件示例如下:
    ⏰AI 孙燕姿 | AI 音色克隆⏰RVC 使用图文教程⏩无难度男女换声(伪音)、 AI 孙燕姿!

运用这个音色包文件就能够进行前文的音色推理了,也就能够完结事例一、二、四、七,包含歌唱类型的仿照,以及说一段自己不会的外语音频也是能够完结的,同时,完结歌唱资料的仿照不就能够得到 AI 孙燕姿的干声资料,再运用之前干声别离出的布景音进行调整,就能够基本完结AI孙燕姿啦,只要咱们具有(练习所得、共享取得)孙燕姿的歌唱音色包,以及对应优质的歌唱干声资料,当然,还需求进一步的调音、编曲等候操作,让它更像更完美。

音色交融

音色交融便是基于前文说到的音色练习出来的音色包进行交融音色,当然,同一性其他音色交融作用会好一点,经过音色交融,咱们就能够创造出一个全新的音色包,当然,也能够运用此操作削减音色爆音的几率,比方,A音色音色好但容易爆音,B音色不太好,但胜在安稳,就能够用高权重的A模型交融低权重的B模型,交融出来的音色就能具有两个的优点,但权重比例得自行调整,达到一个比较好的平衡,基于交融后的音色就能够做出不一样的音源资料。过程如下:

  1. 发动模型,切换到 ckpt 部分

    ⏰AI 孙燕姿 | AI 音色克隆⏰RVC 使用图文教程⏩无难度男女换声(伪音)、 AI 孙燕姿!

  2. 界面参数阐明:

    • A、B模型途径:A、B模型文件途径便是需求进行交融的两个音色模型的 pth 文件途径
    • A 模型权重:交融哪个音源特征更多的数值化表达,也便是交融成果音色更像哪个音色
    • 保存的模型称号:此次交融成果音色的称号

    其他参数自行调整,简略地调整以上数据就能完结音色交融

  3. 点击交融,输出成果为 success 即可。音色包会在 weight 呈现,并且,不会有对应的 index 和 npy 文件生成,但可用高权重的音色模型练习出来的成果文件。

    ⏰AI 孙燕姿 | AI 音色克隆⏰RVC 使用图文教程⏩无难度男女换声(伪音)、 AI 孙燕姿!
    这咱们就能完结事例五的作用了,你能够运用交融后的音色继续“炼丹”,直到满意停止。

入梦东西完结男女伪音实时无技巧转化

男女伪音,也便是男女声响实时交换的操作,完结类似于变声器的作用,部分游戏、陪玩也有在运用。过程如下:

  1. 发动模型和入梦东西:双击 RVC-beta_5\RVC-beta\go-realtime-gui.bat 和 RVC\RVC入梦小东西\RVC入梦小东西.exe GUI 界面如下:

    ⏰AI 孙燕姿 | AI 音色克隆⏰RVC 使用图文教程⏩无难度男女换声(伪音)、 AI 孙燕姿!

    模型运行命令行界面如下:

    ⏰AI 孙燕姿 | AI 音色克隆⏰RVC 使用图文教程⏩无难度男女换声(伪音)、 AI 孙燕姿!
    入梦东西界面如下:
    ⏰AI 孙燕姿 | AI 音色克隆⏰RVC 使用图文教程⏩无难度男女换声(伪音)、 AI 孙燕姿!

  2. 装置入梦东西驱动:点击入梦东西虚拟 MME,一直下一步即可装置驱动

    ⏰AI 孙燕姿 | AI 音色克隆⏰RVC 使用图文教程⏩无难度男女换声(伪音)、 AI 孙燕姿!

  3. 点击系统音频,装备扬声器和麦克风

    • 录制设备装备成入梦东西为默许运用设备

      ⏰AI 孙燕姿 | AI 音色克隆⏰RVC 使用图文教程⏩无难度男女换声(伪音)、 AI 孙燕姿!

    • 播映设备不用修正,运用电脑默许设置就行,需求修正入梦扬声器的特点装备中的采样频率和位深度与电脑默许设置的设备对应特点一致,再更改入梦麦克风的侦听特点为侦听此设备即可。不过主张为耳机类型的扬声器,公放类型会被录制设备读取,产生回音,呈现杂音。

      ⏰AI 孙燕姿 | AI 音色克隆⏰RVC 使用图文教程⏩无难度男女换声(伪音)、 AI 孙燕姿!
      ⏰AI 孙燕姿 | AI 音色克隆⏰RVC 使用图文教程⏩无难度男女换声(伪音)、 AI 孙燕姿!

      ⏰AI 孙燕姿 | AI 音色克隆⏰RVC 使用图文教程⏩无难度男女换声(伪音)、 AI 孙燕姿!
      ⏰AI 孙燕姿 | AI 音色克隆⏰RVC 使用图文教程⏩无难度男女换声(伪音)、 AI 孙燕姿!

  4. 装备模型音频输入输出设备:输入设备设置为电脑默许麦克风即可,输出设备设置为入梦扬声器,实践播映声响为电脑默许音频输出设备,如下:

    ⏰AI 孙燕姿 | AI 音色克隆⏰RVC 使用图文教程⏩无难度男女换声(伪音)、 AI 孙燕姿!

  5. 模型 GUI 界面加载模型参数阐明:

    ⏰AI 孙燕姿 | AI 音色克隆⏰RVC 使用图文教程⏩无难度男女换声(伪音)、 AI 孙燕姿!

    • 载入 Hubert 模型:不会默许读取模型,需求自行载入,双击按钮翻开文件夹,选中 RVC-beta_5\RVC-beta\hubert_base.pt 即可。
    • 挑选 pth 文件:双击按钮翻开文件夹,自行选中音色包内的 pth 文件即可
    • 挑选 index 文件:双击按钮翻开文件夹,自行选中对应音色包内的 index 文件即可
    • 挑选 npy 文件:双击按钮翻开文件夹,自行选中对应音色包内的 npy 文件即可
  6. 模型 GUI 界面常规设置及其功能设置参数阐明:

    ⏰AI 孙燕姿 | AI 音色克隆⏰RVC 使用图文教程⏩无难度男女换声(伪音)、 AI 孙燕姿!

    • 呼应阈值:麦克风读取呼应速度,自行调整不爆音即可,数据越低,实时推迟越小
    • 腔调设置:男女腔调差距较大,男转女引荐+12key, 女转男引荐-12key, 假如音域爆破导致音色失真也能够自己调整到适宜音域。
    • index rate:0.3 到 0.5即可,特征提取相关参数
    • 采样长度:推理时刻,采样长度自行调整,不含过多电子音即可,数值越低,推迟越低,主张为 1 即可
    • 淡入淡入长度:坚持默许即可,除非有一些古怪的尾音
    • 额定推理长度:推理长度高一点,声响或许会好一些,但推迟高,自行调整
    • 输入输出降噪:假如录音环境存在必定噪声可勾选
  7. 挑选完其他设置,点击开始转化即可完结实时转化音色的作用,留意推理时刻正常变化才是正常运行。

  8. 假如需求切换音色的话,就必须停止音频转化再从头修正加载模型部分的参数。

  9. 假如是游戏运用、录制时运用,就必须把对应软件的麦克风设置为入梦麦克风,留意检查一下

本章节解决了事例三的男女伪音转化作用,这也将引起咱们的警惕。

总结一下

AI 语音技能的进步已经带来了许多令人兴奋的成果,而 RVC 则是其间的一个重要发展方向。RVC 能够让运用者将一个人的声响样本複制并转移到另一个人身上,并可完结即时语音转化。以下是 RVC 或许带来的一些成果:

  1. 更天然的语音转化:RVC 技能能够让语音转化愈加天然、传神。这种技能能够学习一个人的语音特徵,包含腔调、节奏和语速等,并将这些特徵使用到其他人的语音中,使其听起来愈加天然。
  2. 音频和影片后期制作:RVC 技能还能够用于音频和影片后期制作。例如,在电影和电视剧中,艺人的声响或许需求进行修剪或处理,RVC 技能能够协助制作人员快速、高效地完结这些使命。
  3. 音乐创造:RVC 技能能够用于音乐创造,例如组成电子音乐或增强现有音乐。运用这种技能,音乐家能够从其他艺术家的声响中取得创意,并将其使用到自己的创造中。

虽然这技能对于娱乐、语音组成等方面有著极大的使用价值。但是,这种技能也引发了许多品德等问题,例如乱用、欺骗、侵略隐私等问题,需求你我一起重视,运用该技能时也要特别留意这些问题,请当心别踩线。

⏰AI 孙燕姿 | AI 音色克隆⏰RVC 使用图文教程⏩无难度男女换声(伪音)、 AI 孙燕姿!