一夜之间,「AI孙燕姿」火遍全网。
B站上,AI孙燕姿翻唱的林俊杰「她说」、周董「爱在西元前」、赵雷「成都」等等,让一众网友深陷无法自拔。
「冷门歌手」孙燕姿新晋成为2023年度热门歌手,掀起许多人的追星狂欢。
网友表明,「听了一晚上AI孙燕姿,出不去了……」
这些翻唱歌曲,是由Eternity丨L、罗斯特_x等UP主经过开源项目克己后并上传。
(作者好像特意在「半岛铁盒」中加入了一秒空白,凑成5分20秒)
UP主:Eternity丨L
除了AI孙燕姿,还有AI周杰伦,AI王心凌、AI林志炫…
或许许多人做梦也没有想到,2023年华语乐坛竟以这种方式复兴了。
「AI孙燕姿」在线营业
前段时间,一位TikTok网友用AI创造了一首「Heart on My Sleeve」很快蹿红网络,引来1000多万人围观。
听完这首歌的网友纷纷表明,太让我惊奇了,简直太疯狂!
这首歌正是用两位美国盛行音乐人Drake和The Weeknd的声响创造而成。先通歌手声响练习AI,然后再用AI来创造。
在国内,B站上AI翻唱的华语乐坛歌曲也逐渐成为许多人关注的焦点,孙燕姿、王心凌、周杰伦等明星纷纷「复出」。
而最火的莫过于孙燕姿,凭借「天后音色」的称谓,直接成为AI新宠儿。
UP主:罗斯特_x
有人还克己了AI孙燕姿粤语版《爱来的太迟》。
可是,关于AI音乐制造,在整个音乐行业并非是一个新事物了。只不过生成式AI的大火,让AI翻唱的门槛再次被拉低。
比方,年初,谷歌还曾推出了文本到音乐模型MusicLM,经过将音乐的生成进程视为分层的序列到序列建模使命,并以24 kHz的频率生成高保真的音乐。
关于许多歌迷来讲,AI翻唱必定程度上满意了自己的许多遥想。
还有一些歌迷,自己练习了已故经典老歌手的AI,包含阿桑、张国荣、姚贝娜、邓丽君等等。
这或许是一种数字永生,经过这样一种方式让久别的声响再次回到人们心里。
Midjourney出图逼真的超强才能,让人们惊呼画家要赋闲了。关于AI翻唱,莫非歌手也要被去替代吗?
一位UP主@阿张Rayzhang用自己的音色练习出的AI唱Killer Queen后,瞬间感觉太恐惧了。
紧急录制一个视频后,并附上了「AI歌手会让翻唱区集体赋闲吗?我被AI版的我爆杀!」标题。
有网友称,自己就是AI第一批受害者画手,感觉什么职业也逃不掉。
有些人也表明,翻唱的有些当地一点也不像。
要知道,关于AI翻唱来讲,也需要丰厚的特定艺术家音色练习数据,这样AI生成的作品才愈加实在。
就目前的技能,虽然歌手的唱腔、技巧和风格等还不能彻底模仿,但音色现已根本能彻底复刻。
可是真实的大家是不能被替代。
AI翻唱火虽火,但由AI创造音乐的另一面,是迫在眉睫的版权问题。
AI创造的「Heart on My Sleeve」在TikTok上风靡一时后,完整版被上传到了Apple Music、Spotify、YouTube等渠道上。
就此,美国歌手Drake对此在Ins表达了不满,「这是(压死骆驼的)最后一根稻草了」。目前,这首歌因为侵权问题现已下架。
《金融时报》称,具有Taylor Swift、Bob Dylan等巨星版权的环球音乐集团,正敦促Spotify和苹果阻挠AI工具从其艺术家的版权歌曲中抓取歌词和旋律。
可是有些艺术家却不吝啬自己的声响,马斯克前女友Grimes在网上表明,
「任何人都能够运用我的声响AI生成歌曲。」不过,还得再付50%的版权。
而这次大火的AI翻唱背面的原始项目「so-vits-svc」的作者,据称也是因为太多人乱用,而删去了项目。
SoVitsSvc:唱歌声响转化
项目地址:github.com/svc-develop…
歌声转化模型运用SoftVC内容编码器来提取源音频语音特征,然后将向量直接送入VITS,而不是转化为基于文本的中心格式。因而,音高和音调都能够被保存下来。
此外,项目开发者还经过采用NSF HiFiGAN作为声码器(vocoder),从而处理了声响中断的问题。
特征输入改为Content Vec 采样率统一运用44100Hz
由于参数的改变,以及模型结构的精简,推理所需的GPU显存显着削减。
增加选项1:vc形式的自动音高预测,这意味着在转化语音时不需要手动输入音高键,男声和女声的音高能够自动转化。可是,这种形式在转化歌曲时,会形成音高偏移。
增加选项2:经过k-means聚类方案削减音色泄漏,使音色与方针音色更类似。
增加选项3:增加NSF-HIFIGAN增强器,对一些练习集少的模型有必定的音质增强效果,但对练习好的模型有负面影响,所以默许封闭。
预练习模型文件
将checkpoint_best_legacy_500.pt放在hubert目录下。
将G_0.pth和D_0.pth放在logs/44k目录下。
预处理
- 音频切片
运用audio-slicer-GUI或audio-slicer-CLI工具,将原始音频切片至5秒-15秒。
长一点也没问题,但太长(比方30秒)或许会在练习乃至预处理时导致「torch.cuda.OutOfMemoryError」,俗称爆显存。
切片后,删去过长和过短的音频。
- 重采样至44100Hz和单声道
python resample.py
- 自动将数据集分成练习集和验证集,并生成配置文件
python preprocess_flist_config.py
- 生成hubert和f0
python preprocess_hubert_f0.py
完结上述进程后,dataset目录将包含预处理的数据,dataset_raw文件夹能够被删去。
现在,你能够修改生成的config.json中的一些参数——
keep_ckpts:在练习中保存最后的keep_ckpts模型。设置为0将保存一切模型,默许是3。
all_in_mem:将一切数据集加载到RAM中。当某些渠道的磁盘IO太低,而体系内存比你的数据集大得多时,能够启用。
练习
python train.py -c configs/config.json -m 44k
推理
模型在需要运用「inference_main.py」。
举个例子:
python inference_main.py -m "logs/44k/G_30400.pth" -c "configs/config.json" -s "nen" -n "君の知らない物語-src.wav" -t 0
虽然原始项目组现已中止保护,但有不少网友都进行了fork而且也做了一些更新。
比方下面这个图形化界面:
项目地址:github.com/voicepaw/so…
AI「复活」
AI翻唱之外,许多网友此前曾做了类似的项目,比方「AI-Talk」让马斯克和乔布斯进行了穿越时空的对话。
视频中,AI不但模拟了他们的声响,还在必定程度上模拟了其对话思路,使得沟通进程十分流畅。
AI让我们与逝者的对话成为或许。此前,B站UP主用AI还复活了老奶奶。
关于老奶奶的声响制造,直接把曩昔已有的音频上传,资料根本来自于曩昔的电话录音、录像视频或许微信语音。
并用音频编辑软件AU进行调整,调整的方向主要在降噪、人声增强等等。
然后将愈加清晰的音频样本切割成若干秒的短句,便利进行标注。最后将处理好的音频打包放入语音组成体系中去。
运用语音组成体系,就能够尝试输入文本转语音了。
网友见证科技狠活
AI孙燕姿的歌,现已唱到许多网友的心田。
最近沉浸AI「翻唱」,上至AI侃爷唱罚酒,下至苏小玎唱本相是真。但说句正经的,的确仍是AI届顶流孙燕姿的翻唱最好听。
这几天沉浸B站的AI孙燕姿,刚刚听了一首《一场游戏一场梦》,太好听了,唱到心田里
不少网友听过AI翻唱的歌曲后,感触到AI歌手的可怕之处:
科技的力量真是让人细思极恐。
深深感触到了什么叫做科技的力量……
这就是AI生命,数字飞升!
还有网友对逝去歌手的思念。
参考资料:
github.com/svc-develop…
www.bilibili.com/video/BV1io…