「AI孙燕姿」全网沸腾！AI翻唱大爆发，整个华语乐坛都「复兴」了-六虎

一夜之间，「AI孙燕姿」火遍全网。

B站上，AI孙燕姿翻唱的林俊杰「她说」、周董「爱在西元前」、赵雷「成都」等等，让一众网友深陷无法自拔。

「冷门歌手」孙燕姿新晋成为2023年度热门歌手，掀起许多人的追星狂欢。

网友表明，「听了一晚上AI孙燕姿，出不去了……」

这些翻唱歌曲，是由Eternity丨L、罗斯特_x等UP主经过开源项目克己后并上传。

（作者好像特意在「半岛铁盒」中加入了一秒空白，凑成5分20秒）

UP主：Eternity丨L

除了AI孙燕姿，还有AI周杰伦，AI王心凌、AI林志炫…

或许许多人做梦也没有想到，2023年华语乐坛竟以这种方式复兴了。

「AI孙燕姿」在线营业

前段时间，一位TikTok网友用AI创造了一首「Heart on My Sleeve」很快蹿红网络，引来1000多万人围观。

听完这首歌的网友纷纷表明，太让我惊奇了，简直太疯狂！

这首歌正是用两位美国盛行音乐人Drake和The Weeknd的声响创造而成。先通歌手声响练习AI，然后再用AI来创造。

在国内，B站上AI翻唱的华语乐坛歌曲也逐渐成为许多人关注的焦点，孙燕姿、王心凌、周杰伦等明星纷纷「复出」。

而最火的莫过于孙燕姿，凭借「天后音色」的称谓，直接成为AI新宠儿。

UP主：罗斯特_x

有人还克己了AI孙燕姿粤语版《爱来的太迟》。

可是，关于AI音乐制造，在整个音乐行业并非是一个新事物了。只不过生成式AI的大火，让AI翻唱的门槛再次被拉低。

比方，年初，谷歌还曾推出了文本到音乐模型MusicLM，经过将音乐的生成进程视为分层的序列到序列建模使命，并以24 kHz的频率生成高保真的音乐。

关于许多歌迷来讲，AI翻唱必定程度上满意了自己的许多遥想。

还有一些歌迷，自己练习了已故经典老歌手的AI，包含阿桑、张国荣、姚贝娜、邓丽君等等。

这或许是一种数字永生，经过这样一种方式让久别的声响再次回到人们心里。

Midjourney出图逼真的超强才能，让人们惊呼画家要赋闲了。关于AI翻唱，莫非歌手也要被去替代吗？

一位UP主@阿张Rayzhang用自己的音色练习出的AI唱Killer Queen后，瞬间感觉太恐惧了。

紧急录制一个视频后，并附上了「AI歌手会让翻唱区集体赋闲吗？我被AI版的我爆杀！」标题。

有网友称，自己就是AI第一批受害者画手，感觉什么职业也逃不掉。

有些人也表明，翻唱的有些当地一点也不像。

要知道，关于AI翻唱来讲，也需要丰厚的特定艺术家音色练习数据，这样AI生成的作品才愈加实在。

就目前的技能，虽然歌手的唱腔、技巧和风格等还不能彻底模仿，但音色现已根本能彻底复刻。

可是真实的大家是不能被替代。

AI翻唱火虽火，但由AI创造音乐的另一面，是迫在眉睫的版权问题。

AI创造的「Heart on My Sleeve」在TikTok上风靡一时后，完整版被上传到了Apple Music、Spotify、YouTube等渠道上。

就此，美国歌手Drake对此在Ins表达了不满，「这是（压死骆驼的）最后一根稻草了」。目前，这首歌因为侵权问题现已下架。

《金融时报》称，具有Taylor Swift、Bob Dylan等巨星版权的环球音乐集团，正敦促Spotify和苹果阻挠AI工具从其艺术家的版权歌曲中抓取歌词和旋律。

可是有些艺术家却不吝啬自己的声响，马斯克前女友Grimes在网上表明，

「任何人都能够运用我的声响AI生成歌曲。」不过，还得再付50%的版权。

而这次大火的AI翻唱背面的原始项目「so-vits-svc」的作者，据称也是因为太多人乱用，而删去了项目。

SoVitsSvc：唱歌声响转化

项目地址：github.com/svc-develop…

歌声转化模型运用SoftVC内容编码器来提取源音频语音特征，然后将向量直接送入VITS，而不是转化为基于文本的中心格式。因而，音高和音调都能够被保存下来。

此外，项目开发者还经过采用NSF HiFiGAN作为声码器（vocoder），从而处理了声响中断的问题。

特征输入改为Content Vec 采样率统一运用44100Hz

由于参数的改变，以及模型结构的精简，推理所需的GPU显存显着削减。

增加选项1：vc形式的自动音高预测，这意味着在转化语音时不需要手动输入音高键，男声和女声的音高能够自动转化。可是，这种形式在转化歌曲时，会形成音高偏移。

增加选项2：经过k-means聚类方案削减音色泄漏，使音色与方针音色更类似。

增加选项3：增加NSF-HIFIGAN增强器，对一些练习集少的模型有必定的音质增强效果，但对练习好的模型有负面影响，所以默许封闭。

预练习模型文件

将checkpoint_best_legacy_500.pt放在hubert目录下。

将G_0.pth和D_0.pth放在logs/44k目录下。

预处理

音频切片

运用audio-slicer-GUI或audio-slicer-CLI工具，将原始音频切片至5秒-15秒。

长一点也没问题，但太长（比方30秒）或许会在练习乃至预处理时导致「torch.cuda.OutOfMemoryError」，俗称爆显存。

切片后，删去过长和过短的音频。

重采样至44100Hz和单声道

python resample.py

自动将数据集分成练习集和验证集，并生成配置文件

python preprocess_flist_config.py

生成hubert和f0

python preprocess_hubert_f0.py

完结上述进程后，dataset目录将包含预处理的数据，dataset_raw文件夹能够被删去。

现在，你能够修改生成的config.json中的一些参数——

keep_ckpts：在练习中保存最后的keep_ckpts模型。设置为0将保存一切模型，默许是3。

all_in_mem：将一切数据集加载到RAM中。当某些渠道的磁盘IO太低，而体系内存比你的数据集大得多时，能够启用。

练习

python train.py -c configs/config.json -m 44k

推理

模型在需要运用「inference_main.py」。

举个例子：

python inference_main.py -m "logs/44k/G_30400.pth" -c "configs/config.json" -s "nen" -n "君の知らない物語-src.wav" -t 0

虽然原始项目组现已中止保护，但有不少网友都进行了fork而且也做了一些更新。

比方下面这个图形化界面：

项目地址：github.com/voicepaw/so…

AI「复活」

AI翻唱之外，许多网友此前曾做了类似的项目，比方「AI-Talk」让马斯克和乔布斯进行了穿越时空的对话。

视频中，AI不但模拟了他们的声响，还在必定程度上模拟了其对话思路，使得沟通进程十分流畅。

AI让我们与逝者的对话成为或许。此前，B站UP主用AI还复活了老奶奶。

关于老奶奶的声响制造，直接把曩昔已有的音频上传，资料根本来自于曩昔的电话录音、录像视频或许微信语音。

并用音频编辑软件AU进行调整，调整的方向主要在降噪、人声增强等等。

然后将愈加清晰的音频样本切割成若干秒的短句，便利进行标注。最后将处理好的音频打包放入语音组成体系中去。

运用语音组成体系，就能够尝试输入文本转语音了。

网友见证科技狠活

AI孙燕姿的歌，现已唱到许多网友的心田。

最近沉浸AI「翻唱」，上至AI侃爷唱罚酒，下至苏小玎唱本相是真。但说句正经的，的确仍是AI届顶流孙燕姿的翻唱最好听。

这几天沉浸B站的AI孙燕姿，刚刚听了一首《一场游戏一场梦》，太好听了，唱到心田里

不少网友听过AI翻唱的歌曲后，感触到AI歌手的可怕之处：

科技的力量真是让人细思极恐。

深深感触到了什么叫做科技的力量……

这就是AI生命，数字飞升！

还有网友对逝去歌手的思念。

参考资料：

github.com/svc-develop…

「AI孙燕姿」全网沸腾！AI翻唱大爆发，整个华语乐坛都「复兴」了

预练习模型文件

预处理

练习

推理

相关文章

一名读懂域名注册

TNNLS | GNN综述：A Comprehensive Survey on Graph Neural Networks

python的列表推导式和生成器表达式对比

WWDC 2023，我期待 Core Data 带来的新变化

作者信息