记得在很早很早以前,有个可以用各种动漫角色的语调说话的网站叫15.ai[1]。不过网站上线没几天就因为爆火没了,估计是算力不够或者引起了某些资本大佬的注意。
作者应该是利用这些角色的音色训练了一个或多个模型,然后再做TTS(text-to-speech)。我体验了一下,效果还不错,但那时clone任意的音色还是存在一些挑战的,而且这里面也没有说中文的角色。
当然我并没有坐以待毙,而是直接许愿要是有一个网站可以上传任意的声音文件,然后生成模仿此人说话的音频文件就好了。数年后,愿望成真,来自智谱的GLM-TTS-Clone出现了,并且提供了在线测试的网站:
Free AI powered by CogTTS & CogTTS-Voice Cloning
由于网站最好要纯净无BGM的音频,我选择B站UP主聒碎的视频[2],并使用Edge的扩展Smart Audio Capture截取了30秒的音频开始clone,然后输入一段文字开始生成。效果好像还不错。
生成音频1(肯德基疯狂星期四V我50吧)
生成音频2(不中啊周大师,你的友人度+1了)
AI时代果然是一个许愿的时代,你想要的东西,不要着急自己做,等等就会发现有人给你做好了嘿:)
[1] 网站已迁移到:https://15.dev
[2] 语料视频链接:https://www.bilibili.com/video/BV1zYrrYoEKf/