许愿成功之克隆声音

记得在很早很早以前，有个可以用各种动漫角色的语调说话的网站叫15.ai[1]。不过网站上线没几天就因为爆火没了，估计是算力不够或者引起了某些资本大佬的注意。

作者应该是利用这些角色的音色训练了一个或多个模型，然后再做TTS（text-to-speech）。我体验了一下，效果还不错，但那时clone任意的音色还是存在一些挑战的，而且这里面也没有说中文的角色。

当然我并没有坐以待毙，而是直接许愿要是有一个网站可以上传任意的声音文件，然后生成模仿此人说话的音频文件就好了。数年后，愿望成真，来自智谱的GLM-TTS-Clone出现了，并且提供了在线测试的网站：

由于网站最好要纯净无BGM的音频，我选择B站UP主聒碎的视频[2]，并使用Edge的扩展Smart Audio Capture截取了30秒的音频开始clone，然后输入一段文字开始生成。效果好像还不错。

生成音频1（肯德基疯狂星期四V我50吧）

生成音频2（不中啊周大师，你的友人度+1了）

AI时代果然是一个许愿的时代，你想要的东西，不要着急自己做，等等就会发现有人给你做好了嘿：）

[1] 网站已迁移到：https://15.dev

发表回复 取消回复