这是一个声音克隆工具,可使用任何人类音色,将一段文字合成为使用该音色说话的声音,或者将一个声音使用该音色转换为另一个声音。
使用非常简单,没有N卡GPU也可以使用,下载预编译版本,双击 app.exe 打开一个web界面,鼠标点点就能用。
支持 中文、英文、日语、韩语 4种语言,可在线从麦克风录制声音。
为保证合成效果,建议录制时长5秒到20秒,发音清晰准确,不要存在背景噪声。
英文效果很棒,中文效果还凑合。
使用方法
右侧Releases中下载预编译版,适用于window 10/11(已含文字到语音模型,语音到语音模型需单独下载),Mac下请拉取源码自行编译
下载后解压到某处,比如 E:/clone-voice 下
双击 start.bat ,等待自动打开web窗口,如下
转换操作步骤
- 在文本框中输入文字、或导入srt文件,或者选择“声音->声音”,选择要转换的声音wav格式文件
- 然后从“要使用的声音wav文件”下拉框中选择要用的声音,如果没有满意的,也可以点击“本地上传”按钮,选择已录制好的5-20s的wav声音文件。或者点击“开始录制”按钮,在线录制你自己的声音5-20s,录制完成点击使用
- 点击“立即开始生成”按钮,耐心等待完成。
为减小预编译版体积,预编译版仅支持CPU,只包含“文字到语音(text-to-speech)模型”
如果需要 声音->声音 功能,即上传一个音频文件,然后将该音频转换为使用选定音色的另一个音频,需单独下载语音到语音(speech-to-speech)模型,然后放到和app.exe同级的tts文件夹中,右键“解压到当前文件夹下” 解压
如需GPU支持,请拉取源码本地编译