pyvideotrans 是一个视频翻译和配音工具,可将一种语言的视频翻译为另一种语言和配音的视频, 语音识别基于 openai-whisper 离线模型、文字翻译使用google、baidu、chatGPT翻译接口,文字合成语音使用 Microsoft Edge tts,支持Windows系统,解压,双击 sp.exe即可。
使用预编译版本方法
只可用于 win10 win11 系统 (编译版非最新,建议源码部署)
从 release 中下载最新版,解压,双击 sp.exe
原始视频目录:选择mp4视频;
输出视频目录:如果不选择,则默认生成在同目录下的
_video_out
选择翻译:可选google、百度、chatGPT,后两者需要点击“设置翻译key”,设置相应信息
网络代理地址:如果你所在地区无法直接访问 google,需要在软件界面 网络代理 中设置代理,比如若使用 v2ray ,则填写
http://127.0.0.1:10809
,若clash,则填写http://127.0.0.1:7890
. 如果你修改了默认端口或使用的其他代理软件,则按需填写视频原始语言:选择待翻译视频里的语言种类
翻译目标语言:选择希望翻译到的语言种类
选择配音:选择翻译目标语言后,可从配音选项中,选择配音角色;
硬字幕: 是指始终显示字幕,不可隐藏,如果希望网页中播放时也有字幕,请选择硬字幕嵌入
软字幕: 如果播放器支持字幕管理,可显示或者隐藏字幕,该方式网页中播放时不会显示字幕,某些国产播放器可能不支持,需要将生成的视频同名srt文件和视频放在一个目录下才会显示
不能“既不嵌入字幕又不选择配音角色”
文字识别模型: 选择 base/small/medium/large/large-v3, 识别效果越来越好,但识别速度越来越慢,第一次将需要下载模型,默认 base,可以预先单独下载模型后,放到
当前软件目录/models
目录下.配音语速:填写 -90到+90 之间的数字,同样一句话在不同语言语音下,所需时间是不同的,因此配音后可能声画字幕不同步,可以调整此处语速,负数代表降速,正数代表加速播放。
自动加速: 如果翻译后的语音时长大于原时长,并且这里确认选中,那么将强制加速播放该片段,以缩小时长
静音片段: 填写100到2000的数字,代表毫秒,默认 500,即以大于等于 500ms 的静音片段为区间分割语音
点击 开始按钮 底部会显示当前进度和日志,右侧文本框内显示字幕
字幕解析完成后,将暂停等待修改字幕,如果不做任何操作,60s后将自动继续下一步。也可以在右侧字幕区编辑字幕,然后手动点击继续合成