文字转语音
多音色、语速/音调/音量、多语种、情感风格、声音克隆与多说话人对话,导出 MP3/WAV 与字幕。基于开源 CosyVoice2 自部署,完全免费。
0 / 2000
风格/情感对「声音克隆」和「自定义参考音色」效果最佳;预置命名音色以音色本身为准。
CPU 合成较慢,长文本请耐心等待;首次需加载模型。
常见问题
用的是什么模型?要收费吗?
基于开源的 CosyVoice2 自部署,完全免费。提供每日免费合成次数,无需登录。
可以克隆我自己的声音吗?
可以。选择「声音克隆」并上传一段 5–15 秒清晰人声、填写对应文字,即可用该音色合成。参考音频仅用于本次合成,用完即删,不会留存。
支持哪些语言和情感?
支持中文、英语、日语、韩语、粤语等及跨语种合成;在「风格」里可用自然语言指令,如「用开心的语气」「用四川话说」。
为什么合成需要等一会儿?
当前为 CPU 部署,长文本会逐句合成、流式返回,可先试听已完成的句子。后续切换 GPU 可显著提速。
能做多人对话/播客吗?
可以。开启「多说话人」,按「角色:文本」分行输入,再为每个角色分配不同音色即可。
探索更多 AI 工具与产品