文字转语音

多音色、语速/音调/音量、多语种、情感风格、声音克隆与多说话人对话,导出 MP3/WAV 与字幕。基于开源 CosyVoice2 自部署,完全免费。

0 / 2000

风格/情感对「声音克隆」和「自定义参考音色」效果最佳;预置命名音色以音色本身为准。

CPU 合成较慢,长文本请耐心等待;首次需加载模型。

常见问题

用的是什么模型?要收费吗?

基于开源的 CosyVoice2 自部署,完全免费。提供每日免费合成次数,无需登录。

可以克隆我自己的声音吗?

可以。选择「声音克隆」并上传一段 5–15 秒清晰人声、填写对应文字,即可用该音色合成。参考音频仅用于本次合成,用完即删,不会留存。

支持哪些语言和情感?

支持中文、英语、日语、韩语、粤语等及跨语种合成;在「风格」里可用自然语言指令,如「用开心的语气」「用四川话说」。

为什么合成需要等一会儿?

当前为 CPU 部署,长文本会逐句合成、流式返回,可先试听已完成的句子。后续切换 GPU 可显著提速。

能做多人对话/播客吗?

可以。开启「多说话人」,按「角色:文本」分行输入,再为每个角色分配不同音色即可。

探索更多 AI 工具与产品