Question 1

用的是什么模型？要收费吗？

Accepted Answer

基于开源的 CosyVoice 3（自然主力）与 IndexTTS-2（情感配音）双引擎自部署，完全免费。提供每日免费合成次数，无需登录。

Question 2

两种引擎怎么选？

Accepted Answer

「自然·主力」(CosyVoice 3) 更自然流畅、速度快，含多个预置音色，适合日常朗读、客服、播报；「情感·配音」(IndexTTS-2) 情绪更强、更戏剧化，适合有声书、角色配音、短视频旁白。可在页面顶部一键切换。

Question 3

可以克隆我自己的声音吗？

Accepted Answer

可以。选择「声音克隆」并上传一段 5–15 秒清晰人声、填写对应文字，即可用该音色合成；两种引擎都支持克隆。参考音频仅用于本次合成，用完即删，不会留存。

Question 4

支持哪些语言和情感？

Accepted Answer

支持中文、英语、日语、韩语、粤语等及跨语种合成。主力档可在「风格」里用自然语言指令，如「用开心的语气」「用四川话说」；切到「情感·配音」档后，在「情感」框直接填「开心/悲伤/愤怒/惊讶」等即可获得更强的情绪表现。

Question 5

为什么合成需要等一会儿？

Accepted Answer

已采用 GPU 部署，通常很快；首次或空闲一段时间后需先加载模型（主力档约数秒，情感档约 20–40 秒）。长文本会逐句合成、流式返回，可先试听已完成的句子。

Question 6

能做多人对话/播客吗？

Accepted Answer

可以。开启「多说话人」，按「角色：文本」分行输入，再为每个角色分配不同音色即可。

文字转语音

常见问题