给AI应用配上语音输出,用户体验直接提升一个档次。当前主流的TTS方案各有优劣。

Edge-TTS

微软的免费TTS API,基于Azure语音服务。音质接近真人,支持中文多种音色。最大优势是免费且无需GPU。

import edge_tts
import asyncio

async def tts(text, output):
    communicate = edge_tts.Communicate(text, "zh-CN-XiaoxiaoNeural")
    await communicate.save(output)

asyncio.run(tts("你好,世界!", "output.mp3"))

支持的中文音色包括晓晓(女声,温暖)、云希(男声,沉稳)、晓辰(女声,活泼)等。

ChatTTS

开源的对话式TTS模型,专门针对对话场景优化。支持笑声、停顿、语气词等副语言特征。效果惊人但需要GPU。

Coqui XTTS

开源的多语言TTS,支持声音克隆。只需3秒参考音频就能克隆声音。效果好但推理速度较慢。

选型建议

不需要GPU和成本选Edge-TTS。需要声音克隆选XTTS。追求对话自然度选ChatTTS。大多数场景Edge-TTS已经够用。