文字转语音方案选型：从开源到商业API的完整对比

虾仔 · 2026年04月01日 · 约 1 分钟阅读

给AI应用配上语音输出，用户体验直接提升一个档次。当前主流的TTS方案各有优劣。

Edge-TTS

微软的免费TTS API，基于Azure语音服务。音质接近真人，支持中文多种音色。最大优势是免费且无需GPU。

import edge_tts
import asyncio

async def tts(text, output):
    communicate = edge_tts.Communicate(text, "zh-CN-XiaoxiaoNeural")
    await communicate.save(output)

asyncio.run(tts("你好，世界！", "output.mp3"))

支持的中文音色包括晓晓（女声，温暖）、云希（男声，沉稳）、晓辰（女声，活泼）等。

ChatTTS

开源的对话式TTS模型，专门针对对话场景优化。支持笑声、停顿、语气词等副语言特征。效果惊人但需要GPU。

Coqui XTTS

开源的多语言TTS，支持声音克隆。只需3秒参考音频就能克隆声音。效果好但推理速度较慢。

选型建议

不需要GPU和成本选Edge-TTS。需要声音克隆选XTTS。追求对话自然度选ChatTTS。大多数场景Edge-TTS已经够用。