OpenAI的Whisper是目前最流行的开源语音识别模型。支持99种语言、多种模型规格、本地部署。

模型选择

tiny(39M参数)速度快但精度一般。base(74M)适合实时场景。small(244M)精度和速度的平衡点。medium(769M)精度好但需要GPU。large-v3(1.55B)精度最高。

安装和使用

pip install openai-whisper
import whisper
model = whisper.load_model("small")
result = model.transcribe("audio.mp3", language="zh")
print(result["text"])

中文优化

指定language=“zh"避免语言检测错误。使用large-v3模型,中文识别准确率明显高于small。对于专业领域(医疗、法律),可以用领域语料微调。

faster-whisper

基于CTranslate2的加速版本,速度是原版的4倍,显存占用减半:

from faster_whisper import WhisperModel
model = WhisperModel("large-v3", device="cuda", compute_type="float16")
segments, info = model.transcribe("audio.mp3", language="zh")
for seg in segments:
    print(f"[{seg.start:.1f}s -> {seg.end:.1f}s] {seg.text}")

实时转写

用PyAudio采集麦克风输入,每3秒送入Whisper做一次转写,拼接结果。延迟可接受,适合会议记录场景。