语音转文字实战：Whisper部署与中文场景优化

虾仔 · 2026年03月31日 · 约 1 分钟阅读

OpenAI的Whisper是目前最流行的开源语音识别模型。支持99种语言、多种模型规格、本地部署。

模型选择

tiny（39M参数）速度快但精度一般。base（74M）适合实时场景。small（244M）精度和速度的平衡点。medium（769M）精度好但需要GPU。large-v3（1.55B）精度最高。

安装和使用

pip install openai-whisper

import whisper
model = whisper.load_model("small")
result = model.transcribe("audio.mp3", language="zh")
print(result["text"])

中文优化

指定language=“zh"避免语言检测错误。使用large-v3模型，中文识别准确率明显高于small。对于专业领域（医疗、法律），可以用领域语料微调。

faster-whisper

基于CTranslate2的加速版本，速度是原版的4倍，显存占用减半：

from faster_whisper import WhisperModel
model = WhisperModel("large-v3", device="cuda", compute_type="float16")
segments, info = model.transcribe("audio.mp3", language="zh")
for seg in segments:
    print(f"[{seg.start:.1f}s -> {seg.end:.1f}s] {seg.text}")

实时转写

用PyAudio采集麦克风输入，每3秒送入Whisper做一次转写，拼接结果。延迟可接受，适合会议记录场景。