OpenAI 开源 · 语音识别

一台电脑就能跑的语音识别神器OpenAI Whisper 完全指南

101K Star · 12K Fork · MIT 协议 支持 99+ 种语言 · 本地离线运行

101K+
GitHub Stars
99+
支持语言
680K
训练小时
Python
语言栈

2026年6月 · 阅读约7分钟

680K 小时多语言弱监督数据训练,99 种语言端到端语音识别,一台笔记本就能跑——OpenAI Whisper 彻底改变了语音转文字的玩法。

2022 年 9 月,OpenAI 悄悄开源了一个叫 Whisper 的项目。三年多过去,它的 GitHub Star 数突破了 10 万,成为语音识别领域最具影响力的开源项目之一。

Whisper 能做的不只是英文转文字——它支持 99+ 种语言,能自动检测语种、精准打时间戳、翻译成英文,输出字幕文件。最关键是它完全在本地运行,不需要联网,不需要 API Key,不按量收费。

💡 一句话总结:
Whisper = 语音识别大模型 · 边缘部署 · 多语言 · 开源免费 · MIT 协议

一、它不是"又一个语音 API"

市面上的语音识别方案大多是这样的:上传音频到云端 → 等几秒 → 返回文本。有网络延迟,有隐私风险,有调用次数限制。

Whisper 走了另一条路:把整个模型打包成一个 Python 包,你本地运行。没有 API 调用,不需要上传任何数据,不产生任何费用。

背后的论文标题叫 "Robust Speech Recognition via Large-Scale Weak Supervision"。核心策略是大规模弱监督——从互联网上收集 680K 小时的多语言、多任务音频数据训练,不依赖精细标注。

架构上用的是经典的 Encoder-Decoder Transformer。输入是 80 维 log-Mel 频谱,编码器提取声学特征,解码器自回归生成文本 token。同时预测语种、时间戳、是否翻译等辅助任务。

二、六款模型,从树莓派到 GPU 集群都能跑

Whisper 提供了 6 种模型规格,覆盖从边缘设备到服务器的全场景:

模型 参数量 显存需求 相对速度 适用场景
tiny 39M ~1 GB 32× 树莓派 / 嵌入式
base 74M ~1 GB 16× 轻量应用,CPU 可跑
small 244M ~2 GB 日常使用,精度够用
medium 769M ~5 GB 推荐,性价比最高
large-v3 1.55B ~10 GB 生产环境,最高精度
turbo 809M ~6 GB large 精度 + 8倍速

📌 推荐选择:
日常转写用 medium,精度和速度的最佳平衡点;追求精度用 large-v3;部署边缘设备用 tiny。最新的 turbo 模型兼顾精度和速度,是部署首选。

三、5 分钟上手

安装只一行命令,同时需要 ffmpeg 处理音频格式:

# 安装
pip install -U openai-whisper

# macOS 安装 ffmpeg
brew install ffmpeg

# Ubuntu/Debian
sudo apt update && sudo apt install ffmpeg

Python 一行搞定:

import whisper

model = whisper.load_model("medium")
result = model.transcribe("audio.mp3")
print(result["text"])

命令行一行搞定:

# 基本转写
whisper 会议录音.mp3 --model medium

# 指定语言 + 生成字幕 + 输出目录
whisper interview.m4a --language zh --output_format srt --output_dir ./subtitles

# 翻译成英文
whisper speech.mp3 --task translate

首次运行时模型会自动下载缓存到本地。输出支持 .txt / .vtt / .srt / .tsv / .json 五种格式,直接拖进剪辑软件就能用。

四、Whisper 的强项在哪儿

对比市面其他方案,Whisper 有几个明显的独特优势:

优势 详细说明
🎯 多语言零样本 99+ 语言直接识别,不需要单独训练每种语言。甚至能处理中英混杂的音频
⏱ 词级时间戳 每个词都有精确的起止时间,输出 VTT/SRT 字幕文件,剪辑师友好
🛡️ 隐私安全 全程本地运行,音频不离开你的电脑。涉密会议、医疗记录、法律文件都能用
🎙 抗噪能力强 对背景噪音、口音、电话录音质量都有很好的鲁棒性,不需要降噪预处理
🆓 没有 Hidden Cost MIT 协议,不计费用不限量。处理 1000 小时音频和 1 分钟成本一样——都是零
🔧 自动语种检测 无需提前声明语言,Whisper 自己检测。对多语言会议/播客场景极其友好

五、也得说说局限

客观地说,Whisper 不是万能的:

局限 具体表现 改进方案
实时 不支持流式识别,必须等完整音频 用 faster-whisper 加速
幻觉 长时间静音段可能编造文字 VAD 预处理切除静音
标点 中文标点不够精准 后处理接 LLM 润色
速度 large 模型 CPU 上慢 用 turbo + GPU / CTranslate2
专词 专业术语、人名可能不准 提供 initial_prompt 上下文提示

这些局限大部分有成熟解决方案——社区生态已经很完善了,后面会介绍。

六、Python API 高级用法

除了简单的一句 model.transcribe(),Whisper 提供了丰富的参数控制:

import whisper

model = whisper.load_model("large-v3")

result = model.transcribe(
  "lecture.mp3",
  language="zh", # 指定语言,跳过自动检测
  task="transcribe", # 或 "translate" 翻译成英文
  temperature=0.0, # 降低随机性,更稳定
  word_timestamps=True, # 词级时间戳
  initial_prompt="本次讲座主题是深度学习在医疗影像中的应用...",
  condition_on_previous_text=False, # 不分段依赖上文,更准确
  no_speech_threshold=0.6, # 静音过滤阈值
  logprob_threshold=-1.0, # 低置信度段落过滤
)

# result["segments"] 包含每个段落的时间戳、文本、置信度
for seg in result["segments"]:
  print(f"[{seg['start']:.2f}s → {seg['end']:.2f}s] {seg['text']}")

💡 实用技巧:
initial_prompt 是提高专有名词准确率的关键——告诉 Whisper 上下文里有"卷积神经网络""注意力机制"等术语,识别率明显提升。condition_on_previous_text=False 建议在语音分段明确时开启,能减少幻觉。

七、社区生态:把 Whisper 玩出花

Whisper 强大的社区造就了丰富的周边工具,覆盖了它本身的短板:

工具 解决的问题 核心亮点
faster-whisper 推理速度慢 CTranslate2 加速,4倍提速 + 内存减半
whisper.cpp Python 依赖重 纯 C++ 实现,iOS/Android 都能跑
whisperX 说话人区分 自动说话人分离 + 精准对齐
Buzz 没图形界面 桌面 GUI,一键转写 + 实时麦克风
MacWhisper macOS 原生体验 拖拽文件转写,支持 Apple Silicon 加速
insanely-fast-whisper 长音频处理慢 Flash Attention 2 + BetterTransformer,再快10倍

实际生产环境推荐组合:faster-whisper + large-v3/turbo作为推理引擎,whisperX处理需要说话人识别的场景。

八、典型应用场景

场景 方案
📝 会议纪要 录音 → Whisper 转写 → GPT/Claude 生成纪要 → 自动发送邮件
🎬 视频字幕 视频提音轨 → Whisper 生成 SRT → 导入剪辑软件 → 微调时间轴
📚 课程笔记 录播课音频批量转写 → Markdown 格式化 → 知识库索引
🎙 播客处理 WhisperX 说话人分离 → 带角色标注的带时间戳文稿
🔍 全文检索 所有音频存档转文字 → 文本索引 → 搜索关键词定位到精确秒
🤖 语音助手 麦克风输入 → Whisper 实时转写 → LLM 回复 → TTS 朗读

九、适合谁?不适合谁?

✅ 非常适合
· 需要离线语音转文字的内容创作者、视频剪辑师
· 对隐私敏感(医疗、法律、企业内部)的会议转写
· 需要批量处理多语言音频的研究人员
· 想在自有服务器部署语音识别能力的开发者

⚠️ 不太适合
· 需要极低延迟实时转写的场景(如直播字幕)——建议用专门的流式方案
· 没有 GPU 又要处理数百小时音频的大规模批处理——CPU 上 large 模型太慢
· 对中文标点和格式要求极高的正式文档——需要加后处理

📊 一句话评价:Whisper 是那种"开箱即用、效果惊喜"的工具。不需要 GPU、不需要 API Key、不需要联网,一行命令就能获得专业级的语音转写结果。对于大多数个人用户和小团队,medium 模型已经够用

感兴趣的可以逛逛 www.ppcodes.cn,或者关注“陪陪源码网”这个gzh,我会不定期分享一些项目搭建踩坑经验和行业观察。

有问题也可以直接找我聊,同行交流,互相学习。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐