100+语言支持，音频拖进去就能转文字，完全离线运行，数据不离开你的电脑

星光一影

413人浏览 · 2026-06-06 15:34:24

星光一影 · 2026-06-06 15:34:24 发布

OpenAI 开源 · 语音识别

一台电脑就能跑的语音识别神器OpenAI Whisper 完全指南

101K Star · 12K Fork · MIT 协议支持 99+ 种语言 · 本地离线运行

101K+
GitHub Stars

99+
支持语言

680K
训练小时

Python
语言栈

2026年6月 · 阅读约7分钟

680K 小时多语言弱监督数据训练，99 种语言端到端语音识别，一台笔记本就能跑——OpenAI Whisper 彻底改变了语音转文字的玩法。

2022 年 9 月，OpenAI 悄悄开源了一个叫 Whisper 的项目。三年多过去，它的 GitHub Star 数突破了 10 万，成为语音识别领域最具影响力的开源项目之一。

Whisper 能做的不只是英文转文字——它支持 99+ 种语言，能自动检测语种、精准打时间戳、翻译成英文，输出字幕文件。最关键是它完全在本地运行，不需要联网，不需要 API Key，不按量收费。

💡 一句话总结：
Whisper = 语音识别大模型 · 边缘部署 · 多语言 · 开源免费 · MIT 协议

一、它不是"又一个语音 API"

市面上的语音识别方案大多是这样的：上传音频到云端 → 等几秒 → 返回文本。有网络延迟，有隐私风险，有调用次数限制。

Whisper 走了另一条路：把整个模型打包成一个 Python 包，你本地运行。没有 API 调用，不需要上传任何数据，不产生任何费用。

背后的论文标题叫 "Robust Speech Recognition via Large-Scale Weak Supervision"。核心策略是大规模弱监督——从互联网上收集 680K 小时的多语言、多任务音频数据训练，不依赖精细标注。

架构上用的是经典的 Encoder-Decoder Transformer。输入是 80 维 log-Mel 频谱，编码器提取声学特征，解码器自回归生成文本 token。同时预测语种、时间戳、是否翻译等辅助任务。

二、六款模型，从树莓派到 GPU 集群都能跑

Whisper 提供了 6 种模型规格，覆盖从边缘设备到服务器的全场景：

模型	参数量	显存需求	相对速度	适用场景
tiny	39M	~1 GB	32×	树莓派 / 嵌入式
base	74M	~1 GB	16×	轻量应用，CPU 可跑
small	244M	~2 GB	6×	日常使用，精度够用
medium	769M	~5 GB	2×	推荐，性价比最高
large-v3	1.55B	~10 GB	1×	生产环境，最高精度
turbo	809M	~6 GB	8×	large 精度 + 8倍速

📌 推荐选择：
日常转写用 medium，精度和速度的最佳平衡点；追求精度用 large-v3；部署边缘设备用 tiny。最新的 turbo 模型兼顾精度和速度，是部署首选。

三、5 分钟上手

安装只一行命令，同时需要 ffmpeg 处理音频格式：

# 安装
pip install -U openai-whisper

# macOS 安装 ffmpeg
brew install ffmpeg

# Ubuntu/Debian
sudo apt update && sudo apt install ffmpeg

Python 一行搞定：

import whisper

model = whisper.load_model("medium")
result = model.transcribe("audio.mp3")
print(result["text"])

命令行一行搞定：

# 基本转写
whisper 会议录音.mp3 --model medium

# 指定语言 + 生成字幕 + 输出目录
whisper interview.m4a --language zh --output_format srt --output_dir ./subtitles

# 翻译成英文
whisper speech.mp3 --task translate

首次运行时模型会自动下载缓存到本地。输出支持 .txt / .vtt / .srt / .tsv / .json 五种格式，直接拖进剪辑软件就能用。

四、Whisper 的强项在哪儿

对比市面其他方案，Whisper 有几个明显的独特优势：

优势	详细说明
🎯 多语言零样本	99+ 语言直接识别，不需要单独训练每种语言。甚至能处理中英混杂的音频
⏱ 词级时间戳	每个词都有精确的起止时间，输出 VTT/SRT 字幕文件，剪辑师友好
🛡️ 隐私安全	全程本地运行，音频不离开你的电脑。涉密会议、医疗记录、法律文件都能用
🎙 抗噪能力强	对背景噪音、口音、电话录音质量都有很好的鲁棒性，不需要降噪预处理
🆓 没有 Hidden Cost	MIT 协议，不计费用不限量。处理 1000 小时音频和 1 分钟成本一样——都是零
🔧 自动语种检测	无需提前声明语言，Whisper 自己检测。对多语言会议/播客场景极其友好

五、也得说说局限

客观地说，Whisper 不是万能的：

局限	具体表现	改进方案
实时	不支持流式识别，必须等完整音频	用 faster-whisper 加速
幻觉	长时间静音段可能编造文字	VAD 预处理切除静音
标点	中文标点不够精准	后处理接 LLM 润色
速度	large 模型 CPU 上慢	用 turbo + GPU / CTranslate2
专词	专业术语、人名可能不准	提供 initial_prompt 上下文提示

这些局限大部分有成熟解决方案——社区生态已经很完善了，后面会介绍。

六、Python API 高级用法

除了简单的一句 model.transcribe()，Whisper 提供了丰富的参数控制：

import whisper

model = whisper.load_model("large-v3")

result = model.transcribe(
  "lecture.mp3",
  language="zh", # 指定语言，跳过自动检测
  task="transcribe", # 或 "translate" 翻译成英文
  temperature=0.0, # 降低随机性，更稳定
  word_timestamps=True, # 词级时间戳
  initial_prompt="本次讲座主题是深度学习在医疗影像中的应用...",
  condition_on_previous_text=False, # 不分段依赖上文，更准确
  no_speech_threshold=0.6, # 静音过滤阈值
  logprob_threshold=-1.0, # 低置信度段落过滤
)

# result["segments"] 包含每个段落的时间戳、文本、置信度
for seg in result["segments"]:
  print(f"[{seg['start']:.2f}s → {seg['end']:.2f}s] {seg['text']}")

💡 实用技巧：
initial_prompt 是提高专有名词准确率的关键——告诉 Whisper 上下文里有"卷积神经网络""注意力机制"等术语，识别率明显提升。condition_on_previous_text=False 建议在语音分段明确时开启，能减少幻觉。

七、社区生态：把 Whisper 玩出花

Whisper 强大的社区造就了丰富的周边工具，覆盖了它本身的短板：

工具	解决的问题	核心亮点
faster-whisper	推理速度慢	CTranslate2 加速，4倍提速 + 内存减半
whisper.cpp	Python 依赖重	纯 C++ 实现，iOS/Android 都能跑
whisperX	说话人区分	自动说话人分离 + 精准对齐
Buzz	没图形界面	桌面 GUI，一键转写 + 实时麦克风
MacWhisper	macOS 原生体验	拖拽文件转写，支持 Apple Silicon 加速
insanely-fast-whisper	长音频处理慢	Flash Attention 2 + BetterTransformer，再快10倍

实际生产环境推荐组合：faster-whisper + large-v3/turbo作为推理引擎，whisperX处理需要说话人识别的场景。

八、典型应用场景

场景	方案
📝 会议纪要	录音 → Whisper 转写 → GPT/Claude 生成纪要 → 自动发送邮件
🎬 视频字幕	视频提音轨 → Whisper 生成 SRT → 导入剪辑软件 → 微调时间轴
📚 课程笔记	录播课音频批量转写 → Markdown 格式化 → 知识库索引
🎙 播客处理	WhisperX 说话人分离 → 带角色标注的带时间戳文稿
🔍 全文检索	所有音频存档转文字 → 文本索引 → 搜索关键词定位到精确秒
🤖 语音助手	麦克风输入 → Whisper 实时转写 → LLM 回复 → TTS 朗读