语音识别新王者!Cohere Transcribe 登顶开源榜首,准确率碾压 Whisper
你还在用 Whisper 做语音识别?那你可能已经落后了。
2026年3月26日,Cohere 实验室悄然发布了一个"杀手级"语音识别模型——Cohere Transcribe。这个模型一经发布,就以 5.42% 的平均词错误率登顶 Hugging Face 开放 ASR 排行榜,把 Whisper Large v3(7.44%)远远甩在身后。
更炸裂的是:它只有 20 亿参数,却跑出了 525 倍实时速度,比同级别模型快 3 倍。而且,完全开源,Apache 2.0 许可证,拿来就能用。
这不是又一个"PPT 模型",而是一个真正能打的工程级产品。今天,我们就来深度拆解这个新王者。
一、数据说话:碾压式的准确率优势
在语音识别领域,词错误率(WER)越低越好。Cohere Transcribe 在 Open ASR Leaderboard 的 8 个英语测试集上取得了全面领先:
| 模型 | 平均 WER | LibriSpeech clean | LibriSpeech other | AMI 会议 |
|---|---|---|---|---|
| Cohere Transcribe | 5.42% | 1.25% | 2.37% | 8.15% |
| Zoom Scribe v1 | 5.47% | 1.63% | 2.81% | 10.03% |
| IBM Granite 4.0 | 5.52% | 1.42% | 2.85% | 8.44% |
| Whisper Large v3 | 7.44% | 2.01% | 3.91% | 15.95% |
看到没?Whisper 的平均错误率是 7.44%,Cohere Transcribe 只有 5.42%——直接降低了 27%。
在最干净的 LibriSpeech clean 测试集上,Cohere Transcribe 的错误率只有 1.25%,这意味着每 100 个词只错 1 个。在嘈杂的 AMI 多人会议场景中,它的错误率是 8.15%,而 Whisper 是 15.95%——几乎是 Whisper 的一半。
二、不只是英语:14 种语言全面开花
很多人以为开源模型只能做英语,其他语言就拉胯。Cohere Transcribe 打破了这个刻板印象。
它支持 14 种语言:
- 欧洲语系:英语、法语、德语、意大利语、西班牙语、葡萄牙语、希腊语、荷兰语、波兰语
- 亚太语系:中文(普通话)、日语、韩语、越南语
- 中东语系:阿拉伯语
在除英语外的 13 种语言中,Cohere Transcribe 达到或超越了最佳开源模型的表现。这不是"能用"的水平,而是"最好"的水平。
更关键的是,它在多语言 ASR 排行榜上排名第 4,在开源模型中排名第 2。这意味着,如果你需要一个既开源又多语言的语音识别方案,Cohere Transcribe 就是最优解。
三、人类评测:61% 的胜率不是吹的
自动化指标再好,也得经得起人类的检验。Cohere 团队做了一个"人类偏好评估"实验:
- 让专业标注员对比 Cohere Transcribe 和其他模型的转录结果
- 评估标准:准确性、连贯性、可用性、是否幻觉、命名实体识别、格式规范
结果:Cohere Transcribe 获得了 61% 的平均胜率。在与 IBM Granite 4.0 的对比中,胜率更是高达 78%。
这说明什么?说明它的优势不只是"数字好看",而是真正能用、用户真正喜欢。
四、架构揭秘:为什么它又快又准?
Cohere Transcribe 的核心架构是 Fast-Conformer 编码器 + 轻量级 Transformer 解码器。这个设计有两个巧妙之处:
1. 非对称参数分配
20 亿参数中,超过 90% 分配给编码器,解码器只占很小一部分。这样做的好处是:
- 编码器负责"听懂"音频,参数多意味着理解能力强
- 解码器负责"输出"文字,参数少意味着推理速度快
2. 极致的推理优化
Cohere 团队和 vLLM 深度合作,重新设计了调度器,支持可变长度音频的细粒度并发执行。结果:
- 525 倍实时速度(1 小时音频只需 7 秒处理)
- 吞吐量提升 2 倍
这不是实验室里的"理论速度",而是生产环境中真实跑出来的数据。
五、训练秘籍:50 万小时音频 + 数据增强
Cohere Transcribe 在 50 万小时的精选音频-文本对上训练,这个数据量已经是工业级水平。但更重要的是数据质量:
- 使用 16k 多语言 BPE 分词器,支持字节回退机制(遇到未知字符不会崩溃)
- 应用了信噪比 0-30 分贝的非语音背景噪声增强(模拟真实嘈杂环境)
- 严格的音频去污染检查(确保测试集和训练集没有重叠)
这些细节决定了模型在真实场景中的鲁棒性。
六、怎么用?三行代码搞定
Cohere Transcribe 已经原生集成到 Hugging Face Transformers 库,用起来非常简单:
from transformers import AutoProcessor, CohereAsrForConditionalGeneration
from transformers.audio_utils import load_audio
# 加载模型
processor = AutoProcessor.from_pretrained("CohereLabs/cohere-transcribe-03-2026")
model = CohereAsrForConditionalGeneration.from_pretrained(
"CohereLabs/cohere-transcribe-03-2026",
device_map="auto"
)
# 加载音频
audio = load_audio("your_audio.wav", sampling_rate=16000)
# 转录
inputs = processor(audio, sampling_rate=16000, return_tensors="pt", language="en")
inputs.to(model.device, dtype=model.dtype)
outputs = model.generate(**inputs, max_new_tokens=256)
text = processor.decode(outputs, skip_special_tokens=True)
print(text)
就这么简单。 不需要复杂的配置,不需要手动预处理,直接传音频文件路径就行。
生产部署:vLLM 一键启动
如果你要做生产级部署,Cohere 推荐用 vLLM:
# 安装 vLLM
uv pip install -U vllm --torch-backend=auto
uv pip install vllm[audio] librosa
# 启动服务
vllm serve CohereLabs/cohere-transcribe-03-2026 --trust-remote-code
# 发送请求
curl -X POST http://localhost:8000/v1/audio/transcriptions \
-F "file=@your_audio.wav" \
-F "model=CohereLabs/cohere-transcribe-03-2026"
一条命令启动服务,一个 API 调用搞定转录。 这才是工程师喜欢的风格。
七、局限性:没有完美的模型
Cohere Transcribe 虽然强大,但也有三个明确的局限:
-
不支持自动语言检测:你必须手动指定语言代码(如
language="en")。如果音频中混杂多种语言(code-switching),效果会不稳定。 -
不支持时间戳和说话人分离:如果你需要"第 3 秒到第 5 秒是张三说的话",这个模型做不到。你需要额外的工具链。
-
对静音敏感:像大多数 ASR 模型一样,它会"急于转录",即使是非语音的噪音也可能被识别成文字。建议在前面加一个 VAD(语音活动检测)模块过滤静音。
但这些局限都是可以通过工程手段解决的。 核心的转录能力,它已经做到了开源最强。
八、生态支持:不只是 Python
Cohere Transcribe 的生态已经非常完善:
- Transformers:原生支持,推荐用于离线推理
- vLLM:生产级部署,支持高并发
- mlx-audio:Apple Silicon 优化版本
- Rust 实现:
cohere_transcribe_rs,适合嵌入式场景 - 浏览器端:通过
transformers.js和 WebGPU 在浏览器中运行 - Chrome 扩展:
cohere_transcribe_extension - iOS App:Whisper Memos 已集成
这意味着,无论你用什么技术栈,都能找到对应的集成方案。
九、为什么它能赢?三个关键决策
回顾 Cohere Transcribe 的成功,有三个关键决策值得学习:
1. 专注做一件事
它不是"多模态大模型",而是专注于语音识别的专用模型。这种专注让它在单一任务上做到极致。
2. 工程优先
从一开始就考虑生产部署,而不是"先发论文再说"。与 vLLM 的深度合作、对 Transformers 的原生支持,都体现了这种工程思维。
3. 开源策略
Apache 2.0 许可证,没有任何使用限制。这让它能快速积累用户和生态,形成正向循环。
十、总结:语音识别的新基准
Cohere Transcribe 的发布,标志着开源语音识别进入了一个新阶段:
- 准确率:5.42% 平均 WER,开源榜首
- 速度:525 倍实时速度,比同级快 3 倍
- 多语言:14 种语言,全面领先
- 易用性:三行代码搞定,生态完善
- 开源:Apache 2.0,拿来就用
如果你还在用 Whisper,是时候试试 Cohere Transcribe 了。如果你正在选型语音识别方案,这个模型应该是你的首选。
语音识别的新王者,已经来了。
相关资源
- 模型地址:https://huggingface.co/CohereLabs/cohere-transcribe-03-2026
- 技术博客:https://huggingface.co/blog/CohereLabs/cohere-transcribe-03-2026-release
- 官方公告:https://cohere.com/blog/transcribe
- Open ASR Leaderboard:https://huggingface.co/spaces/hf-audio/open_asr_leaderboard
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)