【GitHub开源AI精选】小红书FireRedASR2S开源发布:集成ASR/VAD/LID/Punc四大模块的工业级语音识别系统
系列篇章💥
前言
在智能语音交互技术 rapidly evolving 的今天,中文语音识别领域迎来重要突破。2026年2月12日,小红书Super Intelligence-AudioLab团队正式开源其工业级端到端语音识别系统FireRedASR2S。该系统在小红书内部语音评论、语音搜索等高并发场景历经实战检验,现以Apache-2.0协议开放,为开发者提供开箱即用的一体化语音解决方案。
一、项目概述
FireRedASR2S是小红书Super Intelligence-AudioLab开源的工业级一体化语音识别系统,集成ASR(自动语音识别)、VAD(语音活动检测)、LID(语种识别)和Punc(标点预测)四大核心模块,支持普通话、20余种方言、英语、中英混合、代码语音及歌词识别,在24个测试集上平均字错率低至9.67%,达到当前开源领域SOTA水平。该系统采用模块化架构设计,各组件既可协同工作构建端到端语音处理流程,也可独立部署满足特定业务需求,为企业提供高性能、易集成、可私有化的全栈语音技术方案。
二、核心功能
(一)FireRedASR2:高精度语音识别引擎
提供LLM与AED双架构版本。LLM版融合大语言模型语义理解能力,适合复杂语境;AED版在经典架构上引入轻量适配器,支持逐字级时间戳与置信度输出。支持普通话、20余种方言、英语、中英混合及歌词识别,普通话CER低至2.89%,方言平均CER 11.55%,24个测试集平均字错率9.67%,达到开源SOTA水平。
(二)FireRedVAD:智能语音活动检测
基于DFSMN架构构建时序建模主干,支持100余种语言的流式与非流式处理。精准区分语音、非语音段,具备歌声与背景音乐识别能力。Fleurs测试集F1分数达97.57%,超越Silero-VAD等主流方案,为后续识别模块提供精准语音边界定位,支撑实时交互场景的低延迟需求。
(三)FireRedLID:多语种智能识别
复用ASR共享编码器提取通用语音表征,通过轻量分类头完成语种与方言判别。支持100余种国际语言及20余种中文方言识别,在跨语言统一语义空间中判别,整体准确率97.18%,显著优于Whisper的79.41%。自动适配多语种输入,为全球化应用提供基础能力支撑。
(四)FireRedPunc:智能标点预测
基于BERT架构,对无标点文本预测标点类别。经中英文多领域语料联合微调,深刻理解上下文语义与句法结构,平均F1分数78.90%,显著优于FunASR-Punc的62.77%。显著提升转写文本自然度与可读性,使语音识别结果可直接阅读,无需人工后处理。
三、技术揭秘
(一)、双路径ASR架构设计
LLM版采用Encoder-Adapter-LLM模式,通过适配器层将语音特征映射至大模型语义空间,利用大模型理解能力处理复杂语境与歧义表达,特别适合中英混杂、口语化场景。AED版优化经典Attention Encoder-Decoder架构,引入轻量适配器,在精度与效率间取得平衡,原生输出字级时间戳与置信度,满足字幕生成等时间敏感应用。
(二)、模块化与端到端协同
采用"高内聚、低耦合"设计理念,四模块保持自包含与独立性,均可独立初始化、推理、部署。同时提供端到端流水线封装,自动协调VAD→LID→ASR→Punc处理流程,实现一键式语音转写。既满足灵活组合特定能力的开发者需求,也降低全链路应用的技术门槛,适配多样化业务场景。
(三)、多任务学习与跨语言表征
FireRedASR2与FireRedLID共享编码器,体现多任务学习思想。通过海量多语种数据预训练,构建跨语言统一语音表征空间,捕捉不同语种共性声学特征,通过任务特定分类头实现细粒度方言区分。此设计显著提升模型在低资源方言上的泛化能力,支撑20余种方言的高精度识别。
(四)、流式处理与实时性优化
FireRedVAD支持流式处理,基于滑动窗口平滑策略与动态阈值机制,实现低延迟语音边界检测。DFSMN架构相比RNN具有更稳定梯度传播与更高并行计算效率,配合精心设计的缓存机制,使系统在资源受限移动设备上流畅运行,支撑小红书语音评论、语音搜索等高并发实时业务场景。
四、应用场景
(一)、内容社区交互升级
FireRedASR2S已在小红书平台实现规模化落地,支撑语音评论、语音搜索等高频功能。用户可使用方言、唱歌、快板等多种形式自由表达,系统精准识别并转化为文本,强化社区"真人感"与互动趣味性。在2025年春节"语音拜年"活动中,系统实现了"用户说出祝福瞬间,字幕逐字浮现、烟花同步绽放"的沉浸式体验,背后正是FireRedASR2S提供的低延迟高精度识别能力。
(二)、社交沟通体验优化
在语音私信、节日语音祝福等场景中,FireRedASR2S实现边说边转、所听即所得的实时语音输入体验。VAD模块精准检测语音起止,避免误触发;LID模块自动识别语种,无需手动切换;Punc模块自动添加标点,使转写文本可直接阅读。这一流程显著降低表达门槛,增强情感传达效率。
(三)、多媒体内容生产提效
对于内容创作者,FireRedASR2S支持语音发布笔记、直播实时字幕、短视频自动生成字幕等功能。AED版本提供的字级时间戳功能,使生成的字幕可与视频画面精准对齐。系统支持的歌词识别能力,特别适合音乐类内容的字幕生成。这些功能助力创作者快速完成音视频内容加工与传播。
(四)、企业级智能服务支撑
FireRedASR2S适用于会议纪要生成、智能语音客服、通话质量分析等B端业务。系统支持完全私有化部署,无需依赖外部API,满足金融、政务、医疗等行业对数据主权与合规性的严苛要求。模块化设计使企业可根据业务特点灵活选择所需能力,如仅部署VAD进行通话质检,或组合ASR与Punc生成结构化会议记录。
(五)、跨语言国际化应用
凭借100余种语言识别能力与97.18%的语种识别准确率,FireRedASR2S可支撑跨国企业的多语言会议系统、跨境电商平台的客服语音交互、国际教育平台的口语评测等场景。统一的跨语言表征空间确保模型在资源稀缺语种上仍具备基本识别能力。
五、快速使用
(一)、环境准备与安装
FireRedASR2S提供开箱即用的部署方案,支持Python 3.10环境。以下是详细的安装步骤:
1. 创建Python虚拟环境
conda create --name fireredasr2s python=3.10
conda activate fireredasr2s
git clone https://github.com/FireRedTeam/FireRedASR2S.git
cd FireRedASR2S
2. 安装依赖库
pip install -r requirements.txt
export PATH=$PWD/fireredasr2s/:$PATH
export PYTHONPATH=$PWD/:$PYTHONPATH
3. 下载预训练模型
系统提供Hugging Face与ModelScope双渠道下载,国内用户推荐使用ModelScope:
# ModelScope下载(推荐国内用户)
pip install -U modelscope
modelscope download --model FireRedTeam/FireRedASR2-AED --local_dir ./pretrained_models/FireRedASR2-AED
modelscope download --model FireRedTeam/FireRedVAD --local_dir ./pretrained_models/FireRedVAD
modelscope download --model FireRedTeam/FireRedLID --local_dir ./pretrained_models/FireRedLID
modelscope download --model FireRedTeam/FireRedPunc --local_dir ./pretrained_models/FireRedPunc
# Hugging Face下载
pip install -U "huggingface_hub[cli]"
huggingface-cli download FireRedTeam/FireRedASR2-AED --local-dir ./pretrained_models/FireRedASR2-AED
huggingface-cli download FireRedTeam/FireRedVAD --local-dir ./pretrained_models/FireRedVAD
huggingface-cli download FireRedTeam/FireRedLID --local-dir ./pretrained_models/FireRedLID
huggingface-cli download FireRedTeam/FireRedPunc --local-dir ./pretrained_models/FireRedPunc
(二)、音频格式预处理
FireRedASR2S要求输入音频为16kHz采样率、16位位深、单声道PCM格式。使用FFmpeg进行格式转换:
ffmpeg -i <input_audio_path> -ar 16000 -ac 1 -acodec pcm_s16le -f wav <output_wav_path>
(三)、端到端语音识别实践
系统提供完整的端到端推理示例,位于examples_infer/asr_system目录:
cd examples_infer/asr_system
bash inference_asr_system.sh
该脚本将自动执行VAD检测→语种识别→语音识别→标点预测的完整流程,输出结构化JSON结果,包含识别文本、时间戳、置信度、语种标签等丰富信息。
(四)、单模块独立调用
开发者也可根据需求独立调用特定模块。例如,仅使用VAD模块检测音频中的语音段:
from fireredasr2s.fireredvad import FireRedVad, FireRedVadConfig
vad_config = FireRedVadConfig(
use_gpu=False,
smooth_window_size=5,
speech_threshold=0.4,
min_speech_frame=20,
max_speech_frame=2000,
min_silence_frame=20,
merge_silence_frame=0,
extend_speech_frame=0,
chunk_max_frame=30000)
vad = FireRedVad.from_pretrained("pretrained_models/FireRedVAD/VAD", vad_config)
result, probs = vad.detect("assets/hello_zh.wav")
print(result)
# {'dur': 2.32, 'timestamps': [(0.44, 1.82)], 'wav_path': 'assets/hello_zh.wav'}
(五)、输入限制与性能优化
需要注意,当前版本对输入长度有限制:AED版本最高支持60秒音频,LLM版本支持最长30秒音频。对于长音频处理,建议先使用VAD切分后再批量识别。在GPU环境下,可通过调整batch size与使用半精度推理(FP16)进一步提升吞吐量。后续开发团队将发布技术报告与微调代码,支持领域自适应训练。
结语
FireRedASR2S的开源标志着中文语音识别技术进入新的发展阶段。小红书Super Intelligence-AudioLab团队将经过大规模业务验证的工业级系统开放给社区,不仅提供了当前开源领域SOTA的识别精度,更通过模块化设计、双架构选择、私有化部署支持等特性,满足了从个人开发者到企业用户的多样化需求。无论是构建实时语音交互应用、多媒体内容生产工具,还是企业级语音服务系统,FireRedASR2S都提供了坚实的技术基础。
项目地址
- GitHub项目主页:https://github.com/FireRedTeam/FireRedASR2S
- HuggingFace模型中心:https://huggingface.co/collections/FireRedTeam/fireredasr2s
- ModelScope模型库:https://www.modelscope.cn/organization/FireRedTeam

🎯🔖更多专栏系列文章:AI大模型提示工程完全指南、AI大模型探索之路(零基础入门)、AI大模型预训练微调进阶、AI大模型开源精选实践、AI大模型RAG应用探索实践🔥🔥🔥 其他专栏可以查看博客主页📑
😎 作者介绍:资深程序老猿,从业10年+、互联网系统架构师,目前专注于AIGC的探索(CSDN博客之星|AIGC领域优质创作者)
📖专属社群:欢迎关注【小兵的AI视界】公众号或扫描下方👇二维码,回复‘入群’ 即刻上车,获取邀请链接。
💘领取三大专属福利:1️⃣免费赠送AI+编程📚500本,2️⃣AI技术教程副业资料1套,3️⃣DeepSeek资料教程1套🔥(限前500人)
如果文章内容对您有所触动,别忘了点赞、⭐关注,收藏!加入我们,一起携手同行AI的探索之旅,开启智能时代的大门!
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)