系列篇章💥

No. 文章
1 【GitHub开源AI精选】LLM 驱动的影视解说工具:Narrato AI 一站式高效创作实践
2 【GitHub开源AI精选】德国比勒费尔德大学TryOffDiff——高保真服装重建的虚拟试穿技术新突破
3 【GitHub开源AI精选】哈工大(深圳)& 清华力作 FilmAgent:剧本自动生成 + 镜头智能规划,开启 AI 电影制作新时代
4 【GitHub开源AI精选】Lumina - Image 2.0 文生图模型,以小参数量实现高分辨率多图生成新突破
5 【GitHub开源AI精选】探索 Mobile-Agent:X-PLUG 推出的创新型移动智能操作代理
6 【GitHub开源AI精选】吴恩达团队开源VisionAgent:用自然语言开启计算机视觉新时代
7 【GitHub开源AI精选】Oumi:一站式AI开发平台,涵盖训练、评估与部署全流程
8 【GitHub开源AI精选】深入剖析RealtimeSTT:开源实时语音转文本库的强大功能与应用
9 【GitHub开源AI精选】PodAgent:多智能体协作播客生成框架,自动化打造高质量播客,赋能内容创作与品牌传播
10 【GitHub开源AI精选】OpenManus开源AI工具:3小时复刻Manus,39.5k星
11 【GitHub开源AI精选】OpenGlass:大模型赋能的开源方案,25美元打造智能眼镜,支持语音控制+AR叠加
12 【GitHub开源AI精选】AppAgentX:西湖大学发布可自主进化的手机智能体,实现GUI操作的高效与智能
13 【GitHub开源AI精选】Agent-S架构揭秘:低代码+多模态融合的智能体新范式
14 【GitHub开源AI精选】Open-Interface:大模型驱动的计算机“自动驾驶”系统|自然语言操控的自动化工具
15 【GitHub开源AI精选】2025年AI工程师必备!AgentOps五大功能重构智能体开发流程
16 【GitHub开源AI精选】LangManus:社区驱动的多智能体AI自动化框架,开启复杂任务处理新纪元
17 【GitHub开源AI精选】autoMate:AI 驱动的本地自动化助手,用自然语言解锁高效办公,让电脑任务自己动起来
18 【GitHub开源AI精选】Sitcom-Crafter:北航联合港中文等高校打造的剧情驱动3D动作生成系统
19 【GitHub开源AI精选】Local Deep Researcher:本地化部署的AI研究助手,零门槛开启智能研究
20 【GitHub开源AI精选】Browser Use:开源AI自动化工具,让AI像人类一样操控网页
21 【GitHub开源AI精选】LLaVA-Med:微软打造的生物医学领域多模态AI助手,助力医疗智能化
22 【GitHub开源AI精选】RF-DETR:Roboflow 的实时目标检测模型『边缘设备鹰眼』,低至160FPS的工业级检测利器
23 【GitHub开源AI精选】MegaTTS 3:字节跳动开源语音利器,吊打VALL-E,自然度逼近真人录音
24 【GitHub开源AI精选】LocAgent:斯坦福联合耶鲁大学等机构推出的代码问题定位智能体
25 【GitHub开源AI精选】WhisperX:70倍实时语音转录!革命性词级时间戳与多说话人分离技术
26 【GitHub开源AI精选】Crawl4AI:LLM专属极速开源爬虫利器、1秒处理百万级数据
27 【GitHub开源AI精选】Oliva:开源语音RAG助手,一句话秒搜海量数据,多AI协作颠覆传统搜索
28 【GitHub开源AI精选】UFO²:微软开源的 Windows 桌面 Agent 操作系统,开启智能自动化新时代
29 【GitHub开源AI精选】ebook2audiobook:AI驱动的电子书转有声书利器,支持1107种语言+语音克隆
30 【GitHub开源AI精选】WebThinker:赋能大型推理模型的自主科研新范式
31 【GitHub开源AI精选】ZeroSearch:阿里巴巴开源的大模型搜索引擎框架,无需真实搜索引擎交互
32 【GitHub开源AI精选】Toolkami:极简AI Agent框架,七种工具实现高效轻量化开发
33 【GitHub开源AI精选】Docext:NanoNets 打造的文档提取利器,本地化、高效能、免费开源
34 【GitHub开源AI精选】SketchVideo:手残党福音!草图秒变大片,快手黑科技让创作效率飙升300%
35 【GitHub开源AI精选】NLWeb:微软开源的自然语言交互利器,让网站秒变智能AI应用
36 【GitHub开源AI精选】ScrapeGraphAI:基于LLM的智能爬虫,多页面爬取、语音生成,开启数据提取新纪元
37 【GitHub开源AI精选】FaceShot:同济大学联合上海 AI Lab 推出的无需训练肖像动画生成框架
38 【GitHub开源AI精选】Minion Agent:开源界的“全能王”,深度研究、自动规划全搞定
39 【GitHub开源AI精选】AgenticSeek:开源本地通用AI Agent,打造自主执行任务的智能助手
40 【GitHub开源AI精选】Morphik:开源多模态检索增强生成工具,助力AI应用开发
41 【GitHub开源AI精选】TEN VAD:高性能实时语音活动检测系统,助力AI对话系统高效交互
42 【GitHub开源AI精选】Google AI Edge Gallery:谷歌赋能的离线AI模型探索利器
43 【GitHub开源AI精选】PandasAI:一键开启数据对话时代,非技术用户也能轻松上手
44 【GitHub开源AI精选】ContentV:字节跳动开源的高效文生视频模型框架,助力AI视频生成技术突破
45 【GitHub开源AI精选】VRAG-RL:阿里通义推出的多模态RAG推理框架,助力视觉信息理解与生成
46 【GitHub开源AI精选】MultiTalk:中山大学与美团联合打造的音频驱动多人对话视频生成框架
47 【GitHub开源AI精选】Salesforce开源项目MAS-Zero:零监督下的多智能体系统设计框架
48 【GitHub开源AI精选】InftyThink:浙大联合北大打造的无限深度推理范式,突破大模型长推理瓶颈
49 【GitHub开源AI精选】RAG-Anything:港大开源利器、让AI真正理解复杂文档,PDF、表格、公式全能读
50 【GitHub开源AI精选】PreenCut深度解析:开源AI视频剪辑利器,用自然语言一句话精准定位片段
51 【GitHub开源AI精选】TradingAgents-CN:基于多智能体LLM的中文金融交易决策框架深度解析
52 【GitHub开源AI精选】KlicStudio:极简 AI 视频翻译配音工具,让跨平台内容本地化效率翻倍,GitHub狂揽7.9k星
53 【GitHub开源AI精选】JoyAgent-JDGenie:京东开源的通用多智能体系统,助力AI应用落地
54 【GitHub开源AI精选】SuperDesign:开源AI设计Agent,让你的设计从想法到实现只需60秒
55 【GitHub开源AI精选】WeKnora:腾讯开源的文档理解与语义检索框架,助力智能问答与知识管理
56 【GitHub开源AI精选】LandPPT:开源AI PPT生成工具,助力演示文稿高效创作
57 【GitHub开源AI精选】NeuralAgent:开源桌面AI助手,助力高效生产力与自动化任务执行
58 【GitHub开源AI精选】开源AI桌面助手Glass:实时屏幕捕捉与音频识别,助力高效办公
59 【GitHub开源AI精选】MiroFlow:开源多Agent系统开发框架,助力AI大模型高效开发
60 【GitHub开源AI精选】ScreenCoder:开源智能UI截图转代码工具,助力前端开发自动化
61 【GitHub开源AI精选】OxyGent:京东开源的多智能体协作框架,助力高效智能系统开发
62 【GitHub开源AI精选】Hugging Face AI Sheets:开源无代码构建、丰富和转换数据集的利器
63 【GitHub开源AI精选】Coze Studio:字节跳动开源的AI智能体开发平台,一站式构建与部署AI应用
64 【GitHub开源AI精选】Chaterm:开源的AI终端工具,运维版Cursor,助力高效云管理
65 【GitHub开源AI精选】MobileUse:由MadeAgents打造的分层反思驱动的移动自动化GUI代理
66 【GitHub开源AI精选】WhisperLiveKi:开源实时语音识别利器,实时转写+说话人识别+完全本地部署,一键搞定会议纪要
67 【GitHub开源AI精选】Open-Fiesta:开源AI聊天平台,多模型并行对比的新选择
68 【GitHub开源AI精选】AgentScope:阿里开源多智能体核弹、并行工具+Actor架构+秒级介入+沙箱隔离
69 【GitHub开源AI精选】Super Agent Party:开源3D AI桌面伴侣,开启智能交互新体验(聊天、写代码、控直播)
70 【GitHub开源AI精选】Parlant:为企业级应用而生的开源LLM智能体框架,打造“AI员工监工”,让LLM可解释、可审计
71 【GitHub开源AI精选】AI-Video-Transcriber:开源AI视频转录与摘要工具,支持30+平台,赋能高效内容处理
72 【GitHub开源AI精选】DeepDoc:开源本地知识库深度研究工具,多格式文档解析与智能报告生成
73 【GitHub开源AI精选】Strix:AI驱动的安全测试先锋,助力应用安全防护
74 【GitHub开源AI精选】通义DeepResearch:开源深度研究智能体,助力复杂信息检索与多步推理
75 【GitHub开源AI精选】Presentation-AI:ALLWEONE团队打造的开源AI演示文稿生成工具
76 【GitHub开源AI精选】SciToolAgent:浙大开源的知识图谱驱动的科研利器
77 【GitHub开源AI精选】FireRedChat:小红书开源的全双工语音交互系统,开启智能语音新时代
78 【GitHub开源AI精选】OpenLens AI:清华推出的医学研究全自主AI助手,开启科研新纪元
79 【GitHub开源AI精选】StableAvatar:复旦大学联合微软亚洲研究院推出的无限时长音频驱动虚拟形象视频生成技术框架
80 【GitHub开源AI精选】MineContext:字节开源的主动式上下文感知 AI 工具,助力高效信息管理
81 【GitHub开源AI精选】LLaVA-OneVision-1.5:面向多模态训练大众化的全开源框架
82 【GitHub开源AI精选】Glyph:智谱与清华开源的视觉文本压缩框架,突破大模型上下文限制
83 【GitHub开源AI精选】DiaMoE-TTS:清华 & 巨人网络开源的多方言语音合成利器
84 【GitHub开源AI精选】Meta Omnilingual ASR:支持1600+语言的开源多语言语音识别技术
85 【GitHub开源AI精选】DeepEyesV2:迈向多模态智能体的新里程碑
86 【GitHub开源AI精选】Kosong:月之暗面开源的AI代理开发利器,赋能智能体应用构建
87 【GitHub开源AI精选】SmartResume:阿里巴巴开源高效智能简历解析系统
88 【GitHub开源AI精选】Lumine:字节跳动打造的3D开放世界通用AI智能体,开启跨游戏智能交互新时代
89 【GitHub开源AI精选】Skywork R1V4-Lite:实时交互、深度推理,多模态智能体的全能王
90 【GitHub开源AI精选】MemOS:解锁AI记忆潜能,打造“记忆原生”的智能系统
91 【GitHub开源AI精选】Supertonic:开源AI驱动的极速离线TTS引擎,重塑语音合成新体验
92 【GitHub开源AI精选】ViMax:香港大学开源的多智能体视频生成框架,一键实现创意到视频的跨越
93 【GitHub开源AI精选】Open-AutoGLM:智谱AI开源的手机端智能助理框架,开启自动化操作新时代
94 【GitHub开源AI精选】Paper2Slides:一键将论文转为专业幻灯片的AI工具
95 【GitHub开源AI精选】Wan-Move:阿里开源的高性能运动可控视频生成框架
96 【GitHub开源AI精选】LightX2V:商汤开源的实时视频生成推理框架,推动视频创作新纪元
97 【GitHub开源AI精选】Step-GUI:阶跃星辰推出的高效GUI自动化AI Agent
98 【GitHub开源AI精选】Live Avatar:阿里巴巴联合高校开源的实时音频驱动数字人生成系统
99 【GitHub开源AI精选】AutoMV:开源多智能体音乐视频生成系统,开启AI创作新时代
100 【GitHub开源AI精选】TuriX-CUA:开源AI桌面Agent,让AI像真人一样接管Windows和macOS
101 【GitHub开源AI精选】EvoCUA:美团开源的多模态计算机操作智能体,重塑自动化新范式
102 【GitHub开源AI精选】小红书FireRedASR2S开源发布:集成ASR/VAD/LID/Punc四大模块的工业级语音识别系统


前言

在智能语音交互技术 rapidly evolving 的今天,中文语音识别领域迎来重要突破。2026年2月12日,小红书Super Intelligence-AudioLab团队正式开源其工业级端到端语音识别系统FireRedASR2S。该系统在小红书内部语音评论、语音搜索等高并发场景历经实战检验,现以Apache-2.0协议开放,为开发者提供开箱即用的一体化语音解决方案。
在这里插入图片描述

一、项目概述

FireRedASR2S是小红书Super Intelligence-AudioLab开源的工业级一体化语音识别系统,集成ASR(自动语音识别)、VAD(语音活动检测)、LID(语种识别)和Punc(标点预测)四大核心模块,支持普通话、20余种方言、英语、中英混合、代码语音及歌词识别,在24个测试集上平均字错率低至9.67%,达到当前开源领域SOTA水平。该系统采用模块化架构设计,各组件既可协同工作构建端到端语音处理流程,也可独立部署满足特定业务需求,为企业提供高性能、易集成、可私有化的全栈语音技术方案。

二、核心功能

(一)FireRedASR2:高精度语音识别引擎

提供LLM与AED双架构版本。LLM版融合大语言模型语义理解能力,适合复杂语境;AED版在经典架构上引入轻量适配器,支持逐字级时间戳与置信度输出。支持普通话、20余种方言、英语、中英混合及歌词识别,普通话CER低至2.89%,方言平均CER 11.55%,24个测试集平均字错率9.67%,达到开源SOTA水平。

(二)FireRedVAD:智能语音活动检测

基于DFSMN架构构建时序建模主干,支持100余种语言的流式与非流式处理。精准区分语音、非语音段,具备歌声与背景音乐识别能力。Fleurs测试集F1分数达97.57%,超越Silero-VAD等主流方案,为后续识别模块提供精准语音边界定位,支撑实时交互场景的低延迟需求。

(三)FireRedLID:多语种智能识别

复用ASR共享编码器提取通用语音表征,通过轻量分类头完成语种与方言判别。支持100余种国际语言及20余种中文方言识别,在跨语言统一语义空间中判别,整体准确率97.18%,显著优于Whisper的79.41%。自动适配多语种输入,为全球化应用提供基础能力支撑。

(四)FireRedPunc:智能标点预测

基于BERT架构,对无标点文本预测标点类别。经中英文多领域语料联合微调,深刻理解上下文语义与句法结构,平均F1分数78.90%,显著优于FunASR-Punc的62.77%。显著提升转写文本自然度与可读性,使语音识别结果可直接阅读,无需人工后处理。

三、技术揭秘

(一)、双路径ASR架构设计

LLM版采用Encoder-Adapter-LLM模式,通过适配器层将语音特征映射至大模型语义空间,利用大模型理解能力处理复杂语境与歧义表达,特别适合中英混杂、口语化场景。AED版优化经典Attention Encoder-Decoder架构,引入轻量适配器,在精度与效率间取得平衡,原生输出字级时间戳与置信度,满足字幕生成等时间敏感应用。

(二)、模块化与端到端协同

采用"高内聚、低耦合"设计理念,四模块保持自包含与独立性,均可独立初始化、推理、部署。同时提供端到端流水线封装,自动协调VAD→LID→ASR→Punc处理流程,实现一键式语音转写。既满足灵活组合特定能力的开发者需求,也降低全链路应用的技术门槛,适配多样化业务场景。

(三)、多任务学习与跨语言表征

FireRedASR2与FireRedLID共享编码器,体现多任务学习思想。通过海量多语种数据预训练,构建跨语言统一语音表征空间,捕捉不同语种共性声学特征,通过任务特定分类头实现细粒度方言区分。此设计显著提升模型在低资源方言上的泛化能力,支撑20余种方言的高精度识别。

(四)、流式处理与实时性优化

FireRedVAD支持流式处理,基于滑动窗口平滑策略与动态阈值机制,实现低延迟语音边界检测。DFSMN架构相比RNN具有更稳定梯度传播与更高并行计算效率,配合精心设计的缓存机制,使系统在资源受限移动设备上流畅运行,支撑小红书语音评论、语音搜索等高并发实时业务场景。

四、应用场景

(一)、内容社区交互升级

FireRedASR2S已在小红书平台实现规模化落地,支撑语音评论、语音搜索等高频功能。用户可使用方言、唱歌、快板等多种形式自由表达,系统精准识别并转化为文本,强化社区"真人感"与互动趣味性。在2025年春节"语音拜年"活动中,系统实现了"用户说出祝福瞬间,字幕逐字浮现、烟花同步绽放"的沉浸式体验,背后正是FireRedASR2S提供的低延迟高精度识别能力。

(二)、社交沟通体验优化

在语音私信、节日语音祝福等场景中,FireRedASR2S实现边说边转、所听即所得的实时语音输入体验。VAD模块精准检测语音起止,避免误触发;LID模块自动识别语种,无需手动切换;Punc模块自动添加标点,使转写文本可直接阅读。这一流程显著降低表达门槛,增强情感传达效率。

(三)、多媒体内容生产提效

对于内容创作者,FireRedASR2S支持语音发布笔记、直播实时字幕、短视频自动生成字幕等功能。AED版本提供的字级时间戳功能,使生成的字幕可与视频画面精准对齐。系统支持的歌词识别能力,特别适合音乐类内容的字幕生成。这些功能助力创作者快速完成音视频内容加工与传播。

(四)、企业级智能服务支撑

FireRedASR2S适用于会议纪要生成、智能语音客服、通话质量分析等B端业务。系统支持完全私有化部署,无需依赖外部API,满足金融、政务、医疗等行业对数据主权与合规性的严苛要求。模块化设计使企业可根据业务特点灵活选择所需能力,如仅部署VAD进行通话质检,或组合ASR与Punc生成结构化会议记录。

(五)、跨语言国际化应用

凭借100余种语言识别能力与97.18%的语种识别准确率,FireRedASR2S可支撑跨国企业的多语言会议系统、跨境电商平台的客服语音交互、国际教育平台的口语评测等场景。统一的跨语言表征空间确保模型在资源稀缺语种上仍具备基本识别能力。

五、快速使用

(一)、环境准备与安装

FireRedASR2S提供开箱即用的部署方案,支持Python 3.10环境。以下是详细的安装步骤:

1. 创建Python虚拟环境

conda create --name fireredasr2s python=3.10
conda activate fireredasr2s
git clone https://github.com/FireRedTeam/FireRedASR2S.git
cd FireRedASR2S

2. 安装依赖库

pip install -r requirements.txt
export PATH=$PWD/fireredasr2s/:$PATH
export PYTHONPATH=$PWD/:$PYTHONPATH

3. 下载预训练模型

系统提供Hugging Face与ModelScope双渠道下载,国内用户推荐使用ModelScope:

# ModelScope下载(推荐国内用户)
pip install -U modelscope
modelscope download --model FireRedTeam/FireRedASR2-AED --local_dir ./pretrained_models/FireRedASR2-AED
modelscope download --model FireRedTeam/FireRedVAD --local_dir ./pretrained_models/FireRedVAD
modelscope download --model FireRedTeam/FireRedLID --local_dir ./pretrained_models/FireRedLID
modelscope download --model FireRedTeam/FireRedPunc --local_dir ./pretrained_models/FireRedPunc

# Hugging Face下载
pip install -U "huggingface_hub[cli]"
huggingface-cli download FireRedTeam/FireRedASR2-AED --local-dir ./pretrained_models/FireRedASR2-AED
huggingface-cli download FireRedTeam/FireRedVAD --local-dir ./pretrained_models/FireRedVAD
huggingface-cli download FireRedTeam/FireRedLID --local-dir ./pretrained_models/FireRedLID
huggingface-cli download FireRedTeam/FireRedPunc --local-dir ./pretrained_models/FireRedPunc

(二)、音频格式预处理

FireRedASR2S要求输入音频为16kHz采样率、16位位深、单声道PCM格式。使用FFmpeg进行格式转换:

ffmpeg -i <input_audio_path> -ar 16000 -ac 1 -acodec pcm_s16le -f wav <output_wav_path>

(三)、端到端语音识别实践

系统提供完整的端到端推理示例,位于examples_infer/asr_system目录:

cd examples_infer/asr_system
bash inference_asr_system.sh

该脚本将自动执行VAD检测→语种识别→语音识别→标点预测的完整流程,输出结构化JSON结果,包含识别文本、时间戳、置信度、语种标签等丰富信息。

(四)、单模块独立调用

开发者也可根据需求独立调用特定模块。例如,仅使用VAD模块检测音频中的语音段:

from fireredasr2s.fireredvad import FireRedVad, FireRedVadConfig

vad_config = FireRedVadConfig(
    use_gpu=False,
    smooth_window_size=5,
    speech_threshold=0.4,
    min_speech_frame=20,
    max_speech_frame=2000,
    min_silence_frame=20,
    merge_silence_frame=0,
    extend_speech_frame=0,
    chunk_max_frame=30000)
vad = FireRedVad.from_pretrained("pretrained_models/FireRedVAD/VAD", vad_config)

result, probs = vad.detect("assets/hello_zh.wav")

print(result)
# {'dur': 2.32, 'timestamps': [(0.44, 1.82)], 'wav_path': 'assets/hello_zh.wav'}

(五)、输入限制与性能优化

需要注意,当前版本对输入长度有限制:AED版本最高支持60秒音频,LLM版本支持最长30秒音频。对于长音频处理,建议先使用VAD切分后再批量识别。在GPU环境下,可通过调整batch size与使用半精度推理(FP16)进一步提升吞吐量。后续开发团队将发布技术报告与微调代码,支持领域自适应训练。

结语

FireRedASR2S的开源标志着中文语音识别技术进入新的发展阶段。小红书Super Intelligence-AudioLab团队将经过大规模业务验证的工业级系统开放给社区,不仅提供了当前开源领域SOTA的识别精度,更通过模块化设计、双架构选择、私有化部署支持等特性,满足了从个人开发者到企业用户的多样化需求。无论是构建实时语音交互应用、多媒体内容生产工具,还是企业级语音服务系统,FireRedASR2S都提供了坚实的技术基础。

项目地址

  • GitHub项目主页:https://github.com/FireRedTeam/FireRedASR2S
  • HuggingFace模型中心:https://huggingface.co/collections/FireRedTeam/fireredasr2s
  • ModelScope模型库:https://www.modelscope.cn/organization/FireRedTeam

在这里插入图片描述

🎯🔖更多专栏系列文章:AI大模型提示工程完全指南AI大模型探索之路(零基础入门)AI大模型预训练微调进阶AI大模型开源精选实践AI大模型RAG应用探索实践🔥🔥🔥 其他专栏可以查看博客主页📑

😎 作者介绍:资深程序老猿,从业10年+、互联网系统架构师,目前专注于AIGC的探索(CSDN博客之星|AIGC领域优质创作者)
📖专属社群:欢迎关注【小兵的AI视界】公众号或扫描下方👇二维码,回复‘入群’ 即刻上车,获取邀请链接。
💘领取三大专属福利:1️⃣免费赠送AI+编程📚500本,2️⃣AI技术教程副业资料1套,3️⃣DeepSeek资料教程1套🔥(限前500人)
如果文章内容对您有所触动,别忘了点赞、⭐关注,收藏!加入我们,一起携手同行AI的探索之旅,开启智能时代的大门!

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐