【AI大模型前沿】Covo-Audio:腾讯开源70亿参数端到端语音大模型,GPT-4o级全双工对话能力
系列篇章💥
目录
前言
最近,腾讯AI实验室开源发布了Covo-Audio——一款70亿参数的端到端语音大模型。该模型打破了传统语音助手"语音识别→语言理解→语音合成"的级联架构,实现音频到音频的原生交互,并支持全双工实时对话。本文将从技术架构、核心功能、应用场景及部署实践等维度,深度解析这一开源项目的技术价值与应用潜力。
一、项目概述
Covo-Audio是腾讯开源的70亿参数端到端音频语言模型(LALM),基于Qwen2.5-7B和Whisper-large-v3构建,通过统一架构直接处理连续音频输入并生成音频输出。模型采用分层三模态语音-文本交错架构、智能与说话人解耦技术,以及原生全双工交互能力,在口语对话、语音理解、音频理解等任务中达到同规模模型领先或竞争优势。作为完全开源的GPT-4o语音能力替代方案,Covo-Audio为中文语音AI提供了自主可控的基座模型。
二、核心功能
(一)端到端口语对话
Covo-Audio-Chat版本支持端到端的语音输入与语音输出自然多轮对话交互。与传统级联系统不同,该模型直接处理原始音频信号,避免了ASR转录误差和TTS合成失真的逐级累积,实现更自然流畅的对话体验。模型在URO-Bench中文和英文轨道的口语对话任务中表现优异,展现出强大的语境理解和指令遵循能力。
(二)深度语音理解
模型深度融合声学特征与语义内容,实现高保真语音信号的全面解析。不仅支持自动语音识别(ASR)、语音翻译(S2TT)、口语语言识别等基础任务,还能进行性别识别、说话人计数、情感识别等副语言学属性分析。在AIR-Bench情感识别任务中,Covo-Audio在愤怒、悲伤、焦虑等情感类别上获得最高分,验证了其作为支持性对话代理的有效性。
(三)广义音频感知
Covo-Audio的能力不止于语音处理,还扩展至非语音场景,具备对环境音、音乐等广义音频的综合感知能力。在MMAU-v05.15.25音频理解基准上,模型取得75.30%的平均分,在同等规模开源模型中排名第二;在MMSU基准上平均准确率达66.64%,为所有评估系统中最高,展现出强大的跨模态音频推理能力。
(四)原生全双工交互
Covo-Audio-Chat-FD(全双工版本)实现了低延迟实时双向语音通信,支持自然打断与即时响应。模型采用混合双流策略,用户语音以连续音频流输入,系统回应以离散标记序列生成,实现"边听边说"的自然交互。在URO-Bench全双工交互指标(轮流转换、暂停处理、用户打断、反向通道)上表现强劲,尤其在暂停处理方面表现出色。
(五)智能与音色解耦
通过多说话人训练技术,模型成功分离对话智能与说话人音色特征,支持高质量语音的灵活迁移与个性化定制。用户仅需少量TTS数据即可实现音色定制,而无需重新训练整个对话系统,大幅降低了端到端语音助手的部署成本。Covo-Audio-Chat-TTS变体实验证明,该技术在保留对话智能的同时成功迁移了TTS语音。
三、技术揭秘
(一)端到端统一架构设计
Covo-Audio采用四组件端到端架构实现跨模态无缝交互。音频编码器基于Whisper-large-v3,通过适配器将50Hz帧率降采样至6.25Hz。LLM骨干采用Qwen2.5-7B-Base,扩展音频编码器和离散音频token词汇表。专用语音分词器基于WavLM-large构建VQ层,16,384码本大小,25Hz速率生成离散token。高保真语音解码器采用Flow-Matching+BigVGAN两阶段分层框架,将离散token渐进式重建为24KHz高质量波形,平衡生成效率与音质保真度。
(二)分层三模态语音-文本交错策略
针对传统细粒度交错破坏长段语音语义完整性的问题,Covo-Audio提出分层三模态交错机制,融合连续声学表示、离散语音token和自然语言文本。策略包括顺序交错(ac→t→ad)和并行集成(ac→t|ad)两种模式,结合语句级和短语级片段,既保留全局上下文又保持语言自然流畅性。这种设计使模型能够建立高保真韵律与鲁棒语义的有效对齐,支持复杂的多轮对话场景中的语义连贯性维护。
(三)两阶段渐进式预训练
模型经历两阶段预训练共处理2万亿token。阶段1模态桥接冻结音频编码器和LLM,仅优化适配器,使用20万小时多语言ASR数据训练5万步,建立声音信号到语言模型的映射。阶段2语音-文本模态融合解冻适配器和LLM,采用多样化多任务目标,包含800万小时音频数据和3万亿文本token,持续50万步。这种渐进式策略首先建立音频-文本对齐,再实现深度跨模态融合,确保模型具备强大的语音理解和生成能力。
(四)全双工交互机制
Covo-Audio-Chat-FD采用混合双流策略实现全双工能力。输入流以0.16秒音频块实时流式输入,输出流以1:4块交错比例生成回应。通过THINK、SHIFT、BREAK三种特殊控制token管理对话状态:THINK表示专注倾听,SHIFT触发说话状态切换,BREAK响应用户打断。这种机制使模型能够准确判断轮次转换时机,恰当处理停顿,及时响应打断,实现接近真人的"边听边说"自然交互体验,大幅降低对话延迟感。
(五)智能-说话人解耦技术
针对高质量口语对话数据稀缺和语音定制成本高的问题,Covo-Audio提出智能-说话人解耦策略。通过多说话人训练分离对话智能与音色特征,开发上下文适应方法迁移TTS语音。将TTS录音格式化为带掩码文本损失的伪对话,在保留推理能力的同时实现高保真语音自然度。实验证明仅需少量TTS数据即可实现灵活音色定制,Covo-Audio-Chat-TTS变体在保留对话智能的同时成功迁移TTS语音,大幅降低端到端语音助手的部署成本。
四、应用场景
(一)智能客服与呼叫中心
Covo-Audio支持端到端低延迟交互与全双工打断能力,可实现自然流畅的实时语音问答。智能与音色解耦技术使企业能够快速定制品牌专属音色,提供个性化客户服务体验。模型在情感识别方面的优势,使其能够感知客户情绪变化,生成富有同理心的回应,提升客户满意度。
(二)智能硬件与IoT设备
模型可为智能音箱、车载系统、家居中控提供离线或端云结合的语音助手能力。70亿参数规模在单卡GPU上即可运行,适合部署在资源受限的边缘设备。全双工交互能力使设备能够像真人一样与用户自然对话,支持随时打断和即时响应,大幅提升交互体验。
(三)内容创作与媒体制作
支持高效生成多角色对话配音、播客内容及实时语音翻译服务。智能与音色解耦技术允许创作者为不同角色分配不同音色,而无需为每个角色单独训练模型。端到端架构避免了传统流程中的音质损失,生成音频质量更高、更自然。
(四)教育培训与语言学习
模型深度理解语音情感与韵律细节,可构建口语陪练、虚拟讲师等沉浸式个性化教学交互系统。全双工能力使虚拟教师能够实时纠正发音、自然打断提问,模拟真实教学场景。多语言支持(中文深度优化)使其成为语言学习的理想工具。
(五)无障碍服务与辅助技术
Covo-Audio以自然语音交互替代视觉界面,为视障群体、老年人提供免打字、免触屏的便捷信息获取与设备操控方式。端到端架构降低了使用门槛,用户无需学习特定指令格式,像与真人对话一样自然交流即可控制设备。
五、快速使用
(一)环境准备
Covo-Audio需要Python 3.11或更高版本环境,推荐使用conda创建虚拟环境:
# 创建并激活虚拟环境
conda create -n covoaudio python=3.11
conda activate covoaudio
# 安装依赖
pip install -r requirements.txt
(二)获取代码与模型
从GitHub克隆官方仓库并下载预训练权重:
# 克隆仓库
git clone https://github.com/Tencent/Covo-Audio.git
cd Covo-Audio
# 安装HuggingFace工具
pip install huggingface-hub
# 下载模型权重
huggingface-cli download tencent/Covo-Audio-Chat --local-dir ./covoaudio
模型采用Safetensors格式,BF16精度,下载后自动存入指定目录。
(三)配置与运行
修改example.sh中的model_dir和decode_load_path参数匹配实际模型路径,然后执行推理:
# 一键运行演示
bash example.sh
或修改example.py中的音频文件路径实现自定义输入交互:
# 在example.py中修改输入路径
input_audio_path = "your_audio_file.wav" # 替换为你的音频文件
六、结语
Covo-Audio的发布标志着开源语音大模型领域的重要突破。通过端到端统一架构、分层三模态交错、智能与音色解耦等技术创新,70亿参数规模的模型实现了媲美GPT-4o的语音交互能力,同时保持完全开源和可本地部署的优势。对于中文开发者而言,Covo-Audio不仅提供了自主可控的语音AI基座,更通过深度中文优化和全双工交互能力,为智能客服、智能硬件、教育辅助等场景提供了即插即用的解决方案。
七、项目地址
- GitHub仓库:https://github.com/Tencent/Covo-Audio
- HuggingFace模型库:https://huggingface.co/tencent/Covo-Audio-Chat
- arXiv技术论文:https://arxiv.org/pdf/2602.09823

🎯🔖更多专栏系列文章:AI大模型提示工程完全指南、AI大模型探索之路(零基础入门)、AI大模型预训练微调进阶、AI大模型开源精选实践、AI大模型RAG应用探索实践🔥🔥🔥 其他专栏可以查看博客主页📑
😎 作者介绍:资深程序老猿,从业10年+、互联网系统架构师,目前专注于AIGC的探索(CSDN博客之星|AIGC领域优质创作者)
📖专属社群:欢迎关注【小兵的AI视界】公众号或扫描下方👇二维码,回复‘入群’ 即刻上车,获取邀请链接。
💘领取三大专属福利:1️⃣免费赠送AI+编程📚500本,2️⃣AI技术教程副业资料1套,3️⃣DeepSeek资料教程1套🔥(限前500人)
如果文章内容对您有所触动,别忘了点赞、⭐关注,收藏!加入我们,一起携手同行AI的探索之旅,开启智能时代的大门!
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)