具身智能中的传感器技术49——麦克风阵列4

Godspeed Zhao

375人浏览 · 2026-05-11 06:25:20

Godspeed Zhao · 2026-05-11 06:25:20 发布

**摘要：**麦克风阵列产业已进入"硬件红海，算法为王"阶段。硬件层由歌尔、瑞声等国产厂商主导，算法层则聚焦语音前端处理技术，科大讯飞、思必驰等提供核心方案。行业痛点在于嘈杂环境下的"鸡尾酒会问题"，未来趋势将向视听融合(Audio-Visual Fusion)和边缘计算发展。具身智能领域复用成熟供应链，但面临机器人电机噪音等新挑战，AI大模型正重构传统信号处理方式，多模态交互板卡将成为关键发展方向。硬件国产化与算法智能化是产业两大特征。

麦克风阵列产业目前处于**“硬件红海，算法为王”**的阶段。

随着智能音箱（Alexa/小爱同学）和新能源汽车（车载语音）的普及，麦克风阵列的供应链已经高度成熟且标准化。具身智能机器人基本是“坐享其成”，直接复用这些成熟方案。

一、市场格局：软硬分离

1. 硬件层 (MEMS 麦克风芯片)

这是拼制造工艺和出货量的领域，中国厂商已占据半壁江山。

第一梯队 (全球霸主)：
- 歌尔微电子 (Goertek Micro)： 出货量全球第一。苹果、华为、小米的核心供应商。具身智能机器人 80% 用的都是歌尔的麦克风。
- 瑞声科技 (AAC)： 全球前三。在微型化和封装技术上极强。
- 楼氏电子 (Knowles)： 美国老牌巨头，依然把控着最高端的市场（如助听器级、极高 SNR 麦克风）。
第二梯队：
- 敏芯股份： 国内 MEMS 芯片设计强企。
- 共达电声。

2. 算法层 (语音前端处理 DSP)

这是具身智能真正的核心壁垒。光有麦克风没用，必须要有强大的降噪和定位算法。

通用语音巨头：
- 科大讯飞 (iFLYTEK)： 依然是绕不过去的大山。提供从麦克风阵列板卡到云端识别的全套方案（麦克风阵列软核）。
- 思必驰 (AISpeech) / 云知声： 在车载和家居机器人领域份额很大，打法灵活，性价比高。
芯片级算法玩家：
- XMOS (英国)： 他们的语音 DSP 芯片是行业标杆，算法固化在芯片里，性能极稳，很多高端机器人直接买芯片。
- Synaptics： 收购了 Conexant，在远场拾音领域积淀深厚。

3. 机器人垂直整合

头部机器人公司开始不满足于通用方案，开始自研：

Tesla (Optimus)： 依托其在车载语音上的积累，大概率会自研基于 Transformer 的端到端语音大模型，跳过传统的信号处理流程。
小米 (CyberOne)： 复用小爱同学的声学技术栈。

二、核心痛点与趋势

“鸡尾酒会问题”仍未完美解决：
- 在极度嘈杂的环境下（比如几个人同时说话，背景还有音乐），目前的阵列算法依然很难把目标人声完美分离出来。
- 趋势： 视听融合 (Audio-Visual Fusion)。
  - 利用摄像头看到“谁嘴巴在动”，结合麦克风的声源定位，把视觉注意力机制引入听觉，大幅提升分离效果。
本地化 vs 云端：
- 以前语音识别都要上传云端。
- 趋势： 边缘计算。随着 Orin 这种高算力芯片上车，越来越多的降噪和唤醒算法直接在机器人本地跑，响应更快，隐私更好。
大模型重构：
- 传统的信号处理（AEC/BF）正在被 AI 降噪 取代。基于深度学习的降噪模型（如 RNNoise 的进阶版）能把非稳态噪音（如键盘声、关门声）滤得干干净净。

总结： 麦克风硬件已经白菜价，未来的竞争在于**“多模态交互”**——谁能把“听觉”和“视觉”结合得最好，谁的机器人就最聪明。

在具身智能（Humanoid Robot）这个细分赛道，麦克风阵列的产业现状呈现出**“复用成熟链条，探索AI重构”**的特点。

具身智能并没有重新发明麦克风，而是直接继承了智能音箱和智能座舱的遗产，但在算法层面正在进行一场**“视听融合”**的革命。

一、硬件供应链：高度成熟，国产主导

机器人厂商在选购麦克风时，基本不需要定制，直接采购现成的 MEMS 麦克风。

芯片巨头 (MEMS Die)：
- 楼氏 (Knowles) / 英飞凌 (Infineon)： 依然占据高端（高 SNR > 70dB）市场。如果机器人需要在极嘈杂环境下工作，通常选它们。
- 歌尔微 (Goertek) / 瑞声 (AAC)： 统治了中高端市场。性价比之王。绝大多数服务机器人和国产人形机器人（如优必选、追觅、小米）用的都是这两家的方案。
模组方案商 (PCBA)：
- 机器人本体厂商很少自己画麦克风阵列的电路板（涉及到复杂的声学腔体设计），通常找方案商买板子。
- 科大讯飞： 提供 4麦/6麦标准阵列板，算法硬化在芯片里，插上就能用，省心但贵。
- 声加科技 (SoundPlus)： 在 TWS 耳机降噪领域很强，现在也切入机器人市场，算法非常能打。
- 蛙声科技： 专注于会议全向麦，技术迁移到机器人上很顺畅。

二、算法生态：从 DSP 向 AI 大模型迁移

这才是具身智能麦克风阵列真正的战场。

传统 DSP 派 (信号处理)：
- 代表： XMOS, Synaptics, 科大讯飞。
- 现状： 依然是主流。利用波束成形 (BF) 和回声消除 (AEC) 等数学公式处理声音。
- 痛点： 对非平稳噪声（如突然的摔杯子声、不规则的风噪）处理能力有限；且多轮对话打断体验一般。
AI 大模型派 (端到端)：
- 代表： Tesla Optimus, Google RT-2。
- 趋势： Audio-Visual LLM。
  - 不再单独处理声音。而是把声音波形直接作为 Token 喂给大模型。
  - 视听融合： 机器人看着你的脸（视觉），结合听到的声音（听觉），利用唇语辅助和注意力机制，解决“鸡尾酒会效应”。这是传统 DSP 做不到的。

三、具身智能的特殊需求与机会

虽然供应链成熟，但人形机器人带来了一些新挑战，也带来了新机会：

极致的自我消噪 (Ego-Noise Reduction)：
- 痛点： 人形机器人全身几十个电机，走路时吱吱响，还有散热风扇的呼呼声。这比智能音箱（静止的）和汽车（隔音好）的声学环境恶劣得多。
- 机会： 谁能针对机器人电机噪音开发出专用的主动抑噪算法，谁就能赢。
多模态交互板卡：
- 趋势： 以前是买一块麦克风板子。未来是买一块**“视听一体板”**——上面集成了麦克风、摄像头接口和一颗 AI 算力芯片，直接输出“谁在说什么”的高层语义。