**摘要:**麦克风阵列产业已进入"硬件红海,算法为王"阶段。硬件层由歌尔、瑞声等国产厂商主导,算法层则聚焦语音前端处理技术,科大讯飞、思必驰等提供核心方案。行业痛点在于嘈杂环境下的"鸡尾酒会问题",未来趋势将向视听融合(Audio-Visual Fusion)和边缘计算发展。具身智能领域复用成熟供应链,但面临机器人电机噪音等新挑战,AI大模型正重构传统信号处理方式,多模态交互板卡将成为关键发展方向。硬件国产化与算法智能化是产业两大特征。

麦克风阵列产业目前处于**“硬件红海,算法为王”**的阶段。

随着智能音箱(Alexa/小爱同学)和新能源汽车(车载语音)的普及,麦克风阵列的供应链已经高度成熟且标准化。具身智能机器人基本是“坐享其成”,直接复用这些成熟方案。


一、 市场格局:软硬分离

1. 硬件层 (MEMS 麦克风芯片)

这是拼制造工艺和出货量的领域,中国厂商已占据半壁江山

  • 第一梯队 (全球霸主):
    • 歌尔微电子 (Goertek Micro): 出货量全球第一。苹果、华为、小米的核心供应商。具身智能机器人 80% 用的都是歌尔的麦克风。
    • 瑞声科技 (AAC): 全球前三。在微型化和封装技术上极强。
    • 楼氏电子 (Knowles): 美国老牌巨头,依然把控着最高端的市场(如助听器级、极高 SNR 麦克风)。
  • 第二梯队:
    • 敏芯股份: 国内 MEMS 芯片设计强企。
    • 共达电声。
2. 算法层 (语音前端处理 DSP)

这是具身智能真正的核心壁垒。光有麦克风没用,必须要有强大的降噪和定位算法。

  • 通用语音巨头:
    • 科大讯飞 (iFLYTEK): 依然是绕不过去的大山。提供从麦克风阵列板卡到云端识别的全套方案(麦克风阵列软核)。
    • 思必驰 (AISpeech) / 云知声: 在车载和家居机器人领域份额很大,打法灵活,性价比高。
  • 芯片级算法玩家:
    • XMOS (英国): 他们的语音 DSP 芯片是行业标杆,算法固化在芯片里,性能极稳,很多高端机器人直接买芯片。
    • Synaptics: 收购了 Conexant,在远场拾音领域积淀深厚。
3. 机器人垂直整合

头部机器人公司开始不满足于通用方案,开始自研:

  • Tesla (Optimus): 依托其在车载语音上的积累,大概率会自研基于 Transformer 的端到端语音大模型,跳过传统的信号处理流程。
  • 小米 (CyberOne): 复用小爱同学的声学技术栈。

二、 核心痛点与趋势

  1. “鸡尾酒会问题”仍未完美解决:

    • 在极度嘈杂的环境下(比如几个人同时说话,背景还有音乐),目前的阵列算法依然很难把目标人声完美分离出来。
    • 趋势: 视听融合 (Audio-Visual Fusion)
      • 利用摄像头看到“谁嘴巴在动”,结合麦克风的声源定位,把视觉注意力机制引入听觉,大幅提升分离效果。
  2. 本地化 vs 云端:

    • 以前语音识别都要上传云端。
    • 趋势: 边缘计算。随着 Orin 这种高算力芯片上车,越来越多的降噪和唤醒算法直接在机器人本地跑,响应更快,隐私更好。
  3. 大模型重构:

    • 传统的信号处理(AEC/BF)正在被 AI 降噪 取代。基于深度学习的降噪模型(如 RNNoise 的进阶版)能把非稳态噪音(如键盘声、关门声)滤得干干净净。

总结: 麦克风硬件已经白菜价,未来的竞争在于**“多模态交互”**——谁能把“听觉”和“视觉”结合得最好,谁的机器人就最聪明。

在具身智能(Humanoid Robot)这个细分赛道,麦克风阵列的产业现状呈现出**“复用成熟链条,探索AI重构”**的特点。

具身智能并没有重新发明麦克风,而是直接继承了智能音箱智能座舱的遗产,但在算法层面正在进行一场**“视听融合”**的革命。


一、 硬件供应链:高度成熟,国产主导

机器人厂商在选购麦克风时,基本不需要定制,直接采购现成的 MEMS 麦克风

  1. 芯片巨头 (MEMS Die):

    • 楼氏 (Knowles) / 英飞凌 (Infineon): 依然占据高端(高 SNR > 70dB)市场。如果机器人需要在极嘈杂环境下工作,通常选它们。
    • 歌尔微 (Goertek) / 瑞声 (AAC): 统治了中高端市场。性价比之王。绝大多数服务机器人和国产人形机器人(如优必选、追觅、小米)用的都是这两家的方案。
  2. 模组方案商 (PCBA):

    • 机器人本体厂商很少自己画麦克风阵列的电路板(涉及到复杂的声学腔体设计),通常找方案商买板子。
    • 科大讯飞: 提供 4麦/6麦 标准阵列板,算法硬化在芯片里,插上就能用,省心但贵。
    • 声加科技 (SoundPlus): 在 TWS 耳机降噪领域很强,现在也切入机器人市场,算法非常能打。
    • 蛙声科技: 专注于会议全向麦,技术迁移到机器人上很顺畅。

二、 算法生态:从 DSP 向 AI 大模型迁移

这才是具身智能麦克风阵列真正的战场。

  1. 传统 DSP 派 (信号处理):

    • 代表: XMOS, Synaptics, 科大讯飞。
    • 现状: 依然是主流。利用波束成形 (BF) 和回声消除 (AEC) 等数学公式处理声音。
    • 痛点: 对非平稳噪声(如突然的摔杯子声、不规则的风噪)处理能力有限;且多轮对话打断体验一般。
  2. AI 大模型派 (端到端):

    • 代表: Tesla Optimus, Google RT-2。
    • 趋势: Audio-Visual LLM
      • 不再单独处理声音。而是把声音波形直接作为 Token 喂给大模型。
      • 视听融合: 机器人看着你的脸(视觉),结合听到的声音(听觉),利用唇语辅助和注意力机制,解决“鸡尾酒会效应”。这是传统 DSP 做不到的。

三、 具身智能的特殊需求与机会

虽然供应链成熟,但人形机器人带来了一些新挑战,也带来了新机会:

  1. 极致的自我消噪 (Ego-Noise Reduction):

    • 痛点: 人形机器人全身几十个电机,走路时吱吱响,还有散热风扇的呼呼声。这比智能音箱(静止的)和汽车(隔音好)的声学环境恶劣得多。
    • 机会: 谁能针对机器人电机噪音开发出专用的主动抑噪算法,谁就能赢。
  2. 多模态交互板卡:

    • 趋势: 以前是买一块麦克风板子。未来是买一块**“视听一体板”**——上面集成了麦克风、摄像头接口和一颗 AI 算力芯片,直接输出“谁在说什么”的高层语义。

总结: 具身智能的耳朵,硬件是中国制造的天下,但灵魂(算法)正在等待 AI 大模型的重塑。

    Logo

    AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

    更多推荐