模组选型:ttps://item.taobao.com/item.htm?ft=t&id=1033585120956&spm=a21dvs.23580594.0.0.4fee2c1bAqCiqc&skuId=6211360130611










ESP-VoCat 喵伴是乐鑫携手火山引擎扣子大模型团队打造的智能 AI 开发套件,适用于玩具、智能音箱、智能中控等需要大模型赋能的语音交互类产品。该设备搭载 ESP32-S3-WROOM-1 模组,1.85 寸 QSPI 圆形触摸屏,双麦阵列,支持离线语音唤醒与声源定位算法。结合火山引擎提供的大模型能力,喵伴可实现全双工语音交互、多模态识别与智能体控制,为开发者打造完整的端侧 AI 应用体验提供坚实基础。

数实融合, 开启 AIoT能源数智化新范式

ESP-VoCat 喵伴是乐鑫携手火山引擎扣子大模型团队打造的智能 AI 开发套件,适用于玩具、智能音箱、智能中控等需要大模型赋能的语音交互类产品。该设备搭载 ESP32-S3-WROOM-1 模组,1.85 寸 QSPI 圆形触摸屏,双麦阵列,支持离线语音唤醒与声源定位算法。结合火山引擎提供的大模型能力,喵伴可实现全双工语音交互、多模态识别与智能体控制,为开发者打造完整的端侧 AI 应用体验提供坚实基础。

图片

喵伴旋转底座是为 ESP-VoCat 喵伴开发套件量身打造的智能旋转底座,采用 ESP32-C61-WROOM-1 模组,支持 USB Type-C 供电,并可通过磁吸接口为 ESP-VoCat 本体供电,实现了高精度步进电机控制、磁吸滑动开关事件检测、 CSI 感知功能、稳定的 UART 通信等核心功能,同时能够根据 ESP-VoCat 的 声源识别结果自动调整方向,实现面向声源的智能旋转,提供更自然、更具沉浸感的人机交互体验。

🐱 ESP-VoCat 喵伴功能介绍

ESP-VoCat 喵伴主控板采用乐鑫 ESP32-S3-WROOM-1-N32R8 模组,支持 2.4 GHz Wi-Fi 和 Bluetooth 5 (LE) 无线连接。

  • 存储方面,整机具备 8 MB PSRAM、32 MB Flash 的存储空间,同时还配备了一个可支持高达 32 GB 的 microSD 卡插槽,满足语音交互和多媒体处理需求。

  • 显示方面,配备 1.85 英寸圆形触摸屏(360 × 360 分辨率)与 ESP32-S3 原生触摸传感器,提供直观丰富的交互体验。

  • 音频方面,EchoEar 内置 2W 扬声器和双麦克风阵列,支持本地语音唤醒和声源定位。电源系统兼容 5V DC 和 3.7V 700mAh 锂电池供电。此外,还集成一个 USB-C 接口支持供电与编程下载,同时预留 Pogopin 接口方便功能拓展。

图片

ESP-VoCat 喵伴套件以端到端开发为核心理念,技术亮点如下:

  • 全双工语音交互:用户可以与设备进行连续对话,而不仅仅是单次响应。

  • 多模态识别与智能体控制:能够识别用户的多种输入方式,并提供相应的智能响应。

  • 情绪识别与动态表情互动:能够识别用户的情绪变化,并通过动态表情进行互动,增强设备的人格化表现。

  • 长记忆能力:支持对用户对话内容的持续记录,提供更具陪伴感的个性化体验。

  • 离线语音唤醒与声源定位:结合电机控制,实现180°范围内的方向跟踪,使交互更自然。

  • 智能家居控制:支持MCP协议与Function Call能力,可用于远程控制家庭设备,作为智能家居系统的本地中枢。

图片

离线语音唤醒与声源定位结合电机控制,可实现 180° 范围内的方向跟踪,使设备交互更自然、更具沉浸感。

图片

长记忆能力支持对用户对话内容的持续记录,实现更具陪伴感的个性化体验。

图片

图片

智能对讲与情绪识别能力可主动识别用户的意图与情绪变化,并通过动态表情互动进行响应,增强设备的人格化表现;

图片

ESP-VoCat 支持 MCP 协议与 Function Call 能力,可用于远程控制家庭设备,作为智能家居系统的本地中枢。

🔥 ESP-VoCat 底座能力

ESP-VoCat 支持声源识别功能,能够实时检测环境中的声音方向和位置。系统通过麦克风阵列采集声音信号,结合声强、相位等信息进行分析,判断声源所在的方位角。配合基于步进电机的超静音旋转底座,可以实现面向声源的智能交互。

图片

好奇环顾,让底座带动喵伴进行左顾右盼,配合小幅度随机偏移,模拟猫咪自然观察环境的行为。

图片

鼓点律动,使 ESP-VoCat 能够根据外界音乐的鼓点节奏左右摆头,营造与音乐同步的互动效果。

图片

温柔蹭手,模拟猫咪轻柔蹭手的动作:底座缓慢扭向左侧再回到中心,循环数次。动作平滑自然,每次停顿都增强了真实的触感和温柔感。

图片

ESP-VoCat 底座通过磁吸式滑动开关实现多种交互控制。滑块的不同位置会改变地磁传感器周围的磁场强度,底座通过实时监测这些磁场变化来识别滑块的动作。当检测到位置变化时,底座会将相应事件通过串口上报给 ESP-VoCat,从而实现丰富、直观的交互体验。

🌟 硬件组装

图片

主要组件

描述

CoreBoard(核心板)

ESP32-S3-WROOM-1-N16R16VA

主控芯片,集成 16 MB Flash 和 16 MB PSRAM,支持 2.4 GHz Wi-Fi 和 Bluetooth 5 (LE) 无线连接。

Battery Connector(电池连接器)

电池连接器,用于连接 3.7 V 锂电池,上为正极,下为负极。

LCD FPC Connector(屏幕连接器)

用于连接 1.85 英寸圆形 LCD 屏幕,分辨率为 360 x 360,详细参数请参考 显示屏规格书。

MicBoard Connector(麦克风连接器)

MicBoard PCB 板连接器,连接双麦克风阵列和状态指示 LED 灯。

Touch Connector(触摸连接器)

触摸连接器,用于连接触摸铜箔,实现触摸交互功能。

Speaker Connector(扬声器连接器)

2 线扬声器连接器,用于连接内置 3 W 扬声器。

MicBoard(麦克风板)

Green LED(绿色 LED)

绿色 LED 指示灯。

MIC(麦克风阵列)

双 LMA3729T381-OY3S 麦克风阵列,支持本地语音唤醒和声源定位功能。

BaseBoard(底板)

BQ27220(电池管理芯片)

电池管理芯片,用于电池电量检测、充电管理和电源状态监控。

TP4057(锂电池充电芯片)

锂电池充电芯片,用于为锂电池充电,充电电流为 250 mA。

CoreBoard Connector(CoreBoard 连接器)

CoreBoard PCB 板连接器,连接核心板与底板。

TlV62569(DCDC 芯片)

降压转换芯片,用于将 5 V 电源转换为 3.3 V 电源,为系统提供稳定供电。

SAM8108(开关机控制芯片)

开关机控制芯片,用于控制设备开关机,单击 POWER 按键即可切换开关机状态。

Type-C(USB-C 接口)

USB-C 接口,用于供电、编程下载和调试,支持对锂电池进行充电。

图片

图片

图片

图片

图片

图片

🌳 写在最后

ESP-VoCat 喵伴展现出的集成度、AI算力和功耗控制,其应用范围可以广泛拓展至多个需要智能交互的AIoT领域:

  • 便携式智能语音终端:基于音频处理能力,可用于开发更小巧的智能语音钥匙扣或挂件,集成本地唤醒、对话和简单信息查询功能,适用于旅行、户外等场景。

  • 增强型智能家居中控:在实现语音控制的基础上,可增加红外发射模块,使其能直接控制传统非智能家电;或集成Zigbee/蓝牙Mesh网关芯片,成为家庭物联网的真正中枢。

  • 交互式教育或陪伴玩具:利用模组的AI音频、Wi-Fi连接和驱动屏幕的能力,可以开发具备丰富表情反馈 、语音互动和在线内容更新的智能教育机器人或儿童故事机,提供更拟人化的体验。

  • 工业物联网语音交互界面:在工业环境中,操作人员双手可能被占用。基于该模组开发具备降噪功能的语音指令识别设备,可以实现对设备状态查询、简单指令下达的无触控操作,提升作业安全与效率。

乐鑫官方开发文档:

https://espressif.craft.me/1gOl65rON8G8FK

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐