开源!手搓ESP-VoCat 喵伴桌面AI助手,帮你养萌宠 OpenClaw龙虾,内置豆包,会听、会动、会陪伴
模组选型:ttps://item.taobao.com/item.htm?ft=t&id=1033585120956&spm=a21dvs.23580594.0.0.4fee2c1bAqCiqc&skuId=6211360130611
ESP-VoCat 喵伴是乐鑫携手火山引擎扣子大模型团队打造的智能 AI 开发套件,适用于玩具、智能音箱、智能中控等需要大模型赋能的语音交互类产品。该设备搭载 ESP32-S3-WROOM-1 模组,1.85 寸 QSPI 圆形触摸屏,双麦阵列,支持离线语音唤醒与声源定位算法。结合火山引擎提供的大模型能力,喵伴可实现全双工语音交互、多模态识别与智能体控制,为开发者打造完整的端侧 AI 应用体验提供坚实基础。
ESP-VoCat 喵伴是乐鑫携手火山引擎扣子大模型团队打造的智能 AI 开发套件,适用于玩具、智能音箱、智能中控等需要大模型赋能的语音交互类产品。该设备搭载 ESP32-S3-WROOM-1 模组,1.85 寸 QSPI 圆形触摸屏,双麦阵列,支持离线语音唤醒与声源定位算法。结合火山引擎提供的大模型能力,喵伴可实现全双工语音交互、多模态识别与智能体控制,为开发者打造完整的端侧 AI 应用体验提供坚实基础。

喵伴旋转底座是为 ESP-VoCat 喵伴开发套件量身打造的智能旋转底座,采用 ESP32-C61-WROOM-1 模组,支持 USB Type-C 供电,并可通过磁吸接口为 ESP-VoCat 本体供电,实现了高精度步进电机控制、磁吸滑动开关事件检测、 CSI 感知功能、稳定的 UART 通信等核心功能,同时能够根据 ESP-VoCat 的 声源识别结果自动调整方向,实现面向声源的智能旋转,提供更自然、更具沉浸感的人机交互体验。
🐱 ESP-VoCat 喵伴功能介绍
ESP-VoCat 喵伴主控板采用乐鑫 ESP32-S3-WROOM-1-N32R8 模组,支持 2.4 GHz Wi-Fi 和 Bluetooth 5 (LE) 无线连接。
-
存储方面,整机具备 8 MB PSRAM、32 MB Flash 的存储空间,同时还配备了一个可支持高达 32 GB 的 microSD 卡插槽,满足语音交互和多媒体处理需求。
-
显示方面,配备 1.85 英寸圆形触摸屏(360 × 360 分辨率)与 ESP32-S3 原生触摸传感器,提供直观丰富的交互体验。
-
音频方面,EchoEar 内置 2W 扬声器和双麦克风阵列,支持本地语音唤醒和声源定位。电源系统兼容 5V DC 和 3.7V 700mAh 锂电池供电。此外,还集成一个 USB-C 接口支持供电与编程下载,同时预留 Pogopin 接口方便功能拓展。

ESP-VoCat 喵伴套件以端到端开发为核心理念,技术亮点如下:
-
全双工语音交互:用户可以与设备进行连续对话,而不仅仅是单次响应。
-
多模态识别与智能体控制:能够识别用户的多种输入方式,并提供相应的智能响应。
-
情绪识别与动态表情互动:能够识别用户的情绪变化,并通过动态表情进行互动,增强设备的人格化表现。
-
长记忆能力:支持对用户对话内容的持续记录,提供更具陪伴感的个性化体验。
-
离线语音唤醒与声源定位:结合电机控制,实现180°范围内的方向跟踪,使交互更自然。
-
智能家居控制:支持MCP协议与Function Call能力,可用于远程控制家庭设备,作为智能家居系统的本地中枢。

离线语音唤醒与声源定位结合电机控制,可实现 180° 范围内的方向跟踪,使设备交互更自然、更具沉浸感。

长记忆能力支持对用户对话内容的持续记录,实现更具陪伴感的个性化体验。


智能对讲与情绪识别能力可主动识别用户的意图与情绪变化,并通过动态表情互动进行响应,增强设备的人格化表现;

ESP-VoCat 支持 MCP 协议与 Function Call 能力,可用于远程控制家庭设备,作为智能家居系统的本地中枢。
🔥 ESP-VoCat 底座能力
ESP-VoCat 支持声源识别功能,能够实时检测环境中的声音方向和位置。系统通过麦克风阵列采集声音信号,结合声强、相位等信息进行分析,判断声源所在的方位角。配合基于步进电机的超静音旋转底座,可以实现面向声源的智能交互。

好奇环顾,让底座带动喵伴进行左顾右盼,配合小幅度随机偏移,模拟猫咪自然观察环境的行为。

鼓点律动,使 ESP-VoCat 能够根据外界音乐的鼓点节奏左右摆头,营造与音乐同步的互动效果。

温柔蹭手,模拟猫咪轻柔蹭手的动作:底座缓慢扭向左侧再回到中心,循环数次。动作平滑自然,每次停顿都增强了真实的触感和温柔感。

ESP-VoCat 底座通过磁吸式滑动开关实现多种交互控制。滑块的不同位置会改变地磁传感器周围的磁场强度,底座通过实时监测这些磁场变化来识别滑块的动作。当检测到位置变化时,底座会将相应事件通过串口上报给 ESP-VoCat,从而实现丰富、直观的交互体验。
🌟 硬件组装

|
主要组件 |
描述 |
|---|---|
|
CoreBoard(核心板) |
|
|
ESP32-S3-WROOM-1-N16R16VA |
主控芯片,集成 16 MB Flash 和 16 MB PSRAM,支持 2.4 GHz Wi-Fi 和 Bluetooth 5 (LE) 无线连接。 |
|
Battery Connector(电池连接器) |
电池连接器,用于连接 3.7 V 锂电池,上为正极,下为负极。 |
|
LCD FPC Connector(屏幕连接器) |
用于连接 1.85 英寸圆形 LCD 屏幕,分辨率为 360 x 360,详细参数请参考 显示屏规格书。 |
|
MicBoard Connector(麦克风连接器) |
MicBoard PCB 板连接器,连接双麦克风阵列和状态指示 LED 灯。 |
|
Touch Connector(触摸连接器) |
触摸连接器,用于连接触摸铜箔,实现触摸交互功能。 |
|
Speaker Connector(扬声器连接器) |
2 线扬声器连接器,用于连接内置 3 W 扬声器。 |
|
MicBoard(麦克风板) |
|
|
Green LED(绿色 LED) |
绿色 LED 指示灯。 |
|
MIC(麦克风阵列) |
双 LMA3729T381-OY3S 麦克风阵列,支持本地语音唤醒和声源定位功能。 |
|
BaseBoard(底板) |
|
|
BQ27220(电池管理芯片) |
电池管理芯片,用于电池电量检测、充电管理和电源状态监控。 |
|
TP4057(锂电池充电芯片) |
锂电池充电芯片,用于为锂电池充电,充电电流为 250 mA。 |
|
CoreBoard Connector(CoreBoard 连接器) |
CoreBoard PCB 板连接器,连接核心板与底板。 |
|
TlV62569(DCDC 芯片) |
降压转换芯片,用于将 5 V 电源转换为 3.3 V 电源,为系统提供稳定供电。 |
|
SAM8108(开关机控制芯片) |
开关机控制芯片,用于控制设备开关机,单击 POWER 按键即可切换开关机状态。 |
|
Type-C(USB-C 接口) |
USB-C 接口,用于供电、编程下载和调试,支持对锂电池进行充电。 |






🌳 写在最后
ESP-VoCat 喵伴展现出的集成度、AI算力和功耗控制,其应用范围可以广泛拓展至多个需要智能交互的AIoT领域:
-
便携式智能语音终端:基于音频处理能力,可用于开发更小巧的智能语音钥匙扣或挂件,集成本地唤醒、对话和简单信息查询功能,适用于旅行、户外等场景。
-
增强型智能家居中控:在实现语音控制的基础上,可增加红外发射模块,使其能直接控制传统非智能家电;或集成Zigbee/蓝牙Mesh网关芯片,成为家庭物联网的真正中枢。
-
交互式教育或陪伴玩具:利用模组的AI音频、Wi-Fi连接和驱动屏幕的能力,可以开发具备丰富表情反馈 、语音互动和在线内容更新的智能教育机器人或儿童故事机,提供更拟人化的体验。
-
工业物联网语音交互界面:在工业环境中,操作人员双手可能被占用。基于该模组开发具备降噪功能的语音指令识别设备,可以实现对设备状态查询、简单指令下达的无触控操作,提升作业安全与效率。
乐鑫官方开发文档:
https://espressif.craft.me/1gOl65rON8G8FK
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)