AI龙虾聊天具身智能机器人最简方案规划一

失宠小猫咪

671人浏览 · 2026-04-25 19:27:17

失宠小猫咪 · 2026-04-25 19:27:17 发布

1 AI-MuleRun

咨询：给出运用ESP32进行本地特定人语音和人脸图像识别的硬软件实现最简方案和MICROPYTHON的具体编码实现，说明所使用 AI模型的获取与嵌入应用。

2 项目概述与目标

2.1 系统功能目标

本项目实现一套完整的本地双模态身份认证系统，具体功能包括：

特定人人脸识别：支持注册 3-10 个用户的人脸特征，实时比对当前摄像头画面中的人脸与已注册用户进行匹配，输出身份判定结果。
特定人声纹验证：采集用户语音样本提取声纹特征（MFCC），通过 DTW 算法比对声纹模板，可区分 3-5 个不同的说话人。
双重验证融合：人脸 + 声纹双重确认，两者必须匹配同一注册用户方判定通过，大幅降低误识率。
注册与识别模式：通过物理按键切换注册/识别模式，注册数据持久化存储到 Flash 文件系统。

2.2 性能指标要求

指标项	目标值	条件	备注
人脸识别延迟	< 800ms (端到端)	含采集+推理	方案B
声纹验证延迟	< 5s (3秒录音+比对)	含采集时间	方案B/C
人脸识别准确率	> 95% (FAR<2%)	正面充足光照	ESP-WHO官方数据
声纹区分准确率	> 80% (3-5人)	安静环境	DTW方案受限
注册用户数	3-10 人	Flash存储允许

2.3 适用场景

智能门锁：人脸+声纹双重认证开锁，无需密码或钥匙
考勤系统：离线环境下的员工身份确认
设备权限控制：工业设备、实验室仪器的操作权限管理
智能家居：识别家庭成员，个性化响应
教学与原型验证：嵌入式 AI 教学演示、毕业设计、创客项目

3 技术可行性深度分析

3.1 ESP32-S3 硬件能力详解

ESP32-S3 是乐鑫科技（Espressif）面向 AIoT 场景的旗舰芯片，相比原版 ESP32 在 AI 推理能力上有质的飞跃。以下是关键参数详解：

CPU：Xtensa LX7 双核，主频 240MHz。最关键的是 LX7 支持 PIE/TIE 向量扩展指令（SIMD），可对 INT8 矩阵乘法进行硬件加速，相比普通标量计算快 3-5 倍。这是 ESP32-S3 能跑神经网络的核心原因。

内存：512KB 片内 SRAM + 最高 8MB OPI PSRAM。OPI（Octal SPI）的带宽约 120MB/s，比传统 QPI PSRAM 翻倍。模型权重和图像帧缓冲均存放在 PSRAM 中。

Flash：最高 16MB，可划分为应用程序、AI 模型、用户数据三个分区。全部模型（语音+人脸）总计约 1.8MB，远小于 16MB 容量。

外设：DVP 摄像头接口（8-bit 并行）、I2S 音频接口（全双工）、SPI/I2C/UART、USB OTG。原生支持摄像头和音频采集，无需额外转换芯片。

下表对比三款 ESP32 系列芯片在 AI 推理场景的适用性：

参数	ESP32	ESP32-S3	ESP32-C3
CPU	LX6×2, 240MHz	LX7×2, 240MHz	RISC-V×1, 160MHz
AI指令	无	PIE/TIE SIMD	无
SRAM	520KB	512KB	400KB
PSRAM	4MB QPI	8MB OPI	不支持
Flash	16MB	16MB	4MB
摄像头	DVP(部分)	DVP+LCD	不支持
AI适用性	勉强可用	★ 首选方案	不适用

⚠ 结论：必须选择 ESP32-S3（而非原版 ESP32 或 ESP32-C3）。只有 S3 同时具备向量指令加速、大容量 OPI PSRAM 和摄像头接口。

3.2 MicroPython 在嵌入式 AI 中的现实定位

MicroPython 是 Python 3 的精简实现，专为微控制器设计。在 ESP32-S3 上运行时需要清楚其能力边界：

内存占用：MicroPython 解释器本身占用约 100-150KB RAM，加上 GC 堆等开销，实际可用内存减少。
计算性能：经实测，纯 Python 浮点运算比 C 慢 50-200 倍。一个简单的 1024 点 FFT，C 实现约 0.5ms，纯 MicroPython 实现约 50-80ms。
库支持：不支持 numpy、scipy、tensorflow 等科学计算库。无法直接运行神经网络模型。
定位：MicroPython 适合作为「胶水层」——业务逻辑、流程控制、用户交互、文件管理。AI 推理必须通过 C 扩展模块实现。

以下是关键操作的性能对比（ESP32-S3 @240MHz）：

操作	C 实现	MicroPython	倍数差异
512点 FFT	~0.3ms	~40ms	~130x
1秒音频 MFCC提取	~50ms	~5000ms	~100x
DTW (60×60 矩阵)	~2ms	~200ms	~100x
MobileFaceNet 推理	~200ms	不可能	N/A
余弦相似度 (512维)	<0.1ms	~5ms	~50x

3.3 三种技术路线对比

路线 A：纯 ESP-IDF C/C++

性能：最优。全部代码编译为原生机器码，充分利用向量指令。
开发难度：高。需熟练掌握 C/C++、ESP-IDF 框架、FreeRTOS 多任务。
所需技能：C/C++ 编程、CMake 构建系统、嵌入式开发经验
适用人群：嵌入式开发者、产品级部署

路线 B：C 扩展 + MicroPython 混合架构（推荐）

性能：接近路线 A。AI 推理走 C 扩展，业务逻辑走 Python。
开发难度：中。需编译自定义固件（一次性工作），但应用层用 Python 快速迭代。
所需技能：基础 C 编程 + Python 编程 + ESP-IDF 基础知识
适用人群：原型验证、教学、创客、快速迭代需求

路线 C：纯 MicroPython

性能：差。MFCC+DTW 可勉强运行，但无法运行 CNN 模型做人脸识别。
实际能力：仅支持声纹比对（精度有限）。人脸识别只能做基础图像差异比对，非 AI 级别。
所需技能：仅 Python 编程
适用人群：Python 初学者、学习用途

⚠ 本方案推荐路线 B（混合架构）。以下所有内容均基于此路线展开，同时提供纯 MicroPython 可运行的声纹部分代码。

4 硬件方案详细设计

4.1 核心元器件选型

以下为最简配置的完整 BOM 清单，每个器件均包含选型理由和替代方案。

4.1.1 主控开发板

推荐型号：ESP32-S3-DevKitC-1 (N16R8 版本)
关键参数：ESP32-S3-WROOM-1 模组，16MB Flash + 8MB OPI PSRAM，双核 LX7 240MHz
选型理由：N16R8 版本提供最大 Flash 和 PSRAM 容量，可存储多个 AI 模型同时保留充足运行内存。DevKitC-1 开发板包含 USB-UART 桥接芯片，方便调试。
替代方案：ESP32-S3-DevKitM-1 (更小尺寸)、ESP32-S3-WROOM-1 裸模组 (自制 PCB)
购买渠道：淘宝搜索「ESP32-S3 N16R8 开发板」，立创商城搜索「ESP32-S3-DevKitC」
参考价格：¥45-65

4.1.2 摄像头模块

推荐型号：OV2640 DVP 模组（24pin/18pin FPC 接口）
关键参数：200万像素，支持 JPEG/YUV/RGB 输出，最高 UXGA (1600×1200)，DVP 8-bit 并行接口
选型理由：OV2640 是 ESP32 生态中支持最广泛的摄像头芯片，官方示例均基于此。硬件 JPEG 压缩可减少 CPU 负担。人脸检测只需 QVGA (320×240) 分辨率即可。
替代方案：OV3660 (300万像素，更高画质但价格稍高)、GC0328 (低成本但画质较差)
购买渠道：淘宝搜索「OV2640 模组 DVP」或「OV2640 ESP32」
参考价格：¥15-25

4.1.3 数字麦克风

推荐型号：INMP441 I2S MEMS 数字麦克风模块
关键参数：SNR 61dB，灵敏度 -26dBFS，I2S 标准数字输出，低功耗
选型理由：I2S 数字接口直接输出数字音频，无需外部 ADC，抗干扰能力强。与 ESP32-S3 的 I2S 接口直接对接。
替代方案：MSM261S4030H0R (乐鑫官方开发板使用)、SPH0645LM4H
购买渠道：淘宝搜索「INMP441 麦克风模块」
参考价格：¥8-12

4.1.4 显示屏（可选）

推荐型号：ST7789 1.3寸 IPS LCD，SPI 接口，240×240
用途：显示识别结果、系统状态、摄像头预览
参考价格：¥12-18

4.1.5 按键与 LED

按键：轻触按键 ×2，分别用于注册模式和识别模式切换
LED：普通 LED 或 WS2812B RGB LED，用于状态指示（待机/注册中/识别通过/失败）
参考价格：¥3-5

总计硬件成本（不含显示屏）：¥71-107。含显示屏：¥83-125。

4.2 一体化方案推荐

4.2.1 ESP32-S3-EYE 开发板

Espressif 官方设计的 AI 开发板，已集成以下所有外设：

ESP32-S3-WROOM-1 模组 (8MB PSRAM + 8MB Flash)
OV2640 摄像头（已经贴片焦距调好）
数字麦克风（已集成）
LCD 连接器（支持外接显示屏）
功能按键、加速度传感器、MicroSD 卡槽
优势：开箱即用，省去接线烦恼。官方 ESP-WHO 和 ESP-SR 示例均基于此板开发。
参考价格：¥99-139

4.2.2 ESP32-S3-Korvo-2 开发板（语音方向）

如果项目偏重语音识别，可考虑此板。它提供双麦克风阵列和音频编解码器，支持回声消除（AEC）和波束成形（Beamforming）。但未集成摄像头，需外接。

4.3 完整接线图

以下接线基于 ESP32-S3-DevKitC-1 + 分立模块方案。如使用 ESP32-S3-EYE 则无需接线。

4.3.1 INMP441 麦克风接线（6根线）

INMP441 引脚	方向	ESP32-S3 GPIO	说明
SCK	→	GPIO 41	I2S 串行时钟
WS (LRCK)	→	GPIO 42	I2S 字选择/左右声道时钟
SD (DOUT)	→	GPIO 2	I2S 数据输出
L/R	→	GND	接 GND = 左声道，接 VDD = 右声道
VDD	→	3.3V	供电 3.3V
GND	→	GND	接地

4.3.2 OV2640 摄像头接线（16+ 根线）

OV2640 引脚	方向	ESP32-S3 GPIO	说明
SIOD (SDA)	↔	GPIO 4	SCCB 数据线 (类似 I2C)
SIOC (SCL)	→	GPIO 5	SCCB 时钟线
VSYNC	→	GPIO 6	垂直同步信号
HREF	→	GPIO 7	水平参考信号
PCLK	→	GPIO 13	像素时钟
XCLK	←	GPIO 15	ESP32提供的主时钟 (20MHz)
D0-D7	→	GPIO 11,9,8,10, 12,18,17,16	8-bit 并行数据总线
PWDN	←	GPIO 38 (或 -1)	正常工作接 GND，省电时拉高
RESET	←	GPIO 39 (或 -1)	硬件复位，低电平有效

4.3.3 按键与 LED 接线

器件	ESP32-S3 GPIO	接法	说明
注册按键	GPIO 0	按下接 GND	内部上拉
识别按键	GPIO 1	按下接 GND	内部上拉
状态 LED	GPIO 48	串 330Ω 接 LED	DevKitC 板载 LED

5.4 PCB 设计注意事项

如果需要自制 PCB，以下是关键设计要点：

摄像头排线：走线尽量短（<5cm），远离 WiFi 天线和开关电源等高频干扰源。数据线 D0-D7 等长并行走线，避免时序偏差。
I2S 麦克风线：SCK、WS、SD 三根信号线应紧密并行走线，并远离摄像头数据总线，避免串扰。
电源去耦：ESP32-S3 模组 VDD33 引脚旁边放置 100nF + 10µF 去耦电容。摄像头和麦克风各自的 VDD 也需独立 100nF 去耦。
天线净空区：ESP32-S3-WROOM-1 模组的 PCB 天线区域（模组末端）不能有任何铜箔或器件，否则影响 WiFi/BLE 性能。

5 AI 模型详解与获取部署

5.1 语音识别模型

5.1.1 WakeNet 唤醒词模型

模型架构：1D-CNN，输入 16kHz 音频帧，模型大小约 50KB (INT8)
功能：持续监听音频流，检测到预设唤醒词时触发后续流程。低功耗、低延迟。
预置唤醒词：「Hi 乐鑫」、「你好小智」、「Hi Jeson」等，具体列表见 esp-sr 文档。
获取方式：

git clone --recursive https://github.com/espressif/esp-sr.git
# 模型文件位于: esp-sr/model/

自定义唤醒词：通过乐鑫 ESP-SR 在线平台提交 200+ 条音频样本训练自定义唤醒词模型。训练完成后下载 .bin 文件替换默认模型。
menuconfig 配置路径：

idf.py menuconfig

# → ESP Speech Recognition

# → Wake Word Engine

# → Select wake word model

# → WakeNet5 / WakeNet8 (选择模型版本)

5.1.2 MultiNet 命令词模型

模型架构：CRNN (CNN + GRU)，约 500KB (INT8)。支持中英文约 200 条命令词。
动态添加命令词：通过 API 在运行时动态添加自定义命令词，无需重新训练模型：

// C 代码示例: 添加自定义命令词
esp_mn_commands_update_from_sdkconfig(
(esp_mn_iface_t *)multinet,
model_data
);
// 拼音格式示例:
// “开灯” → "kai deng"
// “关门” → "guan men"

5.1.3 声纹验证方案（自研部分）

ESP-SR 不直接支持声纹识别，需自行实现。技术原理：

MFCC 特征提取：将音频信号转换为棅尔频率倒谱系数，捕捉语音的频谱包络特征。
参数选择依据：13维 MFCC 系数（去掉第0维能量后取前13维，保留足够声纹信息同时控制计算量）；512点帧长（32ms @16kHz，接近语音的准稳态时长）；256点帧移（50%重叠，平衡时间分辨率和计算量）；26个 Mel 滤波器（覆盖语音主要频段）。
DTW 算法：动态时间规整，允许时间轴上的非线性对齐，容忍说话速度差异。比起直接欧氏距离，DTW 更适合声纹比对。
阈值调优方法：采集同一人多次说同一句话的 DTW 距离（组内距离）和不同人的 DTW 距离（组间距离），找到两个分布的分割点作为阈值。典型值范围 8-15。

5.2 人脸识别模型

5.2.1 HumanFaceDetect 人脸检测模型

模型架构：基于 MTMN 或更新的 MSR01（Multi-task cascaded CNN）
输入：240×240 RGB 图像
输出：人脸边界框 (x, y, w, h) + 5 个关键点坐标（左眼、右眼、鼻尖、左嘴角、右嘴角）
模型大小：约 300KB
推理耗时：200-400ms @ESP32-S3

5.2.2 MobileFaceNet 人脸识别模型

模型架构：MobileFaceNet（轻量化 MobileNet 变体），专为人脸识别设计
输入：112×112 RGB 对齐后人脸图像（用检测阶段获取的5个关键点做仿射变换对齐）
输出：512 维特征向量（Embedding）
模型大小：约 900KB (INT8 量化)
比对方法：余弦相似度，阈值 0.6-0.7。大于阈值判定为同一人。

5.2.3 获取方式

# 克隆 ESP-WHO 仓库 (包含人脸检测+识别完整示例)

git clone --recursive https://github.com/espressif/esp-who.git

# 克隆 ESP-DL 仓库 (神经网络推理引擎 + 模型转换工具)

git clone --recursive https://github.com/espressif/esp-dl.git

# 模型文件位置:

# esp-who/components/modules/human_face_detect/

# esp-who/components/modules/face_recognition/

# esp-dl/models/

建议初次使用时直接使用官方预训练模型，验证整体流程跑通后再考虑自行训练。

5.3 自定义模型训练与转换（进阶）

如果预训练模型无法满足需求（例如需要更高精度或特定场景优化），可自行训练：

Step 1 训练：使用 PyTorch 训练 MobileFaceNet，训练数据集可用 CASIA-WebFace 或 MS-Celeb-1M。损失函数使用 ArcFace Loss。
Step 2 导出：将 PyTorch 模型导出为 ONNX 格式：torch.onnx.export(model, dummy_input, "mobilefacenet.onnx")
Step 3 量化：使用 Post-Training Quantization (PTQ) 将 FP32 模型量化为 INT8，减小 4 倍体积，同时利用 ESP32-S3 的向量指令加速。
Step 4 转换：使用 ESP-DL 的 convert.py 工具将 ONNX 转换为 ESP32 可加载格式：

python esp-dl/tools/convert.py \
--model mobilefacenet_int8.onnx \
--output_dir components/face_model/ \
--target esp32s3
# 输出文件:
# face_model.hpp - C++ 头文件 (模型结构定义)
# face_model.bin - 模型权重二进制文件

5.4 模型存储与 Flash 分区配置

ESP32-S3 的 16MB Flash 需要合理分区，以容纳应用程序、多个 AI 模型和用户数据：

# partitions.csv 完整示例

# Name, Type, SubType, Offset, Size, Flags

nvs, data, nvs, 0x9000, 0x6000,

phy_init, data, phy, 0xf000, 0x1000,

factory, app, factory, 0x10000, 0x300000, # 3MB 应用程序

sr_model, data, 0x40, , 0x100000, # 1MB 语音模型

face_model, data, 0x41, , 0x100000, # 1MB 人脸模型

storage, data, spiffs, , 0x200000, # 2MB 用户数据

# 总计: ~8MB, 剩余 ~8MB 可用于 OTA 或扩展

代码中加载模型的 API：

// C 代码: 从 Flash 分区加载模型

const esp_partition_t *part = esp_partition_find_first(

ESP_PARTITION_TYPE_DATA, 0x40, "sr_model");

void *model_data = heap_caps_malloc(part->size, MALLOC_CAP_SPIRAM);

esp_partition_read(part, 0, model_data, part->size);

6 开发环境搭建（完整步骤）

6.1 ESP-IDF 开发环境

操作系统要求：Ubuntu 20.04+、macOS 12+、Windows 10+ (WSL2)。推荐使用 Linux。

# 1. 安装依赖 (Ubuntu)

sudo apt-get install git wget flex bison gperf python3 python3-pip \

python3-venv cmake ninja-build ccache libffi-dev libssl-dev \

dfu-util libusb-1.0-0

# 2. 克隆 ESP-IDF v5.1 (稳定版, 与 esp-sr/esp-who 兼容)

mkdir -p ~/esp && cd ~/esp

git clone -b v5.1 --recursive https://github.com/espressif/esp-idf.git

# 3. 安装工具链 (指定 ESP32-S3 目标)

cd esp-idf

./install.sh esp32s3

# 4. 配置环境变量 (每次开新终端都需执行)

. ./export.sh

# 5. 验证安装

idf.py --version

# 应输出: ESP-IDF v5.1.x

6.2 MicroPython 源码编译环境

# 1. 克隆 MicroPython 源码

cd ~/esp

git clone https://github.com/micropython/micropython.git

cd micropython

git submodule update --init

make -C mpy-cross# 2. 编译 mpy-cross 交叉编译器

cd ports/esp32# 3. 进入 ESP32 端口目录

echo $IDF_PATH # 应输出 esp-idf 路径# 4. 确认 ESP-IDF 环境已加载

6.3 自定义固件编译完整流程

⚠ 这是整个项目最关键的部分。必须正确完成固件编译，才能在 MicroPython 中调用 C 扩展模块。

6.3.1 Step 1: 项目目录结构

micropython/ports/esp32/

├── boards/

│ └── ESP32_S3_AI/ # 自定义板级配置

│ ├── mpconfigboard.h # 板级 C 宏定义

│ ├── mpconfigboard.cmake # CMake 配置

│ ├── sdkconfig.board # ESP-IDF 配置

│ └── partitions.csv # Flash 分区表

├── modules/ # C 扩展模块

│ ├── mod_camera.c # 摄像头驱动绑定

│ └── mod_esp_who.c # ESP-WHO 人脸识别绑定

└── components/ # ESP-IDF 组件

├── esp-sr/ # 语音识别库

├── esp-who/ # 人脸识别库

└── esp-dl/ # 深度学习推理引擎

6.3.2 Step 2: 板级配置文件

文件 mpconfigboard.h：

#define MICROPY_HW_BOARD_NAME "ESP32-S3-AI"

#define MICROPY_HW_MCU_NAME "ESP32-S3"

#define MICROPY_PY_MACHINE_I2S (1)

// 启用摄像头模块

#define MICROPY_PY_CAMERA (1)

// 启用 ESP-WHO 模块

#define MICROPY_PY_ESP_WHO (1)

文件 mpconfigboard.cmake：

set(IDF_TARGET esp32s3)

set(SDKCONFIG_DEFAULTS

boards/sdkconfig.base

boards/sdkconfig.usb

boards/sdkconfig.240mhz

boards/sdkconfig.spiram_sx

boards/ESP32_S3_AI/sdkconfig.board)

# 引入外部组件

set(EXTRA_COMPONENT_DIRS

${CMAKE_CURRENT_LIST_DIR}/../components/esp-sr

${CMAKE_CURRENT_LIST_DIR}/../components/esp-who/components

${CMAKE_CURRENT_LIST_DIR}/../components/esp-dl)

# 注册 C 扩展模块

list(APPEND MICROPY_SOURCE_C

${CMAKE_CURRENT_LIST_DIR}/../modules/mod_camera.c

${CMAKE_CURRENT_LIST_DIR}/../modules/mod_esp_who.c)

文件 sdkconfig.board：

# PSRAM 配置

CONFIG_SPIRAM=y

CONFIG_SPIRAM_MODE_OCT=y

CONFIG_SPIRAM_SPEED_80M=y

CONFIG_SPIRAM_MALLOC_ALWAYSINTERNAL=4096

CONFIG_CAMERA_MODULE_ESP32_S3_EYE=y# 摄像头 DVP 配置

# ESP-SR 配置

CONFIG_SR_MN_EN_MULTINET5_SINGLE_RECOGNITION=y

CONFIG_SR_WN_WN8_HIESP=y

# 内存优化

CONFIG_ESP32S3_DEFAULT_CPU_FREQ_240=y

CONFIG_SPIRAM_TRY_ALLOCATE_WIFI_LWIP=y

6.3.3 Step 3: 编写 C 扩展模块

文件 mod_esp_who.c 核心框架（简化版，展示关键结构）：

#include "py/runtime.h"

#include "py/obj.h"

#include "human_face_detect.h"

#include "face_recognition.h"

// init_models() - 加载检测+识别模型

STATIC mp_obj_t esp_who_init_models(void) {

// 加载人脸检测模型

face_detect_init(&detect_config);

// 加载人脸识别模型

face_recognition_init(&recog_config);

return mp_const_none;}

STATIC MP_DEFINE_CONST_FUN_OBJ_0(

esp_who_init_models_obj, esp_who_init_models);

// detect(frame) - 检测人脸, 返回边界框列表

STATIC mp_obj_t esp_who_detect(mp_obj_t frame_obj) {

mp_buffer_info_t buf;

mp_get_buffer_raise(frame_obj, &buf, MP_BUFFER_READ);

// 调用 ESP-WHO 检测 API

face_detect_result_t *results = face_detect_run(

buf.buf, 320, 240);

// 将结果转换为 Python 字典列表返回

mp_obj_list_t *list = mp_obj_new_list(0, NULL);

for (int i = 0; i < results->count; i++) {

mp_obj_dict_t *d = mp_obj_new_dict(4);

mp_obj_dict_store(d, MP_OBJ_NEW_QSTR(

MP_QSTR_x), mp_obj_new_int(results->box[i].x));

// ... y, w, h, keypoints ...

mp_obj_list_append(list, d); } return list;}

STATIC MP_DEFINE_CONST_FUN_OBJ_1(

esp_who_detect_obj, esp_who_detect);

// get_face_embedding(frame, box) - 提取512维特征

STATIC mp_obj_t esp_who_get_embedding(

mp_obj_t frame_obj, mp_obj_t box_obj) {

// ... 裁剪+对齐人脸 -> MobileFaceNet 推理

// 返回 512 元素的 float tuple

float embedding[512];

face_recognition_run(aligned_face, embedding);

mp_obj_tuple_t *t = mp_obj_new_tuple(512, NULL);

for (int i = 0; i < 512; i++)

t->items[i] = mp_obj_new_float(embedding[i]);

return t;}

STATIC MP_DEFINE_CONST_FUN_OBJ_2(

esp_who_get_embedding_obj, esp_who_get_embedding);

// 模块注册表

STATIC const mp_rom_map_elem_t esp_who_globals[] = {

{ MP_ROM_QSTR(MP_QSTR___name__),

MP_ROM_QSTR(MP_QSTR_esp_who) },

{ MP_ROM_QSTR(MP_QSTR_init_models),

MP_ROM_PTR(&esp_who_init_models_obj) },

{ MP_ROM_QSTR(MP_QSTR_detect),

MP_ROM_PTR(&esp_who_detect_obj) },

{ MP_ROM_QSTR(MP_QSTR_get_face_embedding),

MP_ROM_PTR(&esp_who_get_embedding_obj) },};

STATIC MP_DEFINE_CONST_DICT(

esp_who_globals_dict, esp_who_globals);

const mp_obj_module_t esp_who_module = {

.base = { &mp_type_module },

.globals = (mp_obj_dict_t *)&esp_who_globals_dict,};

MP_REGISTER_MODULE(

MP_QSTR_esp_who, esp_who_module);

6.3.4 Step 4: 编译与烧录

# 编译 (在 micropython/ports/esp32/ 目录下)

idf.py -D MICROPY_BOARD=ESP32_S3_AI \

-D MICROPY_BOARD_DIR=boards/ESP32_S3_AI \

build

# 烧录固件 + 分区表 + 模型数据

idf.py -p /dev/ttyUSB0 flash

# 单独烧录模型分区 (模型更新时使用)

esptool.py --port /dev/ttyUSB0 write_flash \

0x310000 sr_model.bin \

0x410000 face_model.bin

# 验证固件

# 连接串口终端 (115200 baud)

# 应看到 MicroPython REPL 提示符 >>>

# 输入: import esp_who # 应无报错

# 输入: import camera # 应无报错

7 MicroPython 应用代码详解

7.1 项目文件结构

/ # ESP32-S3 文件系统根目录

├── main.py # 主程序入口

├── audio_capture.py # I2S 麦克风音频采集

├── mfcc.py # MFCC 特征提取 (纯 Python)

├── dtw.py # DTW 算法 + 余弦相似度

├── voiceprint.py # 声纹注册与验证管理

├── face_recognition.py # 人脸识别 (C 扩展封装)

└── /data/ # 数据目录

└── voiceprints.json # 已注册声纹数据

7.2 audio_capture.py — 音频采集模块

通过 I2S 接口采集 16kHz 16bit 单声道音频。关键参数说明：

sck (GPIO 41)：I2S 串行时钟（Serial Clock），由 ESP32 主控输出，频率 = 采样率 × 位数 × 声道数 = 16000 × 16 × 2 = 512kHz
ws (GPIO 42)：Word Select / LRCK，左右声道选择信号，频率等于采样率 16kHz
sd (GPIO 2)：数据输入引脚，接收麦克风的数字音频流
rate=16000：16kHz 采样率，语音识别标准采样率，覆盖 0-8kHz 频段
ibuf=8192：内部缓冲区大小，8KB 可存储 256ms 音频

完整代码见随附文件 audio_capture.py。常见问题排查：

无声：检查 L/R 引脚是否接 GND（左声道）；确认 sd 引脚接线正确
嘉杂声大：检查电源去耦电容是否剔好；尝试降低 ibuf 大小
采样率不对：确认 rate 参数与实际时钟匹配，可用示波器测 SCK 频率验证

7.3 mfcc.py — MFCC 特征提取

MFCC（棅尔频率倒谱系数）是语音处理中最常用的特征。算法每一步的原理：

① 分帧：将连续音频切分为 32ms 的短帧（512 点 @16kHz）。语音信号在32ms内可视为准稳态，这是语音处理的基本假设。
② 汉明窗：对每帧乘以汉明窗函数，减少分帧造成的频谱泄漏。汉明窗比矩形窗更平滑，旁瓣抑制更好。
③ FFT：快速傅里叶变换，将时域信号转换为频域。使用基2 Cooley-Tukey 算法，帧长必须为2的幂。
④ Mel 滤波器组：模拟人耳的非线性频率感知。人耳对低频分辨率高、高频分辨率低，Mel 尺度映射体现了这一特性。公式：Mel(f) = 2595 × log10(1 + f/700)。
⑤ 对数压缩：取对数模拟人耳的响度感知，压缩动态范围。
⑥ DCT：离散余弦变换，去除 Mel 频段之间的相关性。取前 13 个系数作为最终特征，保留声道形状信息而忽略细节。

完整代码见随附文件 mfcc.py。

⚠ 纯 Python FFT 较慢，1秒音频的 MFCC 提取约需 3-8 秒。生产环境建议将 MFCC 提取移至 C 模块，可提速 100 倍。

7.4 dtw.py — DTW 动态时间规整

DTW（Dynamic Time Warping）是比对两个时间序列相似度的经典算法。其核心思想是通过动态规划找到两个序列的最优对齐路径：

动态规划矩阵：构建 N×M 的距离矩阵 D，其中 D[i][j] = 序列 s1 前 i 帧与 s2 前 j 帧的最小累积距离。
递推关系：D[i][j] = dist(s1[i], s2[j]) + min(D[i-1][j], D[i][j-1], D[i-1][j-1])，即只能从左、下、左下三个方向到达当前格子。
滚动数组优化：实际实现中仅保留两行（prev和curr），内存从 O(N×M) 降为 O(M)，对 ESP32 内存受限环境至关重要。
归一化：最终距离除以 (N+M)，消除序列长度对结果的影响。

完整代码见随附文件 dtw.py。

7.5 face_recognition.py — 人脸识别

通过 C 扩展模块调用 ESP-WHO 底层库。关键流程：

注册流程：采集 5 帧图像 → 每帧检测人脸 → 提取 512维特征向量 → 取 5 个向量的平均值作为模板。多帧平均可提高鲁棒性。
识别流程：采集 1 帧 → 检测人脸 → 提取特征向量 → 与所有注册用户的模板计算余弦相似度 → 取最大值 → 超过阈值 (0.65) 则判定为该用户。
阈值含义：0.65 表示两个向量的夹角余弦值。越接近 1 越相似。调高阈值可降低误识率但可能增加拒识率。

完整代码见随附文件 face_recognition.py。

7.6 voiceprint.py — 声纹管理

声纹模板存储格式：使用 JSON 序列化，存储为二维浮点数组（帧数 × 13维 MFCC）。

⚠ JSON 序列化浮点数时可能有精度损失（Python float 的默认序列化精度），但对声纹比对影响极小。如追求极致精度，可改用 ustruct 二进制存储。

完整代码见随附文件 voiceprint.py。

7.7 main.py — 主程序

主程序采用状态机设计，三个状态：

待机状态：主循环轮询按键，LED 熄灭。按下注册键进入注册模式，按下识别键进入识别模式。
注册模式：依次采集人脸（5帧）和声纹（3次×3秒），持久化存储后返回待机。
识别模式：先人脸识别，通过后再声纹验证，两者必须匹配同一用户。

按键去抖实现：检测到按下后延时 50ms 再次读取，确认仍为按下状态后才执行操作，避免报动触发。

完整代码见随附文件 main.py。

7.8 代码上传到 ESP32-S3

编译好自定义固件并烧录后，将 .py 文件上传到 ESP32-S3 的文件系统：

7.8.1 方法一：使用 mpremote（推荐）

pip install mpremote

# 上传单个文件

mpremote connect /dev/ttyUSB0 cp main.py :

mpremote connect /dev/ttyUSB0 cp audio_capture.py :

mpremote connect /dev/ttyUSB0 cp mfcc.py :

mpremote connect /dev/ttyUSB0 cp dtw.py :

mpremote connect /dev/ttyUSB0 cp voiceprint.py :

mpremote connect /dev/ttyUSB0 cp face_recognition.py :

# 创建数据目录

mpremote connect /dev/ttyUSB0 mkdir /data

# 重启设备

mpremote connect /dev/ttyUSB0 reset

7.8.2 方法二：使用 Thonny IDE

Thonny IDE 内置 MicroPython 支持，可通过图形界面拖拽上传文件。选择解释器为「MicroPython (ESP32)」，连接串口后即可操作。

7.8.3 方法三：使用 ampy

pip install adafruit-ampy

ampy --port /dev/ttyUSB0 put main.py

ampy --port /dev/ttyUSB0 put audio_capture.py

# ... 其他文件类似

8 系统调试与优化

8.1 声纹识别调优

8.1.1 DTW 阈值确定方法

正确的阈值需要通过实验数据确定，步骤如下：

采集每个注册人说同一口令 10 次，计算每人内部的 DTW 距离（组内距离）
计算不同人之间的 DTW 距离（组间距离）
组内距离应明显小于组间距离，在两个分布的跳变点选取阈值
典型值范围：8-15，具体值因口令内容和环境而异

8.1.2提高准确率的方法

Delta-MFCC：在 13维 MFCC 基础上追加一阶差分（ΔMFCC）和二阶差分（Δ²MFCC），特征维度变为 39维，包含更多动态信息。
增加注册样本：注册时采集 5-10 次（而非 3 次），取与其他样本平均 DTW 距离最小的作为模板。
环境降噪：可在 MFCC 提取前加入简单的谱减法降噪，或使用 ESP-SR 的 NS（Noise Suppression）模块。

8.2 人脸识别调优

余弦相似度阈值：默认 0.65。如误识率高，调高到 0.70-0.75；如拒识率高，调低到 0.55-0.60。
光照影响：光照不足是人脸识别失败的首要原因。建议在摄像头旁加装白光 LED 补光。如用软件方法，可在 C 扩展中加入直方图均衡化。
角度影响：建议注册时采集正面 + 左右15° 共 3 个角度，取平均向量。
注册人数上限：每个用户 512维 float = 2KB。理论上 PSRAM 可存储上千人，但比对时间线性增长。实际建议不超过 50 人，否则应加入索引结构。

8.3 性能优化

MFCC C 模块化：将 mfcc.py 的核心计算（FFT + Mel 滤波）用 C 实现，通过 MicroPython C 扩展暴露。预期提速 50-100 倍。
内存监控：在代码中定期调用 gc.collect() 和 gc.mem_free() 监控可用内存。使用 micropython.mem_info(1) 查看详细内存分布。
避免内存碎片：预分配大缓冲区而非频繁创建/销毁；使用 bytearray 而非 list 存储二进制数据；避免在循环中创建字符串拼接。

8.4 功耗优化

深度睡眠：待机时进入深度睡眠模式，电流从 ~240mA 降至 ~10µA。使用 machine.deepsleep(ms) 实现。
唤醒源：配置 GPIO 唤醒（按键按下唤醒）或定时器唤醒（周期性检测）。
外设按需开关：仅在需要时初始化摄像头和麦克风，操作完成后调用 deinit() 关闭，可显著降低平均功耗。

9扩展方向

9.1 WiFi 远程管理

在 ESP32-S3 上启动一个轻量级 Web 服务器（使用 MicroPython 的 socket 或 microdot 框架），提供以下功能：

通过浏览器访问设备 IP，查看已注册用户列表
远程添加/删除用户（上传人脸照片 + 声纹音频）
查看识别日志和统计数据

9.2 MQTT 上报识别结果

通过 MQTT 协议将识别结果发布到服务器或智能家居平台（如 Home Assistant）：

from umqtt.simple import MQTTClient

client = MQTTClient("esp32-ai", "192.168.1.100")

client.connect()

client.publish("home/door/identity",

'{"name":"user_1","face":0.89,"voice":9.2}')

9.3 多模态融合打分

当前方案采用「严格双重验证」——两者必须同时通过。可优化为加权融合打分：

# 融合打分策略

face_score = face_similarity # 0~1

voice_score = 1 - (dtw_dist / max_dist) # 归一化到 0~1

final_score = face_score * 0.6 + voice_score * 0.4

passed = final_score > 0.65

这样即使某一模态得分略低，另一模态得分足够高仍可通过，提升用户体验。

9.4 活体检测

防止用照片欺骗人脸识别。简单实现方案：

眉眼检测：连续采集多帧，检测眼睛关键点的位置变化。如果眼睛完全不动，判定为照片。
头部转动：提示用户向左/右转头，检测关键点位置变化。

9.5 离线语音控制联动

识别通过后，进入语音命令模式，通过 ESP-SR 的 MultiNet 识别命令词，执行相应操作（开灯、关门、调温度等）。实现“先验身份，再执行命令”的完整交互流程。

AI龙虾聊天具身智能机器人最简方案规划一