当文物遇见眼镜：一次“看懂“博物馆的尝试

tutuya_1999

232人浏览 · 2026-04-17 08:53:26

tutuya_1999 · 2026-04-17 08:53:26 发布

本文智能体基于Rokid AI Glasses和灵珠AI平台开发。
开发指南：https://forum.rokid.com/index

站在博物馆里，你有没有过这种感觉——

展柜前聚了一堆人，导游举着小旗子讲解，耳机里导览声音嗡嗡响，但你真正想知道的，就那么一两句：这是啥、有啥特别、背后有啥意思。结果呢？说明书太短，扫码太麻烦，蹭听又听不完整。

我最近用灵珠 AI 和 Rokid 眼镜搭了一套东西，试着解决这个不大不小的问题。

01 它是怎么工作的

原理不复杂。

戴上 Rokid 眼镜，走到一件文物前，眨眨眼——或者干脆说句话，比如"这件给我讲讲"。灵珠 AI 上的「文博瞳解」智能体收到信号，会从年代、器型、工艺、纹样、故事这几个角度，用说人话的方式讲一遍。

不是念说明书，是真的在"讲"。

文字会浮在你眼前的玻璃面上，同时耳机里也会有声音。视线不用离开文物，手不用掏手机。

02 搭这个智能体，我填了什么

在灵珠 AI 平台上建了一个叫「文博瞳解」的智能体，核心配置就两样：功能介绍 + 提示词。

功能介绍填的是：

这是一款适配智能眼镜的文博实景讲解智能体，专为博物馆、美术馆、文物古迹场景打造。通过眼镜的视觉识别，自动识别眼前的文物展品，无需扫码、无需导览器，即可轻声为你讲解器物年代、纹饰寓意、工艺背景与历史典故，还能标注关键细节，帮你读懂文物背后的故事，让逛展更沉浸、更省心。

提示词是这么写的：

### 人设与回复逻辑
你是「文博瞳解」，一款适配智能眼镜的博物馆文物讲解智能体。
1.  **核心定位**：用户眼前的文物专属讲解员，通过视觉识别，轻声、通俗地讲解展品信息。
2.  **回复风格**：
    -   语言亲切自然，避免生硬的百科式朗读，像一位耐心的文博向导。
    -   讲解时重点突出，先讲年代与用途，再讲工艺、纹饰寓意和背后的历史故事。
    -   主动引导用户关注细节，比如“你看这个纹饰，它代表着……”，适配眼镜AR标注场景。
3.  **回复规则**：
    -   用户提到眼前的文物时，优先回应这件展品的核心信息，不跑题。
    -   用短句分段呈现，方便用户边看边听，不使用长难句和生僻词。
    -   不主动输出无关内容，只围绕用户眼前的展品进行讲解，保持专注。

在智能体设置页，完成这两项关键配置：

智能体启动
- 选择：图片(首轮传递)
- 作用：用户唤醒时，系统会自动把眼镜摄像头拍到的画面，在第一轮就传给智能体，不用等用户额外发图，保证识别和讲解零延迟。

图像精度

选择：低精度
作用：降低图片分辨率，减少传输带宽和模型处理时间，适配眼镜端的实时响应需求。

添加控制插件

进入「添加插件」页面，切换到「探索工具」标签。
在插件列表中找到 「乐奇 AI 眼镜控制插件」。
点击插件右侧的箭头，进入详情页，完成添加操作。

启用拍照控制能力

回到智能体的「技能」设置页，展开「插件」列表。
找到已添加的「乐奇 AI 眼镜控制插件」，启用它的 notify_take_photo 工具。
- 工具说明：该工具仅向眼镜设备发送「拍照成功」的通知，不做额外处理，确保硬件端对焦、拍摄完成后，再进行后续流程。

03 在眼镜上怎么把它跑起来

搭好之后，需要在 Rokid 眼镜上把它调出来。步骤不复杂：

手机打开 Rokid App，底部导航进「主页」

找到「智能体调试」，找到「文博瞳解」，点启动

戴上眼镜开机，进入智能体，面对文物，喊一声”这是什么文物？"

等几秒，眼前浮现文字，耳边响起声音

眼镜里的画面大概是这个样子：

文字分层出现，先年代用途，再工艺，最后才到纹样寓意——这个顺序是故意设计的，先建立基本认知，再逐步深入。

04 它能怎么用

单独逛博物馆

不用排队等讲解器，不用扫码，不用蹭旅行团的导游。自己走，想停多久停多久。

研学或者带孩子

专业词汇转成大白话之后，家长也能接上话，孩子问"这花纹是啥意思"，至少能答上来。

特展或者不熟悉的领域

去一个完全不懂的展厅，智能体至少能让你离开时比进来时多懂一点点，而不是看完就忘。

05 效果怎么样


讲解听得下去吗	能听，比导览器里念论文的那种强
眼睛真的不用离开展品吗	是的，信息在眼前，不是手机上
响应快不快	正常对话速度，不会有明显等待感
长时间戴着累不累	眼镜本身不重，但博物馆逛一天还是会有点闷，适时休息