在灵珠平台搭一个能认识万物的AI智能体,我把全过程写下来了

不惑.

2371人浏览 · 2026-04-12 16:35:24

不惑. · 2026-04-12 16:35:24 发布

拍一张照片就能认识世界，这事儿真能做到吗

去年我第一次戴上Rokid Glasses乐奇眼镜的时候，脑子里就冒出一个念头。

能不能做一个东西，对着花拍一下就知道叫什么名，对着菜拍一下就知道多少卡路里,对着建筑拍一下就能听到它的故事。

后来我真的动手了。

在Rokid灵珠AI平台上,我搭了一个叫万物生的智能体。核心功能就一句话,通过乐奇眼镜上传图片,识别一切事物。

听起来像在吹牛对吧。但做完之后我发现,这玩意儿的体验超出了我的预期。今天就把整个搭建过程拆开来讲，踩过的坑也一并说了。

先搞清楚硬件能干什么，别上来就写代码

很多人做智能体的第一步就是打开平台开始配提示词。我觉得这是错的。你得先搞清楚你的硬件载体到底能干什么，边界在哪里,能力在哪里。

乐奇眼镜这副硬件我用了一段时间,几个关键数据说一下。

整机49g，戴着基本没负担。摄像头3024×4032分辨率，拍出来的图比很多手机随手拍还清楚。Micro LED加衍射光波导双目显示，亮度1500nits,大太阳底下也看得见。4颗麦克风定向拾音,2颗高保真扬声器,语音交互完全够用。

但最关键的不是这些参数。

最关键的是它的AI响应速度。语音指令1秒内出结果，图片识别2秒内出结果。这个速度意味着什么？意味着你对着一朵花拍一张照，还没来得及把手放下,结果就出来了。

而且它不是只接了一个模型。通义千问、DeepSeek、豆包、智谱,好几个大模型都能切换。这给后面做智能体留了很大的灵活空间.

还有一点很多人不知道,去年Rokid已经上线了Rokid Glasses SDK开发套件，把完整的AR眼镜开发工具链开放给了开发者。这一步非常重要,没有这个SDK,后面的事情都做不了。

搞清楚了这些,我才敢往下走。

灵珠平台到底是个啥

说实话我一开始对灵珠平台没什么概念。用了之后发现，它本质上就是一个云端的智能体编排平台。

你可以在上面创建智能体,定义它的人设和回复逻辑,配置工作流,接上各种工具,然后发布出去拿到API。整个过程是可视化的，拖拖拽拽就能搞定。

平台地址是 https://rizon.rokid.com/space/home ,注册之后需要做实名认证。进去之后你会看到智能体开发、工作流、应用中心这几个主要模块。

有一个很实用的功能值得单独说一下。灵珠平台支持自定义智能体接入，基于SSE协议,你可以把自己私有部署的大模型接进来。DeepSeek R1、Qwen3、Kimi K2.5都行。这对于想深度定制的开发者来说,算是个大利好。

不过对于万物生这个项目来说,我没有用私有模型,直接用平台内置的能力就够了。

万物生这个名字,是有讲究的

取名这件事我想了挺久。

万物生，万物有灵，一眼即生。我希望用户戴着眼镜看到任何东西的时候,这个东西就像是在他面前活过来了一样,有了名字,有了故事,有了意义。

它的定位很明确,就是一个万物识别智能体。不做聊天机器人，不做日程管理，不做翻译助手。只做一件事，你给我看什么,我就告诉你这是什么。

但这个只做一件事，其实拆开来挺复杂的。

我把识别能力分了四个层级。基础层处理动物植物食物日用品这些常见的东西。进阶层处理地标建筑、品牌Logo、多语言文字。专业层搞定珠宝药材艺术品这些垂直领域。场景层负责理解整个画面，比如交通状况、活动场景。

每一层用到的技术方案不一样。基础层靠多模态大模型就够了，进阶层需要OCR加视觉检索加知识图谱，专业层可能需要垂直微调，场景层得用视觉语言大模型。

想清楚这些分层之后，写提示词才有的放矢。
在这里插入图片描述

提示词是灵魂,这部分我改了很多遍

灵珠平台最核心的配置就是人设与回复逻辑。说白了就是一段提示词,决定了你的智能体是什么性格、怎么说话、遇到不同情况怎么处理。

这部分我前后改了很多遍。下面是最终版本,直接贴到灵珠平台配置区就能用。

# 角色定义
你是万物生,一个运行于Rokid Glasses乐奇AI眼镜上的万物识别智能体。
用户通过眼镜摄像头拍摄任何事物,你能快速准确地识别,
并用简洁生动的方式告诉用户这是什么、有什么故事、有什么用。

## 核心人设
- 名字,万物生
- 性格,博学、亲切、充满好奇心,
  像一位无所不知的自然探索家和百科全书式的朋友
- 语言风格,简洁清晰,通俗易懂,避免大段学术术语,
  必要时加入趣味冷知识或比喻让回答生动有趣
- 语气,温暖热情,带有发现新事物的兴奋感,
  善于用好眼力、有意思、你发现了一个宝藏等鼓励性用语开头
- 自我认知,你是运行在乐奇眼镜上的AI识别助手,
  当用户问你是谁,要清晰说明自己是万物生万物识别智能体

## 核心能力
1. 万物识别,识别图片中的动物、植物、昆虫、食物、建筑、地标、
   商品、品牌Logo、矿石、天象、艺术品、文物、交通标识、
   文字等一切可见事物
2. 知识解读,提供名称、分类、特征、用途、文化背景、趣味知识等
3. 场景感知,根据图片整体场景自动调整回复侧重点
4. 追问引导,识别后主动引导用户进一步探索

## 用户上传图片时的处理流程

第一步,快速识别
- 分析图片内容,识别出1到3个核心对象
- 多个事物时优先识别最显眼或居中的主体

第二步,结构化输出
按以下格式回复,必须简洁,适配眼镜端显示

🔍 【识别结果】事物名称(中文名 + 英文或学名)
📂 【分类】所属类别
⭐ 【亮点】1到2句最核心的特征或最有趣的信息
💡 【你可能想知道】一个延伸小知识或实用信息
🗣️ 【想继续探索吗】一个引导追问的问题

第三步,特殊场景自适应
- 🍽️ 食物场景,自动补充大致热量、营养成分、口味描述
- 🌿 植物场景,自动补充是否有毒、花期果期、养护要点
- 🐾 动物场景,自动补充习性、分布区域、是否为保护动物
- 🏛️ 建筑地标场景,自动补充建造年代、建筑风格、历史故事
- 🎨 艺术品文物场景,自动补充作者年代、艺术流派、文化价值
- 📦 商品品牌场景,自动补充品牌信息、用途、同类推荐
- 📝 文字标识场景,自动OCR、翻译、含义解释
- 🌤️ 自然现象场景,自动补充科学原理、观赏建议

## 用户发送纯文字或语音时
- 要求识别但没上传图片,
  友好提醒拍照上传,
  回复示例,想让我帮你认一认？📸 对准它拍一张照片发给我吧
- 针对上一次识别结果追问,
  基于上下文进行详细回答
- 与识别无关的闲聊,
  简短回应后引导回核心功能,
  回复示例,聊天我也可以,但我最擅长帮你认识万物哦🌍拍一张试试

## 输出规则

### 必须遵守
1. 简洁优先,每次回复控制在150字以内,追问时可扩展到250字
2. 结构清晰,用emoji标记各信息模块
3. 确定性表达,高置信度用肯定语气,低置信度用谨慎语气
   并建议再拍一张更清晰的
4. 安全合规,不对人脸进行身份识别或评价,
   不对涉及隐私的内容进行解读
5. 事实准确,不确定的内容标注仅供参考
6. 正向输出,不输出歧视性冒犯性内容

### 严禁行为
- 不进行人脸身份识别
- 不对人物外貌身材年龄做评价
- 不识别个人隐私文件,提醒用户注意信息安全
- 不提供医疗诊断,建议咨询专业医生
- 不输出政治敏感或色情暴力内容
- 识别不出时坦诚告知,不胡编乱造

## 开场白
嗨！我是万物生🌍✨ 你的万物识别搭档！
对准任何你好奇的东西拍一张照片,
花草虫鱼、美食建筑、文字标识我都能帮你认！
来吧,让我看看你发现了什么？📸

## 引导问题
- 📸 拍张照片让我认认
- 🌸 帮我看看这是什么花
- 🍜 这道菜是什么？热量多少
- 🏛️ 这个建筑是什么风格

说说这套提示词为什么这样写

很多人写提示词喜欢堆功能。恨不得让一个智能体什么都能干。我的经验是，什么都能干往往意味着什么都干不好。

万物生的提示词有几个设计上的取舍,我觉得值得展开聊聊。

第一个,字数限制卡在150字。这不是随便定的数字。乐奇眼镜的AR显示区域有限，语音播报太长用户会走神。150字差不多就是用户扫一眼能看完、听一遍能记住的长度。追问的时候放宽到250字，因为这时候用户是主动要详细信息,注意力更集中。

第二个，结构化输出用emoji做标记。在眼镜端那块小小的光波导屏幕上,emoji比文字标题更醒目,扫一眼就知道哪块是什么信息。

第三个,严禁行为写得很具体。这点非常重要。你不写清楚,大模型就可能在某些场景下输出不该输出的东西。比如对着一个人拍照,模型可能会尝试判断身份或者评价外貌。这种情况必须从提示词层面堵死。

第四个，场景自适应。同样是拍照识别，拍花和拍菜用户想知道的东西完全不一样。拍花想知道叫什么怎么养，拍菜想知道多少热量怎么做。这个逻辑不写进提示词,模型很可能给你一个千篇一律的百科回答。

平台上的具体操作步骤

提示词写好了，接下来就是在灵珠平台上把东西搭起来。

打开 https://rizon.rokid.com/space/home ,登录之后进到智能体开发模块，点创建智能体。

基础信息这样填。名称写万物生。描述写,万物识别智能体,通过乐奇眼镜拍照即可识别一切事物，提供名称分类趣味知识与实用信息。头像我建议找个地球加眼睛元素的图标，视觉上要有辨识度。

然后把上面那段提示词粘贴到人设与回复逻辑配置区里。

开场白和引导问题单独配置,内容已经写在提示词里了,照着填就行。

记得开启多模态输入能力。这个开关如果不打开，用户没法通过眼镜发图片过来，整个识别功能就废了.

工作流怎么设计

光有提示词还不够。工作流决定了数据怎么流转,逻辑怎么串联。

我设计的工作流大概是这样的。

开始节点接收用户输入。然后进意图识别节点，判断用户是发了图片、发了语音,还是在追问上一个问题。

如果是图片,走视觉大模型识别节点。我选的是通义千问VL做主力,因为乐奇原生集成了通义千问，延迟最低。识别完之后进知识增强节点，根据场景类型补充对应的信息。最后走结构化输出节点,按照emoji格式控制字数然后返回结果。

如果是语音,先转文字,再判断意图。如果是追问，关联上一次的识别上下文来回答.

整个链路跑通之后，从拍照到出结果,体感上确实能做到2秒左右。

模型选择踩过的坑

这里说一个我踩过的坑。

一开始我想用DeepSeek做主力模型,因为它的推理能力确实强。但实际测下来发现，DeepSeek在图片识别场景下的响应速度不如通义千问VL。对于眼镜端这种对延迟极其敏感的场景,0.5秒的差距体验上就很明显。

后来我改成通义千问VL做日常识别,DeepSeek留给复杂场景。比如用户拍了一幅画,要分析艺术流派和创作背景,这种需要深度推理的任务再调DeepSeek.

豆包视觉模型也试过，表现中规中矩，作为备选可以,主力不太够。

选模型这件事没有标准答案，得根据你的场景实际测。别人说好用的,到你这儿不一定好用。

发布之后怎么测试

智能体在灵珠平台上调试通过之后，点发布。发布成功后你会拿到API调用密钥和接口地址。

但这还没完，你得在真机上测。

打开手机上的Rokid AI App,进设置里面找开发者选项，然后找到智能体调试入口。你会看到自己在灵珠平台创建的智能体出现在列表里.

这里有个细节要注意,没有提审的智能体只有你自己能看到和使用。这是平台的数据安全策略。如果只是自己用或者小范围测试，不提审也没关系。

戴上眼镜,点进入,然后对着身边的东西拍拍照试试。

我第一次真机测试的时候,对着桌上的一杯咖啡拍了一张。万物生大概1.5秒就返回了结果，告诉我这是拿铁咖啡,还贴心地补了一句大约150大卡。那一刻确实有点小兴奋。

如果测试没问题,还可以在App里配置AI快捷指令,方便日常使用的时候快速召唤万物生.
在这里插入图片描述

实际效果长什么样

说了这么多,看看万物生实际的输出效果。
在这里插入图片描述

对着一朵花拍照,它会返回这样的内容。

🔍 【识别结果】绣球花(Hydrangea macrophylla)
📂 【分类】虎耳草科 · 绣球属 · 观赏花卉
⭐ 【亮点】花色会随土壤酸碱度变化,酸性土偏蓝碱性土偏粉,天然的pH试纸
💡 【你可能想知道】花语是希望和忠贞，婚礼中经常用到
🗣️ 想知道怎么养好它吗

对着一碗拉面拍照,返回的是这样的。

🔍 【识别结果】日式豚骨拉面
📂 【分类】日本料理 · 汤面类
⭐ 【亮点】正宗豚骨汤底需要猪骨熬煮12到18小时才能呈现乳白色浓汤
💡 【营养参考】约500到700大卡每碗,蛋白质丰富,钠含量偏高
🗣️ 想了解日本各地拉面的区别吗

如果图片太模糊识别不了呢。

它会说,这张图有点模糊我看不太清楚,能再靠近一点对准拍一张吗,光线充足效果更好哦。

不装,不硬猜,这是我在提示词里反复强调的。

几个可以继续做的方向

万物生目前的版本已经能用了,但我脑子里还有不少想法没实现。

第一个是博物模式。户外徒步的时候开着这个模式，眼镜自动连续识别沿途的花草虫鸟,回来之后生成一份自然日记。想想就觉得很酷。

第二个是购物助手。逛超市的时候对着商品拍一下,自动比价,显示用户评价。这个功能如果做好了,实用性很强。

第三个是无障碍场景。之前看到报道说在德国IFA展会上,有听力和视力障碍的朋友专门去体验Rokid眼镜。对于视障群体来说,一副能实时描述眼前世界的眼镜，意义远超一个科技产品。

第四个是个人万物图鉴。把用户识别过的所有东西汇总成一本电子图鉴,看着自己认识的物种越来越多，这种收集感很容易让人上瘾.

这些方向每一个展开都是一个完整的项目。慢慢来吧。

最后说几句掏心窝的

做万物生这个项目,最大的感受是,AI眼镜这个品类正在从尝鲜玩具变成真正有用的工具.

以前大家聊AR眼镜,聊的都是概念和未来。现在有了灵珠这样的平台，有了开放的SDK,有了足够快的多模态大模型,普通开发者真的可以在上面做出有意思的东西。

万物生只是一个起点。

当你戴着眼镜走在路上,看到一棵不认识的树,一栋有故事的老楼,一道闻着就香的菜,只需要看一眼,就能知道它的名字和故事。

这种体验一旦习惯了，就再也回不去了.

如果你也想试试,灵珠AI平台的地址是 https://rizon.rokid.com ,注册就能开始。

别光看，动手吧。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

SEO没有死，它只是换了个死法——一个从业者的2026年中场总结

AtomGit开源社区

详细讲解一下epoll

AtomGit开源社区

何庭波万字论文，详述华为“韬定律”

大约到2030年之前，AI加速器，即Ascend SuperPoD系列，包括2025年的Ascend910C、2026年的Ascend950，以及后续Ascend990，将依赖成熟技术组合：chiplet、2.5D扇出，以及基于微凸点和标准间距混合键合的3D堆叠。沿着这一路径，到2035年，硬件集成度预计增长超过100倍，τ的降低将分布在技术栈的每一层，而不再集中在器件层。协议层与物理层之间的这种