给 AI Agent 装上一双会看网页的眼睛：Dokobot Skill 体验

朝阳区靓仔_James

563人浏览 · 2026-04-22 20:58:00

朝阳区靓仔_James · 2026-04-22 20:58:00 发布

如果你最近也在折腾 AI agent，大概率会遇到一个很现实的问题：

很多 agent 看起来会“上网”，其实只是会发 HTTP 请求。

这在简单页面上问题不大，但一旦网页是前端渲染的，或者需要登录、滚动、交互，这种能力就很容易不够用了。页面能打开，不代表 agent 真能读懂；接口能返回，也不代表它拿到的是用户真正看到的内容。

这也是我最近看到 Dokobot 时，觉得它挺有意思的原因。

官网：https://dokobot.ai

它想解决的，不是“怎么让 agent 再多发几个请求”，而是一个更底层的问题：

怎么让 agent 真正看见网页。

Dokobot 的思路很直接。它不是再给 agent 包一层更花哨的 fetch，而是直接让 agent 借助真实的 Chrome 浏览器去读网页、搜网页。换句话说，它处理的不是一份冷冰冰的网页源码，而是用户眼前那个已经渲染好的页面。

这一点非常关键。

因为很多我们平时觉得“网页就在那”的内容，其实对 agent 并不天然可见。内容可能是 JS 动态加载出来的，可能要登录之后才能看到，也可能得滚动几屏才会完整出现。用普通抓取方式做这些事情，往往要补很多额外逻辑；但如果直接走真实浏览器，整件事就会顺很多。

安装教程：https://dokobot.ai/zh-CN/install

从这个角度看，Dokobot 更像是在给 agent 补一块长期缺失的能力拼图。

很多 agent 不是不会推理，也不是不会调用工具，而是卡在“看不到真实网页内容”这一步。一旦这一步打通，后面的资料收集、页面检查、信息提取、搜索整理，都会顺畅很多。

它提供的能力也很直接：

dokobot read [url]：读取网页内容，支持 JS 渲染、登录态、无限滚动，还能做多屏截图
dokobot search [query]：直接做网页搜索

它还提供了 Skill： https://dokobot.ai/zh-CN/skill

表面上看，这只是两个命令。但它真正推进的，是 agent 的“网页理解能力”。

以前很多 agent 只能处理静态内容，现在它更接近真人打开浏览器、看到页面、继续往下操作的状态。这个变化听起来不花哨，但在真实工作流里非常实用。

比如这些场景，我觉得都很适合：

做资料收集和网页阅读
跑竞品调研，读取动态页面信息
检查后台页面或需要登录态才能访问的内容
处理那种一打开就是一堆前端脚本的网站

很多原来必须人手打开、滚动、确认的页面，现在 agent 终于有机会自己完成第一轮读取了。

安装也不复杂：

npm install -g @dokobot/clidokobot install-bridgedokobot install-skill

它支持的 agent 也比较广，像 Claude Code、Cursor、Codex、Qwen Code、OpenClaw、Hermes、Trae、WindSurf 这些主流 coding agent 基本都能接，走的是 MCP 或 Skills 协议。

它读取网页操作浏览器，截图复制等等，导出等等都是免费的，完全够用。

使用的时候非常简单，直接让它读取什么内容就可以了。

我这里为了专门测试这工具，所以说故意提了一下这个名字。你其实你可以不用提，因为你装了它Skill之后，AI就会自动知道有这样的工具可以使用。

让他去淘宝去搜索一下录音卡的价格，他也能够正常的搜索，然后进行汇总。

它的插件可以配合 Cli 打开网页，执行相关的动作。

你还可以在网页上，用它的插件选择一些文本，导出，直接复制成比较干净的 Markdown 格式，也可以导入成 PDF 或者是直接对话等等。

很多时候，决定 agent 上限的，不只是模型够不够强，而是它到底能不能看到用户真正看到的网页。

如果这一步一直缺着，后面的很多自动化都只是纸上谈兵。一旦这块补上，agent 才算真正开始接近“会用浏览器做事”。

所以如果你最近也在做 agent 自动化，尤其是涉及复杂网页、动态页面、登录态页面，我觉得这个工具值得装上试试。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

在这里插入图片描述

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

海思平台LTE Cat.1通信模组赋能AI玩具落地：解决硬件接口/生产适配全链路难题

AtomGit开源社区

【学习笔记】SimpleVLA-RL：通过强化学习扩展 VLA 训练

本文提出SimpleVLA-RL框架，通过强化学习增强视觉-语言-动作（VLA）模型的逐步动作规划能力。该框架针对VLA模型特点优化了轨迹采样、并行化和损失计算，在LIBERO和RoboTwin基准测试中显著超越监督微调方法，最高提升30.6%成功率。研究发现仅需单条演示轨迹配合强化学习即可达到接近全数据训练的效果，并观察到策略在训练中能自主发现新动作模式（"pushcut"现象）。这一工作为减少