Chrome 146 重磅更新原生 MCP 支持，龙虾Agent终于能操控真实浏览器了

模型启动机

556人浏览 · 2026-03-18 13:16:01

模型启动机 · 2026-03-18 13:16:01 发布

跟 Playwright MCP 比，它们不是竞争关系，而是各有适用场景。Playwright 在测试和自动化领域依然是成熟方案，但如果你需要操控真实浏览器会话、调试生产问题，Chrome 这边的方案更有优势。

想象一下这个场景：你跟龙虾Agent🦞说"帮我订下周五从北京飞上海的机票"，它打开浏览器，找到机票网站，点开日历，选好座位，直接确认。

这个场景一直以来都有点像科幻。AI 操控浏览器不是不行，但不稳定——网页改个按钮颜色、换个 class 名字，流程就断了。可靠性差到让人不太敢用。

Chrome 146 这次更新，悄悄往这个方向推了一大步。

两件事同步发生：

一是 WebMCP 标准进入早期预览，网站可以主动向 AI Agent 暴露结构化接口；二是 Google 官方发布了 Chrome DevTools MCP 服务器，让 AI 编程助手能直接接入真实的 Chrome 会话做调试。

加在一起，感觉浏览器和 AI Agent 的关系正在被重新定义。

一、WebMCP 是什么，解决了什么问题

AI Agent 操作网页，现在主要靠两种方式。

一种是截图 + 视觉识别，AI 看着屏幕猜哪里该点。准确率凑合，但慢，而且贵——每次都要跑视觉模型推理。

另一种是解析 DOM 和无障碍树，靠 HTML 结构来理解页面。比截图好一点，但网页结构一变还是容易出问题。

说白了，现在 AI Agent 操作网页，本质是在"猜"。它不知道这个网站真正能做什么、接受什么输入、返回什么结果。就像你给一个不懂中文的人一份中文菜单，让他点菜——可能点到，也可能点错，而且每次都得从头猜。

WebMCP 想做的事很直接：让网站主动告诉 AI Agent"我能干什么"。

具体有两种实现方式。

声明式（HTML 标注）：在 HTML head 里加几行 meta 标签，描述这个页面有哪些工具、接受什么参数：

命令式（JavaScript API）：对于需要实时状态、登录信息或动态逻辑的场景，用 navigator.mcp.registerTool() 注册工具处理函数，AI Agent 调用时直接执行真实逻辑，拿到结构化结果。

Agent 不再需要找"查询按钮在哪里"，而是直接调用 searchProducts({query: "运动鞋", maxPrice: 500}) 函数，拿到结构化的商品列表。据报道，可靠性提升10倍，速度提升100倍。

目前 WebMCP 在 Chrome 146 里藏在 flag 后面（chrome://flags/#enable-webmcp-testing），还是早期预览，不建议生产环境用。但 Google 提供了一个演示站点，可以看到完整的 Agent 发现工具、调用函数的流程，挺直观的。

二、Chrome DevTools MCP：面向开发者的另一半

跟 WebMCP 同步出现的，还有 Google 官方推出的 Chrome DevTools MCP 服务器。

这个东西解决的是开发者的痛点：AI 编程助手帮你写完代码，但它看不到代码跑起来是什么样子。它不知道控制台有没有报错，不知道网络请求有没有失败，不知道布局是不是乱掉了。

等于是"蒙着眼睛写代码"。

Chrome DevTools MCP 把 Chrome 的调试能力通过 MCP 协议暴露给 AI 助手。接入之后，Claude、Gemini、Cursor、Copilot 这些工具都可以直接连接你正在运行的 Chrome 浏览器，做这些事：

• 查看控制台报错，并带有源码映射的完整堆栈
• 分析网络请求，发现 CORS 问题或接口异常
• 截图当前页面，让 AI 看到实际渲染结果
• 录制性能 Trace，分析 LCP、FID 等指标
• 直接操作页面：点击、填表、导航
• 执行 JavaScript，在真实环境里验证修复

GitHub 上已经快 3 万 star 了，反应挺热烈的。

接入方式也很简单，在 MCP 客户端配置文件里加一条就行：

{
　　"mcpServers": {
　　　　"chrome-devtools": {
　　　　　　"command": "npx",
　　　　　　"args": ["chrome-devtools-mcp@latest"]
　　　　}
　　}
}

三、跟 Playwright MCP 有什么不一样

说到浏览器 + MCP，不得不提 Playwright MCP。微软推出的这个方案也很成熟，不少人已经在用了。那这次 Chrome 的更新跟 Playwright MCP 究竟有什么区别？

我觉得可以从三个维度来理解。

操作的是什么浏览器

Playwright MCP 会启动一个全新的、隔离的浏览器实例，你的登录状态、Cookie、本地存储全不在里面。它是一个干净的测试环境。

Chrome DevTools MCP 连接的是你正在用的真实 Chrome，带着你所有的登录状态和上下文。这个差异非常关键——测试场景用 Playwright 合适，但开发调试的时候，你需要看到真实环境里的报错，得用 Chrome DevTools MCP。

理解页面的方式

Playwright MCP 主要依赖无障碍树（Accessibility Tree）来理解页面结构，类似屏幕阅读器看到的内容。它不需要截图，对 LLM 友好，速度快，但本质上还是在"读"页面结构，遇到复杂的动态内容仍然可能出错。

Chrome DevTools MCP 直接走 Chrome DevTools Protocol（CDP），能拿到页面运行时的真实状态：JavaScript 堆内存、网络请求详情、Source Map 解析后的堆栈信息——这些是纯粹解析 DOM 拿不到的。

至于 WebMCP，则是完全不同的层次——它不是 AI 去"读"页面，而是网站主动告诉 AI 能做什么，直接调用结构化 API，完全绕过了 DOM 解析这一步。

适合什么场景

这三个方案其实并不是互相替代的关系：

• Playwright MCP：端到端测试、自动化回归、CI/CD 流程，需要隔离环境的场景
• Chrome DevTools MCP：开发调试、性能分析、排查真实环境 Bug，开发者日常场景
• Chrome WebMCP：AI Agent 代替用户完成任务——购票、填表、下单，面向"未来的互联网"

一个简单的判断标准：如果你在测试代码，用 Playwright MCP；如果你在调试 Bug，用 Chrome DevTools MCP；如果你在构建一个让 AI 帮用户操作网站的产品，等 WebMCP 成熟。

四、为什么这件事值得关注

有个类比挺有意思的：WebMCP 之于 AI Agent，可能类似于 SEO 之于搜索引擎。

2000 年代，做网站的人开始意识到要针对搜索引擎优化，让爬虫能更好地理解自己的内容。

现在，一个类似的转变可能正在发生：网站需要针对 AI Agent 做优化，让 Agent 知道自己的网站能做什么、怎么用。

当然，WebMCP 现在还很早期。Chrome 146 只是把它放到 flag 后面让开发者试玩，标准还在讨论，API 肯定还会变。Chrome 团队自己也说，他们之前的一些内置 LLM 功能（摘要、Prompt API 等）正在重新评估。所以现在押注太早，但完全不关注也说不过去。

Chrome DevTools MCP 则已经相对稳定，现在就可以接入用。如果你在用 Cursor 或者 Claude 写前端代码，值得试一下——让 AI 直接看到浏览器里发生了什么，调试效率差别还是挺明显的。

小结

这次 Chrome 146 带来的两件事，其实代表两个不同的方向：

Chrome DevTools MCP 是"现在就能用的东西"——让 AI 编程助手看到真实的浏览器状态，调试代码时不再盲人摸象。

WebMCP 是"面向未来的赌注"——如果这个标准真的被广泛采纳，AI Agent 在网页上的操作将从"猜测"变成"调用 API"，可靠性和速度会上一个台阶。

互联网是为人设计的。但或许不会太久，它也需要为 AI Agent 重新设计一次。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

深度学习实战-基于Xception的阿尔茨海默病图像识别模型

AtomGit开源社区

新型电力系统实时化转型：数据底座的重构与落地实践

这种架构碎片化严重，接收、分析、告警、存储等模块分散，运维复杂且时延不可控，原始波形存文件、特征数据存时序库，导致异常回放不便、查询链路长，同时 FFT、窗口滑动、规则阈值等逻辑散落在不同程序中，规则调整需改代码、算法更新需重新发布，maintenance fee高。：增量计算与向量化处理减少了重复计算开销，紧凑的统一处理链避免了多进程并行运行带来的线程切换和内存冗余占用，在仅 2 核 CPU、8

AtomGit开源社区

CPU是如何执行a=1+1

本文介绍了计算机程序执行的基本原理。首先从图灵机模型入手，解释了其纸带、读写头等核心组件的工作机制，通过1+2的运算示例展示了程序执行过程。接着阐述了冯诺依曼体系结构的五大组成部分，重点讲解了CPU的寄存器、运算单元和总线系统。然后详细描述了CPU执行程序的指令周期过程，包括取指、译码、执行、写回四个流水线阶段。最后以a=1+1为例，说明了高级语言代码如何经过编译转换为机器指令，并在CPU中逐步执