Marvis 1+5 智能体协作架构深度解析:六大 Agent 各司何职?底层又如何"对话"?

在这里插入图片描述

前言

2026 年 5 月 20 日,腾讯正式上线了操作系统级 AI 助手马维斯(Marvis)。它不走传统 AI 助手的"对话框"路线,而是直接嵌入 Windows 系统底层,充当用户与操作系统之间的 AI 中间层。用户用自然语言下达指令,Marvis 就能操控文件、修改系统设置、操作应用程序、检索网络信息——真正做到"用嘴指挥电脑干活"。

这套能力背后,是一套精密的 1+5 智能体协作架构。它不是单打独斗的一个模型,而是一支分工明确的"AI 团队"。本文将逐一拆解这六大 Agent 的职责边界,并深入探讨它们底层是如何通讯协作的。


一、1+5 架构全景图

Marvis 的智能体体系由 1 个主 Agent(调度中枢)+ 5 个专项 Agent 构成,出厂预置、开箱即用:

角色 Agent 一句话定位
大脑 主 Agent(PM Agent) 理解意图、拆解任务、调度协作,AI 团队的"项目经理"
手 1 File Agent 本地文件的全生命周期管家
手 2 Computer Agent Windows 系统运维与底层操控专家
手 3 App Agent 应用程序的操作专家(桌面软件 + 安卓应用)
手 4 Browser Agent 网页深度交互与数据抓取专员
手 5 Search Agent 全网信息检索与摘要整理专员

用户说出"帮我找出上季度所有发票,按日期整理成 Excel,再发邮件给财务"——主 Agent 接收后拆解为三个子任务,分派给 File Agent、App Agent、Browser Agent 并行或串行执行,最后汇总结果呈递给用户。整个过程用户只需要说一句话。

下面逐一看每个 Agent 的具体职责。


二、六大 Agent 职责详解

2.1 主 Agent(PM Agent)—— 调度中枢

主 Agent 是整个 Marvis 系统的"大脑",它不直接操作文件、不改系统设置、不碰网页。它的核心职责只有三个:

  1. 意图理解:将用户的自然语言指令解析为结构化的任务目标。用户说"电脑有点卡",主 Agent 理解其真实意图是"排查性能瓶颈并优化"。
  2. 任务拆解:将复杂目标拆分为可由专项 Agent 执行的原子任务。例如"整理桌面文件并按类型归类"会被拆为:(1)扫描桌面文件列表、(2)识别文件类型、(3)创建分类文件夹、(4)移动文件。
  3. 调度与汇总:根据子任务类型,选择最合适的专项 Agent 执行,并负责汇总它们的返回结果,最终呈现给用户。

主 Agent 的决策遵循严格的能力层级路由:Sub Agent 能闭环的任务绝不拆解成底层工具调用,只有在专项 Agent 能力覆盖不到时才降级处理。

2.2 File Agent(文件管家)—— 本地文件全生命周期管理

File Agent 是 Marvis 中能力最厚重的一个专项 Agent,因为它需要处理本地文件系统中极其多样化的场景。其职责覆盖:

搜索与定位

  • 支持多维度深度检索:文件名、文档内容、图片文字(OCR)、人像特征、场景主题、时间节日、地理信息。
  • 例如:“找出去年秋天在西湖拍的那张照片”——File Agent 会结合季节时间范围、地理位置信息、图像场景识别综合定位。

内容理解与问答

  • 对 PDF、Word、Excel、PPT、图片等文件进行深度阅读与分析。
  • 支持自然语言问答:“这份合同的违约责任条款是什么?”

文件物理操作

  • 复制、移动、删除、重命名、批量归类整理。
  • 例如:“把下载文件夹里所有 PDF 按年份归档到文档目录”。

文件生成与格式转换

  • 生成文档、表格、图表、PPT;PDF 转 Word、图片转 PNG、Excel 转 CSV 等各类格式互转。

文件传输

  • 支持电脑端文件发送到移动端,实现跨设备传输。

2.3 Computer Agent(系统运维专员)—— Windows 底层操控

Computer Agent 是 Marvis 区别于市面上其他 AI 助手的核心差异化能力。它不依赖模拟点击,而是通过 Windows API 直调 完成系统级操作:

系统信息查询

  • 一键查询 CPU、内存、硬盘、电池健康、网络状态、硬件配置。
  • 判断某款游戏或软件能否在当前电脑上流畅运行。

系统设置修改

  • 调整分辨率、关闭 Windows 锁屏广告、修改电源计划、配置网络代理。
  • 一句"帮我把任务栏图标靠左排列"直接生效。

系统优化与清理

  • 磁盘清理、启动项管理、冗余文件清理。
  • 性能瓶颈分析与调优建议。

故障排查与修复

  • 网络故障、WiFi/蓝牙异常、音频/显示问题、驱动异常、应用崩溃等常见问题的诊断与修复。

窗口与桌面管理

  • 窗口分屏/平铺/堆叠、虚拟桌面切换、多显示器布局、桌面图标整理。

输入与进程控制

  • 键盘快捷键模拟、进程查看与结束、服务启停、启动项管理、定时任务调度。

2.4 App Agent(应用操作专家)—— 操控一切应用程序

App Agent 负责让 Marvis 具备"像人一样使用软件"的能力,覆盖三大类应用:

桌面软件(EXE)

  • 打开、关闭、安装、卸载 Windows 桌面应用。
  • 操控软件内部功能:打开同花顺查股价、用网易云播放音乐、用微信发消息。

安卓应用(APK)

  • 在电脑端 Android 模拟器环境中运行手机 App。
  • 支持小红书浏览、剪映剪辑、多邻国学习、美团外卖下单、大众点评查餐厅等。

微信小程序

  • 支持小程序内的购物、支付、打卡、查询等操作。

其底层技术栈是 GUI 视觉识别 + 模拟操作,通过截图分析界面元素,再模拟点击、滑动、输入来完成交互。

2.5 Browser Agent(网页交互专员)—— 网页深度交互

Browser Agent 专注于需要多步交互的网页场景,与简单的网页内容抓取有本质区别:

适用场景

  • 需要登录认证的网站操作。
  • 多步表单填写与提交。
  • 多页跳转的数据提取。
  • 网页按钮点击、下拉选择等交互操作。

技术实现

  • 浏览器接管 + DOM 解析。
  • 自动处理弹窗关闭、Cookie 提示等常见障碍。
  • 遇到登录墙或验证码时及时提示用户介入。

与 Search Agent 的区别

  • Search Agent 负责"搜索并总结"。
  • Browser Agent 负责"在网页上执行操作"(如自动填表、下单、数据抓取)。

2.6 Search Agent(全网搜索专员)—— 高质量信息检索

Search Agent 是 Marvis 联网获取外部信息的专属通道:

检索特点

  • 底层层执行多轮联网检索,由 LLM 综合总结。
  • 响应速度约 10 秒,但结果质量远高于普通搜索引擎的简单列表。

适用场景

  • 深度调研:行业分析、竞品对比、论文检索。
  • 资料综述:多源信息汇总与结构化整理。
  • 引用溯源:关键信息附带来源链接。

边界约束

  • 严格禁止处理本地文件或系统级请求。
  • 简单事实查询(天气、汇率、股价)不走 Search Agent,由主 Agent 直接快速响应。

三、底层通讯协作机制

六大 Agent 各司其职只是表象,真正让这支"AI 团队"高效运转的,是它们之间的通讯协作机制。下面从五个维度拆解。

3.1 中心化调度:星型拓扑

Marvis 的协作架构不是网状对等的,而是以主 Agent 为中心的星型拓扑

              ┌──────────────┐
              │   主 Agent    │
              │  (调度中枢)    │
              └──┬──┬──┬──┬──┘
                 │  │  │  │
        ┌────────┘  │  │  └────────┐
        ▼           ▼  ▼           ▼
   File Agent   Computer   App Agent   Browser/Search
                Agent                  Agent

专项 Agent 之间不直接通讯,所有任务分发、结果汇总、上下文传递都经主 Agent 中转。这个设计有三个好处:

  1. 降低耦合:专项 Agent 无需感知彼此的存在,可以独立迭代升级。
  2. 统一调度:主 Agent 拥有全局视野,可以实现最优任务编排(并行 vs 串行、优先级排序)。
  3. 安全可控:所有敏感操作必须经过主 Agent 的安全校验层,避免专项 Agent 越权执行。

3.2 任务派发协议:结构化任务描述

主 Agent 向专项 Agent 派发任务时,不是简单地转发用户原话,而是通过一套结构化任务描述协议

<overall_goal>
用户的原始完整需求(让专项Agent理解全局上下文)
</overall_goal>
<current_task>
本次委托的具体任务(自包含、可独立执行)
</current_task>

同时附带上:

  • memory_ids:相关的历史对话片段,提供任务背景。
  • inherit_agent_id:如需延续之前同一 Agent 的会话记忆,则传入历史 Agent ID,实现"断点续传"。

这套协议确保了每个专项 Agent 拿到的是充分上下文 + 明确目标,不需要反复追问用户,也不会因信息缺失而执行错误。

3.3 能力层级路由:逐级降级机制

主 Agent 在选择由谁执行任务时,遵循严格的能力层级路由

Sub Agents → Skills → Tools → 生成代码执行
  1. Sub Agent 优先:如果某个专项 Agent 能闭环完成任务,绝不将其拆散为底层工具调用。
  2. 逐级降级:只有当上层能力确实无法覆盖时,才降级使用更底层的手段。
  3. 禁止越级:例如,File Agent 能处理的文件搜索任务,绝不能绕过它直接调用 shell 命令。

这种设计确保了任务执行始终在"最懂行"的 Agent 手中,避免因降级过早导致能力衰减。

3.4 并行与串行编排:依赖感知调度

主 Agent 在拆解出多个子任务后,会自动判断它们之间的依赖关系:

  • 无依赖子任务:并行派发。例如"帮我搜一下最近的 AI 新闻,同时把桌面的文件整理一下"——Search Agent 和 File Agent 同时开工。
  • 有依赖子任务:串行执行。例如"找到上季度发票 → 按日期整理成 Excel"——必须先等 File Agent 返回发票列表,再派发下一步。

并行派发有上限(单轮最多 5 个并行任务),防止系统资源过载。

3.5 端云双模式:自动路由

Marvis 的通讯协作还有一个独特的维度——端云协同。它不是让用户手动选择"用云端还是本地",而是根据任务类型自动路由:

维度 效率模式(默认) 隐私模式
推理引擎 混元 + DeepSeek V4(云端) Qwen 端侧模型
数据处理 复杂意图 → 云端;简单操作 → 本地 全部推理在本地完成
适用场景 日常办公、内容生成、信息检索 财务、法务、HR 等高敏感场景

文件 0 上传、断网可用、敏感操作强制用户确认——这套双模式机制在保障隐私安全的前提下,最大化利用了云端大模型的能力。

3.6 安全校验层:贯穿全链路的"红绿灯"

所有 Agent 的协作都在一套安全校验系统的管控之下。这套系统对操作进行三级风险定级:

风险等级 典型操作 处理策略
高风险 格式化磁盘、清空回收站、修改注册表 强制用户授权
中风险 覆盖文件、修改系统配置、结束进程 二次确认
低风险 只读查询、创建文件、列目录 直接执行

删除文件、修改系统配置、支付等高敏感环节,即使专项 Agent 已经准备好执行,安全层也会拦截并要求用户确认。这套机制贯穿整个任务链路——从主 Agent 拆解任务,到专项 Agent 执行,每一步都在安全校验的"红绿灯"管控之下。


四、一个完整协作案例

让我们跟踪一个真实指令的执行全过程,直观感受这套协作机制:

用户:“帮我把下载文件夹里的所有发票找出来,提取金额和日期做成表格存到桌面。”

Step 1:主 Agent 意图理解与拆解

主 Agent 解析出三个子任务:

  • 任务 A:扫描下载文件夹,识别发票文件 → File Agent
  • 任务 B:提取每张发票的金额和日期 → File Agent
  • 任务 C:生成 Excel 表格保存到桌面 → File Agent

三个子任务全部归属 File Agent 能力范围,且 A→B→C 存在依赖,串行派发。

Step 2:File Agent 执行任务 A

File Agent 扫描 C:\Users\Administrator\Downloads,通过文件名匹配、OCR 识别、内容分类,定位到 5 张发票 PDF。返回文件列表给主 Agent。

Step 3:主 Agent 串行派发任务 B

主 Agent 将任务 A 的结果(发票文件路径列表)作为上下文,派发任务 B 给同一个 File Agent(通过 inherit_agent_id 继承记忆)。

Step 4:File Agent 执行任务 B

File Agent 读取 5 张发票 PDF,OCR 提取金额和日期字段,返回结构化数据。

Step 5:主 Agent 串行派发任务 C

主 Agent 将结构化的发票数据传递给 File Agent,要求生成 Excel。

Step 6:File Agent 执行任务 C

File Agent 创建 Excel 表格,写入数据,保存到桌面 发票汇总.xlsx,返回文件路径。

Step 7:主 Agent 汇总呈现

安全校验通过(生成文件属于低风险操作,直接执行),主 Agent 向用户输出最终结果:表格已生成,可点击查看。

整个过程耗时数秒,用户在 Step 1 之后只需等待结果,无需任何中间操作。


五、总结

Marvis 的 1+5 智能体协作架构,本质上是一套将大模型的"思考能力"与操作系统的"执行能力"深度绑定的中间层设计方案。它的核心设计哲学有三点:

  1. 分工明确,各司其职:主 Agent 只管调度不干活,五个专项 Agent 各管一摊、互不越界。这种星型拓扑让系统具备了真正的可扩展性——未来新增 Agent 类型时,主 Agent 只需多认识一种"工种",无需改动现有 Agent。

  2. 结构化的通讯协议:任务派发不是简单的"传话",而是携带完整上下文、历史记忆、依赖关系的结构化描述。这让专项 Agent 能够"自包含"地完成子任务,大幅减少来回确认的开销。

  3. 安全贯穿全链路:从意图理解到最终执行,每一步都在风险定级和用户授权的管控之下。端云双模式更进一步,让用户在享受云端大模型能力的同时,也能在敏感场景下将数据完全锁在本地。

如果说传统 AI 助手是"一个聪明的大脑关在对话框里",那 Marvis 就是"一个聪明的大脑连上了手和脚"——它能听懂你说什么,更重要的是,它能替你做到


本文基于 Marvis 公开技术文档与产品体验撰写,所有架构描述均来自官方披露信息。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐