Marvis 1+5 智能体协作架构深度解析:六大 Agent 各司何职?底层又如何“对话“?
Marvis 1+5 智能体协作架构深度解析:六大 Agent 各司何职?底层又如何"对话"?

前言
2026 年 5 月 20 日,腾讯正式上线了操作系统级 AI 助手马维斯(Marvis)。它不走传统 AI 助手的"对话框"路线,而是直接嵌入 Windows 系统底层,充当用户与操作系统之间的 AI 中间层。用户用自然语言下达指令,Marvis 就能操控文件、修改系统设置、操作应用程序、检索网络信息——真正做到"用嘴指挥电脑干活"。
这套能力背后,是一套精密的 1+5 智能体协作架构。它不是单打独斗的一个模型,而是一支分工明确的"AI 团队"。本文将逐一拆解这六大 Agent 的职责边界,并深入探讨它们底层是如何通讯协作的。
一、1+5 架构全景图
Marvis 的智能体体系由 1 个主 Agent(调度中枢)+ 5 个专项 Agent 构成,出厂预置、开箱即用:
| 角色 | Agent | 一句话定位 |
|---|---|---|
| 大脑 | 主 Agent(PM Agent) | 理解意图、拆解任务、调度协作,AI 团队的"项目经理" |
| 手 1 | File Agent | 本地文件的全生命周期管家 |
| 手 2 | Computer Agent | Windows 系统运维与底层操控专家 |
| 手 3 | App Agent | 应用程序的操作专家(桌面软件 + 安卓应用) |
| 手 4 | Browser Agent | 网页深度交互与数据抓取专员 |
| 手 5 | Search Agent | 全网信息检索与摘要整理专员 |
用户说出"帮我找出上季度所有发票,按日期整理成 Excel,再发邮件给财务"——主 Agent 接收后拆解为三个子任务,分派给 File Agent、App Agent、Browser Agent 并行或串行执行,最后汇总结果呈递给用户。整个过程用户只需要说一句话。
下面逐一看每个 Agent 的具体职责。
二、六大 Agent 职责详解
2.1 主 Agent(PM Agent)—— 调度中枢
主 Agent 是整个 Marvis 系统的"大脑",它不直接操作文件、不改系统设置、不碰网页。它的核心职责只有三个:
- 意图理解:将用户的自然语言指令解析为结构化的任务目标。用户说"电脑有点卡",主 Agent 理解其真实意图是"排查性能瓶颈并优化"。
- 任务拆解:将复杂目标拆分为可由专项 Agent 执行的原子任务。例如"整理桌面文件并按类型归类"会被拆为:(1)扫描桌面文件列表、(2)识别文件类型、(3)创建分类文件夹、(4)移动文件。
- 调度与汇总:根据子任务类型,选择最合适的专项 Agent 执行,并负责汇总它们的返回结果,最终呈现给用户。
主 Agent 的决策遵循严格的能力层级路由:Sub Agent 能闭环的任务绝不拆解成底层工具调用,只有在专项 Agent 能力覆盖不到时才降级处理。
2.2 File Agent(文件管家)—— 本地文件全生命周期管理
File Agent 是 Marvis 中能力最厚重的一个专项 Agent,因为它需要处理本地文件系统中极其多样化的场景。其职责覆盖:
搜索与定位
- 支持多维度深度检索:文件名、文档内容、图片文字(OCR)、人像特征、场景主题、时间节日、地理信息。
- 例如:“找出去年秋天在西湖拍的那张照片”——File Agent 会结合季节时间范围、地理位置信息、图像场景识别综合定位。
内容理解与问答
- 对 PDF、Word、Excel、PPT、图片等文件进行深度阅读与分析。
- 支持自然语言问答:“这份合同的违约责任条款是什么?”
文件物理操作
- 复制、移动、删除、重命名、批量归类整理。
- 例如:“把下载文件夹里所有 PDF 按年份归档到文档目录”。
文件生成与格式转换
- 生成文档、表格、图表、PPT;PDF 转 Word、图片转 PNG、Excel 转 CSV 等各类格式互转。
文件传输
- 支持电脑端文件发送到移动端,实现跨设备传输。
2.3 Computer Agent(系统运维专员)—— Windows 底层操控
Computer Agent 是 Marvis 区别于市面上其他 AI 助手的核心差异化能力。它不依赖模拟点击,而是通过 Windows API 直调 完成系统级操作:
系统信息查询
- 一键查询 CPU、内存、硬盘、电池健康、网络状态、硬件配置。
- 判断某款游戏或软件能否在当前电脑上流畅运行。
系统设置修改
- 调整分辨率、关闭 Windows 锁屏广告、修改电源计划、配置网络代理。
- 一句"帮我把任务栏图标靠左排列"直接生效。
系统优化与清理
- 磁盘清理、启动项管理、冗余文件清理。
- 性能瓶颈分析与调优建议。
故障排查与修复
- 网络故障、WiFi/蓝牙异常、音频/显示问题、驱动异常、应用崩溃等常见问题的诊断与修复。
窗口与桌面管理
- 窗口分屏/平铺/堆叠、虚拟桌面切换、多显示器布局、桌面图标整理。
输入与进程控制
- 键盘快捷键模拟、进程查看与结束、服务启停、启动项管理、定时任务调度。
2.4 App Agent(应用操作专家)—— 操控一切应用程序
App Agent 负责让 Marvis 具备"像人一样使用软件"的能力,覆盖三大类应用:
桌面软件(EXE)
- 打开、关闭、安装、卸载 Windows 桌面应用。
- 操控软件内部功能:打开同花顺查股价、用网易云播放音乐、用微信发消息。
安卓应用(APK)
- 在电脑端 Android 模拟器环境中运行手机 App。
- 支持小红书浏览、剪映剪辑、多邻国学习、美团外卖下单、大众点评查餐厅等。
微信小程序
- 支持小程序内的购物、支付、打卡、查询等操作。
其底层技术栈是 GUI 视觉识别 + 模拟操作,通过截图分析界面元素,再模拟点击、滑动、输入来完成交互。
2.5 Browser Agent(网页交互专员)—— 网页深度交互
Browser Agent 专注于需要多步交互的网页场景,与简单的网页内容抓取有本质区别:
适用场景
- 需要登录认证的网站操作。
- 多步表单填写与提交。
- 多页跳转的数据提取。
- 网页按钮点击、下拉选择等交互操作。
技术实现
- 浏览器接管 + DOM 解析。
- 自动处理弹窗关闭、Cookie 提示等常见障碍。
- 遇到登录墙或验证码时及时提示用户介入。
与 Search Agent 的区别
- Search Agent 负责"搜索并总结"。
- Browser Agent 负责"在网页上执行操作"(如自动填表、下单、数据抓取)。
2.6 Search Agent(全网搜索专员)—— 高质量信息检索
Search Agent 是 Marvis 联网获取外部信息的专属通道:
检索特点
- 底层层执行多轮联网检索,由 LLM 综合总结。
- 响应速度约 10 秒,但结果质量远高于普通搜索引擎的简单列表。
适用场景
- 深度调研:行业分析、竞品对比、论文检索。
- 资料综述:多源信息汇总与结构化整理。
- 引用溯源:关键信息附带来源链接。
边界约束
- 严格禁止处理本地文件或系统级请求。
- 简单事实查询(天气、汇率、股价)不走 Search Agent,由主 Agent 直接快速响应。
三、底层通讯协作机制
六大 Agent 各司其职只是表象,真正让这支"AI 团队"高效运转的,是它们之间的通讯协作机制。下面从五个维度拆解。
3.1 中心化调度:星型拓扑
Marvis 的协作架构不是网状对等的,而是以主 Agent 为中心的星型拓扑:
┌──────────────┐
│ 主 Agent │
│ (调度中枢) │
└──┬──┬──┬──┬──┘
│ │ │ │
┌────────┘ │ │ └────────┐
▼ ▼ ▼ ▼
File Agent Computer App Agent Browser/Search
Agent Agent
专项 Agent 之间不直接通讯,所有任务分发、结果汇总、上下文传递都经主 Agent 中转。这个设计有三个好处:
- 降低耦合:专项 Agent 无需感知彼此的存在,可以独立迭代升级。
- 统一调度:主 Agent 拥有全局视野,可以实现最优任务编排(并行 vs 串行、优先级排序)。
- 安全可控:所有敏感操作必须经过主 Agent 的安全校验层,避免专项 Agent 越权执行。
3.2 任务派发协议:结构化任务描述
主 Agent 向专项 Agent 派发任务时,不是简单地转发用户原话,而是通过一套结构化任务描述协议:
<overall_goal>
用户的原始完整需求(让专项Agent理解全局上下文)
</overall_goal>
<current_task>
本次委托的具体任务(自包含、可独立执行)
</current_task>
同时附带上:
- memory_ids:相关的历史对话片段,提供任务背景。
- inherit_agent_id:如需延续之前同一 Agent 的会话记忆,则传入历史 Agent ID,实现"断点续传"。
这套协议确保了每个专项 Agent 拿到的是充分上下文 + 明确目标,不需要反复追问用户,也不会因信息缺失而执行错误。
3.3 能力层级路由:逐级降级机制
主 Agent 在选择由谁执行任务时,遵循严格的能力层级路由:
Sub Agents → Skills → Tools → 生成代码执行
- Sub Agent 优先:如果某个专项 Agent 能闭环完成任务,绝不将其拆散为底层工具调用。
- 逐级降级:只有当上层能力确实无法覆盖时,才降级使用更底层的手段。
- 禁止越级:例如,File Agent 能处理的文件搜索任务,绝不能绕过它直接调用 shell 命令。
这种设计确保了任务执行始终在"最懂行"的 Agent 手中,避免因降级过早导致能力衰减。
3.4 并行与串行编排:依赖感知调度
主 Agent 在拆解出多个子任务后,会自动判断它们之间的依赖关系:
- 无依赖子任务:并行派发。例如"帮我搜一下最近的 AI 新闻,同时把桌面的文件整理一下"——Search Agent 和 File Agent 同时开工。
- 有依赖子任务:串行执行。例如"找到上季度发票 → 按日期整理成 Excel"——必须先等 File Agent 返回发票列表,再派发下一步。
并行派发有上限(单轮最多 5 个并行任务),防止系统资源过载。
3.5 端云双模式:自动路由
Marvis 的通讯协作还有一个独特的维度——端云协同。它不是让用户手动选择"用云端还是本地",而是根据任务类型自动路由:
| 维度 | 效率模式(默认) | 隐私模式 |
|---|---|---|
| 推理引擎 | 混元 + DeepSeek V4(云端) | Qwen 端侧模型 |
| 数据处理 | 复杂意图 → 云端;简单操作 → 本地 | 全部推理在本地完成 |
| 适用场景 | 日常办公、内容生成、信息检索 | 财务、法务、HR 等高敏感场景 |
文件 0 上传、断网可用、敏感操作强制用户确认——这套双模式机制在保障隐私安全的前提下,最大化利用了云端大模型的能力。
3.6 安全校验层:贯穿全链路的"红绿灯"
所有 Agent 的协作都在一套安全校验系统的管控之下。这套系统对操作进行三级风险定级:
| 风险等级 | 典型操作 | 处理策略 |
|---|---|---|
| 高风险 | 格式化磁盘、清空回收站、修改注册表 | 强制用户授权 |
| 中风险 | 覆盖文件、修改系统配置、结束进程 | 二次确认 |
| 低风险 | 只读查询、创建文件、列目录 | 直接执行 |
删除文件、修改系统配置、支付等高敏感环节,即使专项 Agent 已经准备好执行,安全层也会拦截并要求用户确认。这套机制贯穿整个任务链路——从主 Agent 拆解任务,到专项 Agent 执行,每一步都在安全校验的"红绿灯"管控之下。
四、一个完整协作案例
让我们跟踪一个真实指令的执行全过程,直观感受这套协作机制:
用户:“帮我把下载文件夹里的所有发票找出来,提取金额和日期做成表格存到桌面。”
Step 1:主 Agent 意图理解与拆解
主 Agent 解析出三个子任务:
- 任务 A:扫描下载文件夹,识别发票文件 → File Agent
- 任务 B:提取每张发票的金额和日期 → File Agent
- 任务 C:生成 Excel 表格保存到桌面 → File Agent
三个子任务全部归属 File Agent 能力范围,且 A→B→C 存在依赖,串行派发。
Step 2:File Agent 执行任务 A
File Agent 扫描 C:\Users\Administrator\Downloads,通过文件名匹配、OCR 识别、内容分类,定位到 5 张发票 PDF。返回文件列表给主 Agent。
Step 3:主 Agent 串行派发任务 B
主 Agent 将任务 A 的结果(发票文件路径列表)作为上下文,派发任务 B 给同一个 File Agent(通过 inherit_agent_id 继承记忆)。
Step 4:File Agent 执行任务 B
File Agent 读取 5 张发票 PDF,OCR 提取金额和日期字段,返回结构化数据。
Step 5:主 Agent 串行派发任务 C
主 Agent 将结构化的发票数据传递给 File Agent,要求生成 Excel。
Step 6:File Agent 执行任务 C
File Agent 创建 Excel 表格,写入数据,保存到桌面 发票汇总.xlsx,返回文件路径。
Step 7:主 Agent 汇总呈现
安全校验通过(生成文件属于低风险操作,直接执行),主 Agent 向用户输出最终结果:表格已生成,可点击查看。
整个过程耗时数秒,用户在 Step 1 之后只需等待结果,无需任何中间操作。
五、总结
Marvis 的 1+5 智能体协作架构,本质上是一套将大模型的"思考能力"与操作系统的"执行能力"深度绑定的中间层设计方案。它的核心设计哲学有三点:
-
分工明确,各司其职:主 Agent 只管调度不干活,五个专项 Agent 各管一摊、互不越界。这种星型拓扑让系统具备了真正的可扩展性——未来新增 Agent 类型时,主 Agent 只需多认识一种"工种",无需改动现有 Agent。
-
结构化的通讯协议:任务派发不是简单的"传话",而是携带完整上下文、历史记忆、依赖关系的结构化描述。这让专项 Agent 能够"自包含"地完成子任务,大幅减少来回确认的开销。
-
安全贯穿全链路:从意图理解到最终执行,每一步都在风险定级和用户授权的管控之下。端云双模式更进一步,让用户在享受云端大模型能力的同时,也能在敏感场景下将数据完全锁在本地。
如果说传统 AI 助手是"一个聪明的大脑关在对话框里",那 Marvis 就是"一个聪明的大脑连上了手和脚"——它能听懂你说什么,更重要的是,它能替你做到。
本文基于 Marvis 公开技术文档与产品体验撰写,所有架构描述均来自官方披露信息。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)