Marvis 1+5 智能体协作架构深度解析：六大 Agent 各司何职？底层又如何“对话“？

创世宇图

850人浏览 · 2026-05-24 11:44:22

创世宇图 · 2026-05-24 11:44:22 发布

Marvis 1+5 智能体协作架构深度解析：六大 Agent 各司何职？底层又如何"对话"？

在这里插入图片描述

前言

2026 年 5 月 20 日，腾讯正式上线了操作系统级 AI 助手马维斯（Marvis）。它不走传统 AI 助手的"对话框"路线，而是直接嵌入 Windows 系统底层，充当用户与操作系统之间的 AI 中间层。用户用自然语言下达指令，Marvis 就能操控文件、修改系统设置、操作应用程序、检索网络信息——真正做到"用嘴指挥电脑干活"。

这套能力背后，是一套精密的 1+5 智能体协作架构。它不是单打独斗的一个模型，而是一支分工明确的"AI 团队"。本文将逐一拆解这六大 Agent 的职责边界，并深入探讨它们底层是如何通讯协作的。

一、1+5 架构全景图

Marvis 的智能体体系由 1 个主 Agent（调度中枢）+ 5 个专项 Agent 构成，出厂预置、开箱即用：

角色	Agent	一句话定位
大脑	主 Agent（PM Agent）	理解意图、拆解任务、调度协作，AI 团队的"项目经理"
手 1	File Agent	本地文件的全生命周期管家
手 2	Computer Agent	Windows 系统运维与底层操控专家
手 3	App Agent	应用程序的操作专家（桌面软件 + 安卓应用）
手 4	Browser Agent	网页深度交互与数据抓取专员
手 5	Search Agent	全网信息检索与摘要整理专员

用户说出"帮我找出上季度所有发票，按日期整理成 Excel，再发邮件给财务"——主 Agent 接收后拆解为三个子任务，分派给 File Agent、App Agent、Browser Agent 并行或串行执行，最后汇总结果呈递给用户。整个过程用户只需要说一句话。

下面逐一看每个 Agent 的具体职责。

二、六大 Agent 职责详解

2.1 主 Agent（PM Agent）—— 调度中枢

主 Agent 是整个 Marvis 系统的"大脑"，它不直接操作文件、不改系统设置、不碰网页。它的核心职责只有三个：

意图理解：将用户的自然语言指令解析为结构化的任务目标。用户说"电脑有点卡"，主 Agent 理解其真实意图是"排查性能瓶颈并优化"。
任务拆解：将复杂目标拆分为可由专项 Agent 执行的原子任务。例如"整理桌面文件并按类型归类"会被拆为：（1）扫描桌面文件列表、（2）识别文件类型、（3）创建分类文件夹、（4）移动文件。
调度与汇总：根据子任务类型，选择最合适的专项 Agent 执行，并负责汇总它们的返回结果，最终呈现给用户。

主 Agent 的决策遵循严格的能力层级路由：Sub Agent 能闭环的任务绝不拆解成底层工具调用，只有在专项 Agent 能力覆盖不到时才降级处理。

2.2 File Agent（文件管家）—— 本地文件全生命周期管理

File Agent 是 Marvis 中能力最厚重的一个专项 Agent，因为它需要处理本地文件系统中极其多样化的场景。其职责覆盖：

搜索与定位

支持多维度深度检索：文件名、文档内容、图片文字（OCR）、人像特征、场景主题、时间节日、地理信息。
例如：“找出去年秋天在西湖拍的那张照片”——File Agent 会结合季节时间范围、地理位置信息、图像场景识别综合定位。

内容理解与问答

对 PDF、Word、Excel、PPT、图片等文件进行深度阅读与分析。
支持自然语言问答：“这份合同的违约责任条款是什么？”

文件物理操作

复制、移动、删除、重命名、批量归类整理。
例如：“把下载文件夹里所有 PDF 按年份归档到文档目录”。

文件生成与格式转换

生成文档、表格、图表、PPT；PDF 转 Word、图片转 PNG、Excel 转 CSV 等各类格式互转。

文件传输

支持电脑端文件发送到移动端，实现跨设备传输。

2.3 Computer Agent（系统运维专员）—— Windows 底层操控

Computer Agent 是 Marvis 区别于市面上其他 AI 助手的核心差异化能力。它不依赖模拟点击，而是通过 Windows API 直调 完成系统级操作：

系统信息查询

一键查询 CPU、内存、硬盘、电池健康、网络状态、硬件配置。
判断某款游戏或软件能否在当前电脑上流畅运行。

系统设置修改

调整分辨率、关闭 Windows 锁屏广告、修改电源计划、配置网络代理。
一句"帮我把任务栏图标靠左排列"直接生效。

系统优化与清理

磁盘清理、启动项管理、冗余文件清理。
性能瓶颈分析与调优建议。

故障排查与修复

网络故障、WiFi/蓝牙异常、音频/显示问题、驱动异常、应用崩溃等常见问题的诊断与修复。

窗口与桌面管理

窗口分屏/平铺/堆叠、虚拟桌面切换、多显示器布局、桌面图标整理。

输入与进程控制

键盘快捷键模拟、进程查看与结束、服务启停、启动项管理、定时任务调度。

2.4 App Agent（应用操作专家）—— 操控一切应用程序

App Agent 负责让 Marvis 具备"像人一样使用软件"的能力，覆盖三大类应用：

桌面软件（EXE）

打开、关闭、安装、卸载 Windows 桌面应用。
操控软件内部功能：打开同花顺查股价、用网易云播放音乐、用微信发消息。

安卓应用（APK）

在电脑端 Android 模拟器环境中运行手机 App。
支持小红书浏览、剪映剪辑、多邻国学习、美团外卖下单、大众点评查餐厅等。

微信小程序

支持小程序内的购物、支付、打卡、查询等操作。

其底层技术栈是 GUI 视觉识别 + 模拟操作，通过截图分析界面元素，再模拟点击、滑动、输入来完成交互。

2.5 Browser Agent（网页交互专员）—— 网页深度交互

Browser Agent 专注于需要多步交互的网页场景，与简单的网页内容抓取有本质区别：

适用场景

需要登录认证的网站操作。
多步表单填写与提交。
多页跳转的数据提取。
网页按钮点击、下拉选择等交互操作。

技术实现

浏览器接管 + DOM 解析。
自动处理弹窗关闭、Cookie 提示等常见障碍。
遇到登录墙或验证码时及时提示用户介入。

与 Search Agent 的区别

Search Agent 负责"搜索并总结"。
Browser Agent 负责"在网页上执行操作"（如自动填表、下单、数据抓取）。

2.6 Search Agent（全网搜索专员）—— 高质量信息检索

Search Agent 是 Marvis 联网获取外部信息的专属通道：

检索特点

底层层执行多轮联网检索，由 LLM 综合总结。
响应速度约 10 秒，但结果质量远高于普通搜索引擎的简单列表。

适用场景

深度调研：行业分析、竞品对比、论文检索。
资料综述：多源信息汇总与结构化整理。
引用溯源：关键信息附带来源链接。

边界约束

严格禁止处理本地文件或系统级请求。
简单事实查询（天气、汇率、股价）不走 Search Agent，由主 Agent 直接快速响应。

三、底层通讯协作机制

六大 Agent 各司其职只是表象，真正让这支"AI 团队"高效运转的，是它们之间的通讯协作机制。下面从五个维度拆解。

3.1 中心化调度：星型拓扑

Marvis 的协作架构不是网状对等的，而是以主 Agent 为中心的星型拓扑：

              ┌──────────────┐
              │   主 Agent    │
              │  (调度中枢)    │
              └──┬──┬──┬──┬──┘
                 │  │  │  │
        ┌────────┘  │  │  └────────┐
        ▼           ▼  ▼           ▼
   File Agent   Computer   App Agent   Browser/Search
                Agent                  Agent

专项 Agent 之间不直接通讯，所有任务分发、结果汇总、上下文传递都经主 Agent 中转。这个设计有三个好处：

降低耦合：专项 Agent 无需感知彼此的存在，可以独立迭代升级。
统一调度：主 Agent 拥有全局视野，可以实现最优任务编排（并行 vs 串行、优先级排序）。
安全可控：所有敏感操作必须经过主 Agent 的安全校验层，避免专项 Agent 越权执行。

3.2 任务派发协议：结构化任务描述

主 Agent 向专项 Agent 派发任务时，不是简单地转发用户原话，而是通过一套结构化任务描述协议：

<overall_goal>
用户的原始完整需求（让专项Agent理解全局上下文）
</overall_goal>
<current_task>
本次委托的具体任务（自包含、可独立执行）
</current_task>

同时附带上：

memory_ids：相关的历史对话片段，提供任务背景。
inherit_agent_id：如需延续之前同一 Agent 的会话记忆，则传入历史 Agent ID，实现"断点续传"。

这套协议确保了每个专项 Agent 拿到的是充分上下文 + 明确目标，不需要反复追问用户，也不会因信息缺失而执行错误。

3.3 能力层级路由：逐级降级机制

主 Agent 在选择由谁执行任务时，遵循严格的能力层级路由：

Sub Agents → Skills → Tools → 生成代码执行

Sub Agent 优先：如果某个专项 Agent 能闭环完成任务，绝不将其拆散为底层工具调用。
逐级降级：只有当上层能力确实无法覆盖时，才降级使用更底层的手段。
禁止越级：例如，File Agent 能处理的文件搜索任务，绝不能绕过它直接调用 shell 命令。

这种设计确保了任务执行始终在"最懂行"的 Agent 手中，避免因降级过早导致能力衰减。

3.4 并行与串行编排：依赖感知调度

主 Agent 在拆解出多个子任务后，会自动判断它们之间的依赖关系：

无依赖子任务：并行派发。例如"帮我搜一下最近的 AI 新闻，同时把桌面的文件整理一下"——Search Agent 和 File Agent 同时开工。
有依赖子任务：串行执行。例如"找到上季度发票 → 按日期整理成 Excel"——必须先等 File Agent 返回发票列表，再派发下一步。

并行派发有上限（单轮最多 5 个并行任务），防止系统资源过载。

3.5 端云双模式：自动路由

Marvis 的通讯协作还有一个独特的维度——端云协同。它不是让用户手动选择"用云端还是本地"，而是根据任务类型自动路由：

维度	效率模式（默认）	隐私模式
推理引擎	混元 + DeepSeek V4（云端）	Qwen 端侧模型
数据处理	复杂意图 → 云端；简单操作 → 本地	全部推理在本地完成
适用场景	日常办公、内容生成、信息检索	财务、法务、HR 等高敏感场景

文件 0 上传、断网可用、敏感操作强制用户确认——这套双模式机制在保障隐私安全的前提下，最大化利用了云端大模型的能力。

3.6 安全校验层：贯穿全链路的"红绿灯"

所有 Agent 的协作都在一套安全校验系统的管控之下。这套系统对操作进行三级风险定级：

风险等级	典型操作	处理策略
高风险	格式化磁盘、清空回收站、修改注册表	强制用户授权
中风险	覆盖文件、修改系统配置、结束进程	二次确认
低风险	只读查询、创建文件、列目录	直接执行

删除文件、修改系统配置、支付等高敏感环节，即使专项 Agent 已经准备好执行，安全层也会拦截并要求用户确认。这套机制贯穿整个任务链路——从主 Agent 拆解任务，到专项 Agent 执行，每一步都在安全校验的"红绿灯"管控之下。

四、一个完整协作案例

让我们跟踪一个真实指令的执行全过程，直观感受这套协作机制：

用户：“帮我把下载文件夹里的所有发票找出来，提取金额和日期做成表格存到桌面。”

Step 1：主 Agent 意图理解与拆解

主 Agent 解析出三个子任务：

任务 A：扫描下载文件夹，识别发票文件 → File Agent
任务 B：提取每张发票的金额和日期 → File Agent
任务 C：生成 Excel 表格保存到桌面 → File Agent

三个子任务全部归属 File Agent 能力范围，且 A→B→C 存在依赖，串行派发。

Step 2：File Agent 执行任务 A

File Agent 扫描 C:\Users\Administrator\Downloads，通过文件名匹配、OCR 识别、内容分类，定位到 5 张发票 PDF。返回文件列表给主 Agent。

Step 3：主 Agent 串行派发任务 B

主 Agent 将任务 A 的结果（发票文件路径列表）作为上下文，派发任务 B 给同一个 File Agent（通过 inherit_agent_id 继承记忆）。

Step 4：File Agent 执行任务 B

File Agent 读取 5 张发票 PDF，OCR 提取金额和日期字段，返回结构化数据。

Step 5：主 Agent 串行派发任务 C

主 Agent 将结构化的发票数据传递给 File Agent，要求生成 Excel。

Step 6：File Agent 执行任务 C

File Agent 创建 Excel 表格，写入数据，保存到桌面 发票汇总.xlsx，返回文件路径。

Step 7：主 Agent 汇总呈现

安全校验通过（生成文件属于低风险操作，直接执行），主 Agent 向用户输出最终结果：表格已生成，可点击查看。

整个过程耗时数秒，用户在 Step 1 之后只需等待结果，无需任何中间操作。

五、总结

Marvis 的 1+5 智能体协作架构，本质上是一套将大模型的"思考能力"与操作系统的"执行能力"深度绑定的中间层设计方案。它的核心设计哲学有三点：

分工明确，各司其职：主 Agent 只管调度不干活，五个专项 Agent 各管一摊、互不越界。这种星型拓扑让系统具备了真正的可扩展性——未来新增 Agent 类型时，主 Agent 只需多认识一种"工种"，无需改动现有 Agent。
结构化的通讯协议：任务派发不是简单的"传话"，而是携带完整上下文、历史记忆、依赖关系的结构化描述。这让专项 Agent 能够"自包含"地完成子任务，大幅减少来回确认的开销。
安全贯穿全链路：从意图理解到最终执行，每一步都在风险定级和用户授权的管控之下。端云双模式更进一步，让用户在享受云端大模型能力的同时，也能在敏感场景下将数据完全锁在本地。

如果说传统 AI 助手是"一个聪明的大脑关在对话框里"，那 Marvis 就是"一个聪明的大脑连上了手和脚"——它能听懂你说什么，更重要的是，它能替你做到。

本文基于 Marvis 公开技术文档与产品体验撰写，所有架构描述均来自官方披露信息。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

我们如何利用「混沌工程」工具Chaos Blade进行故障演练？

而Chaos Blade作为阿里巴巴开源的混沌工程实验工具，凭借其轻量级、易用性和丰富的故障场景支持，成为故障演练的利器。这种与K8s深度集成的能力，使得在微服务架构下进行服务熔断、节点宕机等演练变得异常简单，有效验证服务网格的容错机制。Chaos Blade支持创建复杂的演练场景。建议将演练结果与监控系统、日志平台的数据进行关联分析，找出系统的薄弱环节，持续优化架构设计。通过定期使用Chaos

AtomGit开源社区

AI 辅助学术写作（五）：模块化论文撰写与开源交付——从草稿到可复现研究包

这两个部分放在最后写，因为它们是对全文的精炼，而不是提前预设的框架。请基于以下信息，撰写一个150-200字的学术摘要。【摘要必须包含的五个要素】1. 研究问题（一句话）：[你的核心研究问题]2. 研究方法（一句话）：[数据来源 + 识别策略]3. 核心发现（两句话）：[主要系数 + 经济含义]4. 异质性/机制（一句话）：[最重要的一个扩展发现]5. 政策含义（一句话）：[对政策制定的启示]【格

AtomGit开源社区

DALI / UMAP / H5

这几个词通常出现在深度学习框架、数据处理库、AI训练平台或代码仓库的功能说明中，表示该系统支持相应的数据处理技术或文件格式。DALI 指的是 NVIDIA DALI（Data Loading Library）。它是 NVIDIA 开发的高性能数据加载与预处理框架，主要用于加速训练过程。例如 ImageNet 训练时，DALI 可以减少 CPU 成为瓶颈的问题。对于大规模视觉训练（ImageNet、