LLM-based Multi-Agent Systems：多智能体系统，从基础到前沿（AAAI 2026 Tutorial）

大靠山

419人浏览 · 2026-04-03 15:46:50

大靠山 · 2026-04-03 15:46:50 发布

1. 这波 LLM 多智能体，究竟在“变什么”？

过去的多智能体系统（Multi-Agent Systems, MAS）研究，常见关键词是：博弈论、机制设计、多智能体规划与学习、协商与信誉、群体规范与涌现、沟通与协作、人机交互、对手建模、社会网络、仿真、以及形式化验证等。AAAI’26 的教程将这条“传统 MAS 主线”与近两年的“LLM 智能体（agent）浪潮”拼接在同一张路线图上：LLM 不只是生成文本，而是把自然语言理解/推理/规划/工具调用/记忆整合到一个可执行的“智能体控制器”里，进而让“多智能体协作”从学术设定走向工程工作流与产品化场景。[PDF p.3–6]

在该教程的定义里，MAS 的核心是：多个智能体在共享环境中共存并交互；每个智能体拥有自己的观测、动作、目标与领域知识；系统需要在合作、竞争或混合博弈的约束下协调行动以达成目标。[PDF p.5]

图1 教程总览：从 Foundations 到 Frontiers 的四段式结构（AAAI’26 Tutorial PDF，第2页）

2. 基础层：把“多智能体”说清楚，才能把“协作”做扎实

2.1 MAS 的最小抽象：主体、交互、共享环境

教程用非常“工程友好”的方式重申 MAS：系统里存在多个 agent，它们在同一环境中做决策，行动会互相影响，因此单个 agent 的最优策略往往依赖他人策略。这种相互依赖，决定了你不能只用单体决策（MDP）那套直觉，而需要更一般的建模框架（如 Markov Game / Dec-POMDP 等），并面对联合动作空间指数增长、通信成本、信用分配（credit assignment）、以及可扩展性等问题。[PDF p.4–6, p.89]

图2 多智能体系统示意（AAAI’26 Tutorial PDF，第4页）

图3 MAS 的关键特征：共享环境、各自观测/动作/目标、需要协调（AAAI’26 Tutorial PDF，第5页）

2.2 规模效应：从“两个 agent”到“很多 agent”的质变

在多智能体场景里，最“硬核”的瓶颈之一是联合动作空间（joint action space）随 agent 数量增长而指数膨胀。教程给出直观例子：当 agent 数从 2 增加到 4，联合动作数量会出现爆炸式增长，从而带来训练/搜索成本飙升，进而逼迫我们在架构与协调机制上做“结构化约束”。[PDF p.89]

图4 多智能体扩展到多 agent 时，联合动作空间指数增长（AAAI’26 Tutorial PDF，第89页）

3.智能体（Agent）在 LLM 时代的“新解法”：M-P-T 三模块

3.1 Agent = LLM + Memory + Planning + Tools

教程把LLM agent 拆成三个模块：Memory（记忆）、Planning（规划）、Tools（工具），并明确“工作记忆”对应上下文窗口。这个拆分和 Lilian Weng 的经典综述一致：LLM 作为‘大脑’，外接规划、记忆与工具使用组件。[PDF p.95；Weng 2023]

图5 LLM Agent 的三模块：Memory / Planning / Tools（AAAI’26 Tutorial PDF，第10页附近；此处截图为第11页挑战页之前的脉络）

3.2 Planning：从 CoT 到 ReAct，再到“可执行动作”

Planning 的目标不是传统意义的最优规划，而是让模型在复杂任务中具备‘程序化的推理-行动控制’。在提示工程层面，Chain-of-Thought（CoT）通过给出中间推理步骤示例，让模型更容易分解多步问题；ReAct 则将推理轨迹与可执行行动交织在一起，让 agent 在外部环境/工具上“边想边做”，降低纯推理带来的幻觉与误差传播风险。这些方法都属于训练前（training-free）的能力脚手架：你不一定需要先做 RL 或大规模微调，也能让 agent 在多步骤任务里更稳定。[Wei et al. 2022；Yao et al. 2022]

3.3 Memory：Episodic / Semantic / Procedural 的分层视角

在记忆侧，教程采用认知科学的经典分层：情景记忆（episodic）、语义记忆（semantic）、程序性记忆（procedural）。这套分层常用于解释：为什么 agent 需要把短期上下文（工作记忆）与长期存储（向量库、日志、工具调用轨迹）结合起来，才能在跨回合任务中保持一致性与可追溯性。[PDF p.95；Tulving 1972；Sumers et al. 2024]

3.4 Tools：API、代码、搜索，把语言模型接到“可验证世界”

工具使用（Tools）包含 API 调用、代码执行、检索搜索等。教程特别强调：当任务存在可验证的外部判据（例如编译/单元测试/计算器验证），可以把 reward 或评估从‘主观偏好’转为‘可验证信号’，这会显著提升训练与迭代的可控性。[PDF p.116–120]

4. LLM 多智能体工作流：用图来组织协作，用协议来减少混乱

4.1 Workflow Graph：把协作结构显式化

教程用‘多智能体工作流（workflow）= 图结构’来描述协作：节点可以是 agent 或任务；边表示信息流/通信；执行可按轮次或异步推进；图结构可以是静态或动态。这个表述很关键：一旦把协作结构显式化，你就可以讨论不同拓扑（中心化、环形、全连接、消息总线等）对吞吐、鲁棒性、权限边界和工程复杂度的影响。[PDF p.9–10；p.168–170]

图6 多智能体工作流：以图结构组织 agent 交互（AAAI’26 Tutorial PDF，第9页）

4.2 典型挑战：任务分解、委派、依赖管理

教程在工作流层面列出挑战的第一条就是：层级化任务分解与委派（Hierarchical Task Decomposition and Delegation）。其要点是：复杂目标需要拆成可执行子任务，同时要处理子任务间依赖；拆分后要把任务委派给具备对应能力与工具权限的 agent；再把输出汇总成可交付结果。[PDF p.11]

图7 工作流挑战：任务分解与委派（AAAI’26 Tutorial PDF，第11页）

4.3 结构范式：中心化 Orchestrator vs 去中心化自演化网络

在‘前沿’部分，教程对比了预定义、多层级、中心化控制的工作流（容易形成单点瓶颈）与自演化、去中心化的 agent network。它给出若干结构示例：中心化协调（central agent hub）、环形通信（ring）、全连接/部分连接网络（mesh）、消息总线（bus）等，并讨论在隐私与敏感数据处理上，如何把‘协调’与‘数据处理’拆开：Orchestrator 负责路由与状态机，不直接触碰敏感数据，敏感数据由专门 agent 在边界内处理。[PDF p.168–171]

图8 LLM-based MAS 的应用与结构入口页（AAAI’26 Tutorial PDF，第168页）

图9 典型拓扑：中心化/环形/网状/总线（AAAI’26 Tutorial PDF，第169页）

5. 应用前沿：从“协作做任务”到“社会仿真与科学协作”

5.1 社会仿真：让 agent 通过对话产生群体涌现

教程把社会仿真作为重要应用之一：多智能体社会模拟强调‘简单规则 + 动态交互 → 复杂社会模式’，覆盖市场、交通、社会规范等领域。在 LLM 加持下，agent 更像‘可交互的人类行为模拟器’，具备语言推理与适应性行为；群体现象可以通过对话互动自然涌现。[PDF p.164–165]

5.2 AI Co-Scientist：把多 agent 对齐到科学方法流程

教程还提到AI Co-Scientist 作为多智能体系统形态之一：它被描述为构建在 Gemini 之上的多 agent 系统，用于镜像科学方法的推理过程，帮助专家整理证据与改进工作，定位为‘协作工具/虚拟科研合作者’。[PDF p.166–167]

6. 从‘能跑’到‘能优化’：多智能体后训练与强化学习信号设计

6.1 先讲清楚 reward：RLHF vs RLVR

在后训练（post-training）部分，教程强调优先使用可验证奖励（RLVR, Reinforcement Learning with Verifiable Rewards）：当你能写出确定性的 verifier（如编译器、计算器、单测），就把奖励做成 0/1 或可计算分数，显著约束 reward hacking。相对的，RLHF 依赖人类偏好数据训练 reward model，成本更高，也更容易出现智能体目标偏移。[PDF p.117]

6.2 稀疏 vs 稠密：PRM（过程奖励模型）的取舍

教程给出奖励设计的工程规则：通常正确性权重占70–90%；模型会找捷径（Goodhart 风险）；可以先从稀疏奖励起步，必要时引入过程奖励模型（PRM）给每一步打分，以降低梯度方差并支持早停，但代价是需要更细粒度的标注。[PDF p.118–119]

6.3 PPO vs GRPO：基础设施成本与迭代速度

在算法侧，教程用一页对比PPO 与 GRPO：GRPO 用组内均值奖励替代 learned critic，省去 value function 训练，通常更简单、更适合研究快速迭代；如果不确定，从 GRPO 开始是一个实用建议。[PDF p.119]

6.4 规模与显存：从 7B/8B 的快速迭代，到 70B+ 的生产级训练

教程给出‘模型大小阶梯’：7B/8B（1 张 GPU，快迭代）→ 14B（1–2 GPU）→ 32B（4–5 GPU）→ 70B+（8+ GPU，偏生产）。并强调：只有在有明显信号后再扩规模。同时给出训练显存的粗略估算：全量 AdamW 微调时，模型状态约 20 bytes/param 量级，7B 已经需要多卡或做内存优化（如 PEFT、ZeRO、分片等）。[PDF p.121–123]

7. 工程生态：多智能体框架如何选型

如果把LLM-based MAS 看成‘可组合的工作流系统’，那么关键问题是：你是否需要一个高层对话编排框架，还是需要一个更底层、可控的状态机/图执行引擎。在开源生态里，微软 AutoGen 提供多智能体对话编排抽象，并在 2025 年宣布与 Semantic Kernel 方向合并为 Microsoft Agent Framework；LangGraph 以“图”为基本执行单元构建长期运行、状态化 agent；CrewAI 则强调轻量、角色化的多 agent 协作与可配置性。[AutoGen GitHub；Microsoft Agent Framework GitHub；LangGraph GitHub；CrewAI GitHub]

8. 走向 Frontiers：你可以把哪些问题当成下一阶段的研究/产品路线

结合教程的‘基础—agent—多智能体—演示’结构，可以把前沿问题落到更可操作的研发清单：（1）协作结构：静态工作流 vs 动态拓扑，何时需要自适应重连与专家化；（2）权限与隐私：Orchestrator 与敏感数据处理解耦；（3）可验证性：把关键步骤接入 verifier 与可追溯日志；（4）训练闭环：优先 RLVR，必要时 PRM，选择 GRPO/PPO 并控制工程复杂度；（5）评测与基准：把任务分解质量、协作效率、鲁棒性、工具调用成功率做成指标体系，并用真实工作流持续回归。[PDF p.168–175]

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

在这里插入图片描述

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

百度搜索算法逆向揭秘与实战指南

逆向思考百度搜索算法的技术背景与研究价值。搜索引擎算法的核心目标与用户需求的关系。逆向工程在优化SEO和内容策略中的应用。逆向思考对SEO与内容优化的实际价值。商业竞争中逆向分析的风险与限制。开源工具在逆向工程中的发展潜力。个性化推荐与地域化搜索的影响。百度算法更新周期的观察与应对。特定关键词的搜索结果逆向解析。百度算法调整对网站流量的影响。成功与失败的逆向工程案例对比。人工智能对搜索算法逆向的挑

AtomGit开源社区

【AI模型】概念-MCP

AtomGit开源社区

基于合作博弈的综合能源系统利益分配优化调度（Matlab代码实现）

综合能源系统是一种将电力、热力、天然气等多种能源形式进行有机整合和协同运行的能源系统。它通常包括能源生产设备（如发电厂、燃气热电厂等）、能源转换设备（如电转气设备（P2G）、热电联产设备（CHP）等）、能源存储设备（如储氢罐、热储能装置等）以及能源消费终端。这些设备相互关联、相互影响，通过复杂的能源网络实现能源的传输和分配。本研究通过构建基于合作博弈的综合能源系统利益分配优化调度模型，利用 Sha