AAAI 2026论文分享｜SAGE：一种用于结构化协作问题的具有教学推理能力的组合式多智能体框架

audyxiao001

382人浏览 · 2026-06-14 14:55:34

audyxiao001 · 2026-06-14 14:55:34 发布

本推文介绍了AAAI 2026收录的一篇论文《SAGE: A Compositional Multi-Agent LLM Framework with Pedagogical Reasoning for Structured Collaborative Problem Solving》。SAGE是一种创新性地将多智能体技术与教学推理相结合的框架。针对协作学习在实践中始终存在的双重挑战，即缺乏引导的小组讨论极易陷入混乱，以及结构化教案开发需要教师耗费大量时间精力，不适合大规模个性化学习，SAGE框架通过自动化教案生成与实时对话执行的深度融合，为结构化协作学习提供了系统性的智能化解决方案。

论文链接：https://arxiv.org/pdf/2501.10332

本文作者王一鸣，审校为龚裕涛和黄忠祥

一、研究背景与主要贡献

1.1 研究背景

协作学习是智慧教育领域重要的学生学习方法之一。虽然协作学习为发展沟通和推理能力提供了丰富的机会，但其中仍然存在双重挑战。第一重挑战是执行层面的，即学生在非结构化的团队合作中，尤其是在数学问题解决这类复杂领域，常常难以有效协作。第二重挑战是教学设计层面的，即要设计高质量、结构化的教案非常耗时，需要大量的教学专业知识，并且难以大规模个性化。而LLM的出现，虽然为解决上述问题提供了参考，但其能力主要集中在文本生成任务上，对于长期的教学策略则效果不尽人意。为了解决上述挑战，论文提出了SAGE框架。

1.2 主要贡献

（1）组合式两阶段架构：作者提出了SAGE，这是一个创新性的框架，将自动化的教案规划模块与实时、自主的对话系统整合在一起，弥补了教学设计到执行之间的鸿沟。

（2）自动化多智能体规划：SAGE适配并集成了一种规划流程，能够生成最优的教学场景，用以支撑后续的智能体多方对话。

（3）主动式话轮转换机制：在对话阶段，SAGE实现了基于自我选择的发言机制，以创建更自然、更符合教育目标的互动。

（4）全面的实证验证：论文通过仿真基准测试和真实学生参与的实验，验证了系统在教学一致性和学习者参与度方面的显著提升。

二、研究方法

SAGE框架采用组合式两阶段架构，将教学计划与对话执行系统性地分离。图1是SAGE的整体框架，接下来将具体介绍各部分结构。

图1 SAGE的整体框架

2.1 自动化教案规划模块

这是一个在学生交互前运行的多智能体系统，其唯一目标是生成一份“最优教学场景”，具体结构如图2所示。

图2 自动化教案规划模块示意图

模块中包含四个专门的智能体。

（1）规划者智能体

该智能体基于波利亚解题四步法生成一个初始教案，即理解问题、制定计划、执行计划、回顾反思。

（2）评估者智能体

该智能体将作为教学评论家，使用CIDPP五维度评分标准来评估教案质量，即清晰度、完整性、深度、实用性、相关性。

（3）优化者智能体

该智能体会根据评估者的反馈，通过重述目标、添加引导性问题或简化步骤来系统地改进教案。

（4）分析师智能体

该智能体会对优化后的教案进行最终分析，识别学生可能出错的点，并为其标注提示和补救策略。

这个过程是一个迭代循环。规划者生成初稿，评估者打分，如果分数未达到预设阈值，则由优化者改进后再次提交给评估者，直到超过阈值。最后，分析师进行最终标注。这个模块的输出是一个结构化的配置，即“最优教学场景”，包含各阶段的明确目标、任务以及预期错误点和提示，而非僵死的对话脚本。

2.2 实时对话模块

一旦在自动化教案规划模块生成了“最优教学场景”，它就会被用来初始化和引导实时对话模块。该模块由一系列组件进行控制，通过动态的协作对话将教学计划变为现实。

（1）事件驱动架构

实时对话模块构建于事件驱动架构之上，这是一个多智能体环境所必需的系统。与仅响应用户消息的传统聊天机器人不同，此架构使智能体能够动态地对各种上下文线索做出反应。系统环境包括完整的聊天记录、当前的教学阶段、参与者列表以及消息时间等时间元素。

智能体被设计为对离散事件做出反应，类似于人类如何回应语言和非语言提示。其中包括两种主要事件类型。

新消息：当任何参与者发送消息时触发。

沉默停顿：在一段不活动期也就是沉默后触发，允许智能体主动发起交互。

（2）基于阶段的教学协调

SAGE系统的教学流程基于乔治·波利亚的经典四步模型，即理解问题、制定计划、执行计划、回顾反思。

一个专门的阶段管理者智能体负责引导对话按这些阶段进行。基于教案规划模块的“最优教学场景”显著增强了该智能体的智能。每个阶段的具体任务和完成标准不是硬指标的，而是直接从“最优教学场景”初始化。阶段管理者的任务是监控进度、使用思维链提示进行分析、确定小组何时准备好进入下一阶段。此过程确保对话保持连贯和目标导向。

（3）基于角色的智能体

为了模拟真实的课堂环境，智能体被设计成具有多样化的角色，这些角色设计的核心是“角色-目标-背景故事”框架，如图3所示。角色指的是智能体的稳定人格和专长，目标指的是指导智能体行动的高层级目标，而背景故事则定义了智能体沟通风格和感兴趣的上下文细节。

图3 基于角色的智能体示意图

该框架为每个智能体提供了一个稳定的身份。“最优教学场景”不会覆盖此身份，而是作为一个上下文层，为智能体提供具体的、与任务相关的目标和关注点，将智能体固有的角色与直接的教学目标对齐。这确保了每个智能体在独立思考和行动的同时，其行为仍然受到教学目标的引导。

（4）主动式话轮转换模块

决定谁下一个发言是多智能体教育对话中的一个基本挑战。与一对一聊天机器人不同，多方对话要求智能体能够对何时说话、说什么以及是否保持沉默做出自主的、具有上下文感知能力的决定。人类对话是非常灵活的，即任何参与者如果能找到相关性就可以接管话轮，但这样的话轮转换对AI智能体来说尤为困难。

SAGE的方法基于主动自我选择。在每次对话事件即新消息或沉默停顿后，每个智能体私下生成一个关于发言的“内心想法”，然后将这些想法提交给一个专门的想法评估者智能体进行评分。想法评估者将“最优教学场景”作为其主要上下文指南。评估同时考虑内部维度即相关性、预期影响、紧迫性，以及外部维度即连贯性、冗余性、话轮平衡。如果一个智能体的最终分数超过预定义阈值，它就被选为下一个发言者。这种机制确保了对话流既自然又符合教学要求。

三、实验结果

3.1 实验准备

仿真实验：作者自建数据集，总共240个对话样本，每个样本都由一个九轮上下文提示和一个用于生成的第十轮目标话轮组成。

该实验目的是测试SAGE模型的对话能力，每个样本旨在测试如表1所示的八种特定教学技能之一。

表1 八种教学技能的定义

真人实验：作者招募了一个学生池，在每次会议中，来自该池的一名学生与三名智能体就一组12年级问题进行讨论。共收集200场多方对话，平均每场近85轮。智能体角色及代号分别为：领导者Bob，内容专家Alice，社会情感专家Charlie和人类学习者Tom。

实验设置：SAGE框架中所有智能体均使用Gemini 2.0 Flash模型，通过Google AI API访问，且使用默认参数。

3.2 仿真实验结果

表2 每项教学技能的平均话轮质量分数

表2为每项教学技能的平均话轮质量得分，使用LLM-as-Judge的方式进行评分。结果中可以看出，SAGE系统在核心教学功能上展示了强劲的性能，尽管在角色划分召回与深度思考方面仍存在改进的空间。

此外，作者还评估了SAGE系统与其他“下一个发言者预测”基线方法在教学有效性、角色遵循度以及上下文贴合度上的得分。结果表明，SAGE相比其他基线方法，达到了72.13%的胜率，证明SAGE系统的主动式话轮转换机制比纯反应式方法能生成更符合上下文和教学目标的内容。

3.3 角色遵循度分析

图4 真人实验中参与者的总体行为分布

图4统计了真人实验中每个参与者的总体行为分布。从结果中看出，Alice作为内容专家，其行为高度集中在提供导向，突显了该角色在提供解决方案和指导方面的核心作用。Bob作为领导者，则混合了提供导向和提供建议。Charlie作为社会情感专家，表现出较高比例的表示团结和释放紧张，这与维持士气和参与度的角色一致。该实验证明了作者提出的SAGE系统可以使智能体有效地遵循它们各自的角色。

3.4 动态行为平衡

图5 整个小组的任务导向行为和社会情绪行为之间的动态平衡

如图5所示，作者统计了整个小组随时间的任务导向行为和社会情绪行为之间的动态平衡。在会议开始时，整个小组的任务导向行为占主导，确保了初期对问题解决的强烈关注。随着讨论的推进，任务行为逐渐减少，而社会情感交流稳步增加，最终在第85轮左右达到平衡。

该结果与Bales的平衡假说紧密吻合。Bales平衡假说指的是，有效的小组学习通过随时间推移转移焦点来保持稳定，即开始时高度集中于任务导向行为，随后增加社会情感互动以管理关系和确保凝聚力。

此外，人类学习者Tom的社会情感输出随讨论的深入大幅增长，表明他在小组内的舒适度和信心有所提升。上述结果证明，该系统不仅促进了任务完成，也营造了一个支持性的人际环境。

3.5 支架效应验证

图6 所有参与者在不同阶段中的行为频率

图6统计了所有参与者在讨论的不同阶段的行为频率。作者将行为划分为三种，即指导性认知行为、提问式认知行为和情感性行为。从结果来看，对于所有智能体而言，指导性认知行为的频率都有所下降，Alice最为显著。同时，人类学习者Tom对提问式认知行为即寻求帮助的依赖急剧下降，从45%降至20%，表明了其独立性的增强。相比之下，情感性行为在所有参与者中都增加了，尤其是人类学习者Tom，这标志着信心的增强和积极的小组关系。

该结果与Vygotsky提出的支架理论相吻合。该理论指的是，在学习过程中，知识更渊博者会为学习者提供支持，而这种支持类似于支架，即这种支持是结构化的、临时性的，并随着学习者变得更加熟练而逐渐消退。实验结果证明了作者提出的SAGE框架在动态的、多方参与的环境中，可以明显地看到支架效应的显现，并且有效地促进学习责任逐渐从专家转移到新手的过程。