无需手写规则，大模型从对话记录中自动学会谈判与博弈

2601_95836219

321人浏览 · 2026-05-14 14:49:21

2601_95836219 · 2026-05-14 14:49:21 发布

在人机对话的广阔世界里，除了我们熟悉的闲聊机器人和任务型助手，还存在一类特殊的对话智能体——非合作型对话代理 (non-collaborative dialogue agents)。它们被设计用于处理那些双方利益存在冲突的场景，例如商业谈判、慈善募捐、债务催收等。在这些对话中，智能体需要运用精妙的策略，在多轮博弈中引导对话走向，以达成对自身有利的目标。

ArXiv URL：http://arxiv.org/abs/2604.11427v2

传统上，构建这类智能体是一项高度依赖人类专家的劳动密集型工作。领域专家需要首先深入分析大量的对话实例，手动梳理、编码一套有效的“策略动作集”（比如在谈判中何时施压、何时妥协、何时转移话题），然后再基于这套固定的规则去训练策略规划模型。这个过程不仅成本高昂、耗时漫长，而且难以规模化，每进入一个新领域，几乎都要从头再来。

随着大型语言模型（LLM）展现出强大的归纳推理能力，一个极具吸引力的可能性浮出水面：我们能否让 LLM 直接从原始的专家对话录音或文本中，自动“悟出”其中隐藏的策略和规划逻辑？

来自北京航空航天大学、南开大学、新加坡国立大学等机构的研究者们给出了肯定的答案。他们提出了一种名为 METRO (Multi-dimEntional sTRategy induction from dialOgue transcripts) 的新方法。METRO 能够直接从原始对话文本中，自主归纳出策略动作和规划逻辑，并将其构建成一个名为“策略森林 (Strategy Forest)”的结构化知识体系。实验证明，METRO 的性能超越了现有方法 9%-10%，展现了卓越的策略多样性、远见性和跨任务迁移能力，为构建低成本、可扩展的非合作对话智能体开辟了一条新路。

核心机制：用“策略森林”为博弈智慧建模

METRO 的核心思想是将专家在对话中展现的隐性知识（tacit knowledge）——即“在什么情况下该说什么话”——进行形式化、结构化的表达。整个过程分为两个阶段：离线的归纳 (Induction) 阶段和在线的应用 (Application) 阶段。

METRO 方法总览

上图直观展示了 METRO 的工作流程。它首先在离线阶段，将大量原始对话转录稿（Transcripts）加工成一个结构化的“策略森林”，然后在在线推理时，利用这个森林来指导智能体的每一步决策。

1. 策略森林的归纳构建

策略森林的构建是 METRO 的基石，它包含两个关键步骤：策略行动归纳和规划逻辑归纳。

策略行动归纳 (Strategy Action Induction)

如果只是简单地从对话文本中提取专家说过的原话作为策略，那么智能体的能力将被原始语料的质量和多样性牢牢束缚。METRO 的高明之处在于，它不仅“提取”，更懂得“扩充”。

首先，对于一段专家对话 $D=(u1,u1usr,…,uTD,uTDusr)D=(u_1, u_1^{\text{usr}}, \dots, u_{T_D}, u_{T_D}^{\text{usr}})$ ，METRO 会通过 LLM 从专家的每句发言 $u_i$ 中提取出一个基础的策略动作 $ai=Extraction(ui)a_i = \text{Extraction}(u_i)$ 。

更关键的是第二步：扩充 (Expansion)。METRO 会将对话历史 $d'_i$ 和提取出的基础动作 $a_i$ 一同交给 LLM，并提示 LLM 在此基础上生成一个经过提炼或全新的策略动作 $a^i\hat{a}_i$ ，同时附上采纳该新策略的理由 $r^i\hat{r}_i$ 。这个过程可以表示为 $(a^i,r^i)=Expansion(di′,ai)(\hat{a}_i, \hat{r}_i) = \text{Expansion}(d'_i, a_i)$ 。

通过这种方式，METRO 借助 LLM 自身的“内部知识”，超越了原始语料的限制，创造出更丰富、更精炼的策略动作库 $A′\mathcal{A}'$ 。这使得智能体在后续决策时，拥有了远比原始对话中观察到的更广泛的行动选项。

规划逻辑归纳 (Planning Logic Induction)

拥有了丰富的策略“弹药库”还不够，何时使用哪个“弹药”才是策略的核心。这便是规划逻辑。一段完整的对话，本质上就是一条从开场到结束的“行动轨迹”（action trajectory）。METRO 的目标就是将这些线性的轨迹，重构成一个树状的、以“状态”为中心的知识结构。

具体来说，METRO 会将每一条对话轨迹分解成若干个“子轨迹”。每个子轨迹都从一个特定的对话状态（例如“用户首次拒绝出价”）开始，并携带最终的任务结果（成功或失败）。然后，METRO 会将所有源于相同或相似对话状态的子轨迹聚合在一起，形成一棵“策略树 (Strategy Tree)”。

森林中的每一棵树 $fi∈Ff_i \in \mathcal{F}$ 都代表了一个关键的对话状态 $S_i$ （树的根节点）。这棵树的内部结构则编码了从这个状态出发的两种规划逻辑：

短期战术响应 (Short-term Tactical Responses)：根节点的直接子节点 $childroi\text{childro}_i$ 代表了从状态 $S_i$ 出发，最直接有效的“下一步”应该怎么走。这体现了策略的广度 (breadth)。
长期战略远见 (Long-term Strategic Foresight)：从根节点到任意一个叶子节点的完整路径（即一个分支 $trajij\text{traj}_{ij}$ ），代表了一条完整的、被历史证明是有效的长期行动序列。这体现了策略的深度 (depth)。

通过将成千上万段对话中的规划逻辑汇集成由无数策略树组成的“策略森林”，METRO 就为智能体构建了一个庞大而精细的外部“大脑”。

2. 在实战中应用策略森林

当智能体需要进行决策时，它无需进行复杂的模型训练或蒙特卡洛树搜索（MCTS）那样的重度计算。METRO 采用的是一种轻量级的检索增强方法。

在对话的第 $t$ 轮，给定当前的对话历史 $d_t$ ，METRO 会执行以下操作：

树检索：计算当前对话状态与策略森林 $F\mathcal{F}$ 中所有策略树的根节点（即历史上的关键对话状态）之间的语义相似度，并检索出最相关的一棵树 $f$ 。
策略建议生成：从检索到的树 $f$ 中，同时提取两种建议：
- 广度建议：基于与当前上下文最相似的 Top-K 个子节点，生成短期战术建议。
- 深度建议：基于树中完整的 Top-K 条分支，生成长期战略建议。
最终响应：将这两种建议拼接在一起，作为最终的提示（prompt）输入给 LLM，引导其生成既有战术针对性、又有战略远见的回复。

这种设计巧妙地利用了策略森林的多维度结构，在不牺牲策略深度和广度的前提下，保持了推理的高效率。

实验拆解：METRO 为何如此有效？

研究者在两个经典的非合作对话基准数据集（一个关于价格谈判 CraigslistBargain (CB)，一个关于慈善劝说 PersuasionForGood (P4G)）上进行了详尽的实验。结果显示，无论是在自动评估指标（如成功率 SR、平均对话轮次 AT）还是在人工评估中，METRO 均显著优于其他基线方法。

那么，METRO 的优势究竟从何而来？论文通过一系列精巧的分析和消融实验，揭示了其成功背后的原因。

策略动作的多样性是基础

METRO 的一个核心优势在于它能生成高度多样化的策略。研究者通过聚类分析发现，相比于数据集中预定义的人类策略和由其他方法（如 PRINCIPLES）生成的策略，METRO 归纳出的策略在“簇覆盖率 (Cluster Coverage, CC)”和“簇内覆盖率 (Within-Cluster Coverage, WCC)”上都表现更优。

这意味着 METRO 产生的策略不仅覆盖了更广泛的语义空间（种类多），而且在每个具体的策略类别内部，其表达也更加丰富多变（花样新）。这种策略上的多样性，使得智能体能够跳出刻板的应对模式，展现出更灵活、更像人类的博弈行为。

广度与深度的协同价值

策略森林的“广度”（短期战术）和“深度”（长期规划）是否都不可或缺？消融实验给出了有趣的答案。

消融实验分析

如上图所示，在 P4G 任务中，去掉广度（w/o Breadth）或深度（w/o Depth）模块都会导致性能下降，证明了两者协同作用的重要性。

然而，一个反常的现象出现在 CB 任务上：去掉深度规划逻辑（w/o Depth）后，模型的性能反而有所提升。研究者深入分析后发现，这是因为 CraigslistBargain 这个数据集本身的对话质量和策略多样性有限，导致从中归纳出的长期规划（分支）存在结构性冗余和偏差。在这种情况下，一个有偏的“长期军师”反而不如没有。

这个发现极具启发性：归纳策略的有效性，高度依赖于源头对话语料的质量。这也从侧面印证了，当拥有高质量专家数据时，METRO 的潜力将得到更充分的释放。

强大的跨任务迁移能力

一个好的策略归纳模型，不应只在特定领域生效。METRO 展现了强大的跨任务迁移能力。实验将从谈判任务（CB）中学到的策略，直接应用到劝说任务（P4G）上。结果显示，METRO 的表现远超其他基线方法。

更有趣的是，当把两个任务的策略集合并，扩大总体的策略空间时，许多依赖简单规划器的基线方法性能开始下降，因为它们难以从一个庞大的候选集中做出精准选择。而 METRO 凭借其精准的“树检索”机制，能够有效地在不断扩大的策略森林中导航，始终保持稳健的性能。这证明了 METRO 架构在应对策略空间演化和扩展时的优越可扩展性。

讨论与启示

METRO 的提出，为非合作对话领域乃至更广泛的隐性知识抽取领域，带来了重要的启示。

它成功地将 LLM 从一个单纯的“执行者”转变为一个“归纳者”和“规划者”，实现了从原始行为数据（对话文本）到结构化、可复用策略知识（策略森林）的自动化构建。这极大地降低了构建复杂对话智能体的门槛。

当然，研究也存在一些局限。目前实验所用的数据集，对话参与者多为普通用户，而非专业的谈判或劝说专家。如果未来能获得由认证专家产生的高保真对话数据，METRO 的性能上限有望被进一步推高。此外，论文虽然初步验证了使用 LLM 生成的对话数据作为训练源的可行性，但其与真实人类专家数据的深层差异，仍有待未来工作的深入探索。

总而言之，METRO 不仅是一个效果出色的新模型，更代表了一种富有前景的研究范式：利用大语言模型的归纳能力，从非结构化的专家行为中挖掘、建模并复用那些难以言传的隐性知识。这一思路，未来或可应用于棋类游戏、外科手术、法律辩论等更多需要专业策略和深厚经验的领域。无需手写规则，大模型从对话记录中自动学会谈判与博弈