主流检索范式,无论是传统的关键词匹配、向量数据库的语义相似度搜索,还是RAG(Retrieval-Augmented Generation)的Top-K检索,本质上都建立在语义相似性的基础上。系统计算查询与文档在向量空间中的距离,距离越近则相关性越高。这种设计存在根本性缺陷:相关性不等于因果性

这个缺陷在实际应用中表现为多种棘手问题。比如,当用户查询“A事件发生后B事件为什么变化?”时,系统可能同时检索到“A发生后C也发生了”和“A发生时D存在”等信息,它们都与A语义相关,但只有前者可能包含因果关系,后者可能只是巧合或受第三个因素影响。传统检索无法区分这两种关系,导致模型在推理时可能建立错误的因果链,产生看似合理实则错误的结论。研究指出,超过30%的检索文档虽然主题相关,但缺乏真正的事实支撑。

下面,我将系统梳理当前学术界在这一方向的前沿工作,从图结构建模、反事实训练、主动推理框架、底层机制研究到顶层范式重构,逐层深入技术细节。

一、图结构记忆:用显式边建模因果依赖

1.1 MAGMA:多图正交化架构与查询自适应遍历

论文信息:《MAGMA: A Multi-Graph based Agentic Memory Architecture for AI Agents》,arXiv:2601.03236 [cs.AI],2026年1月
链接https://arxiv.org/abs/2601.03236

核心洞察:信息类型的正交化分离

MAGMA(Multi-Graph based Agentic Memory Architecture)的核心洞察在于:传统记忆系统将所有信息混放在单一的向量存储中,导致时序、因果、实体、语义四种本质不同的信息类型相互纠缠。这种“一锅烩”的设计使系统难以根据查询意图选择正确的推理路径。例如,当用户询问“事件X的后果是什么”时,系统可能错误地从语义相似的闲聊记录中检索信息,而非从因果链中寻找答案。

MAGMA的解决方案是将每个记忆项同时映射到四个正交的图中:

  • 语义图(Semantic Graph):基于内容相似性构建,节点为记忆项,边表示语义关联强度

  • 时序图(Temporal Graph):基于时间顺序构建,边表示时间先后关系,严格满足时间单向性

  • 因果图(Causal Graph):基于显式的因果关系标注构建,边方向表示因果方向(A导致B)

  • 实体图(Entity Graph):基于共同实体关联构建,共享同一实体的记忆项之间建立连接

关键技术:查询自适应图遍历策略

MAGMA将检索问题形式化为策略引导的多图遍历(policy-guided traversal over relational views)。系统不再简单地计算向量相似度,而是根据查询意图动态选择遍历哪些图以及如何遍历。

这一机制的具体实现包含三个层次:

第一层:查询意图解析
系统首先对用户查询进行轻量级分析,识别查询的意图类型:

  • 如果查询包含“为什么”“导致”“后果”等因果关键词,优先激活因果图

  • 如果查询包含“之后”“之前”“顺序”等时序关键词,优先激活时序图

  • 如果查询涉及特定实体(如人名、地名),优先激活实体图

  • 默认情况下,激活语义图作为后备

第二层:多图联合检索
系统在选定的图上执行遍历,同时允许跨图跳转。例如,因果图上的节点可能通过实体边连接到实体图,从而获取更丰富的上下文。这种设计使检索结果既满足因果约束,又能通过实体关联补充相关信息。

第三层:结构化上下文构建
检索到的节点不是简单拼接,而是按照它们在图中的关系组织为结构化上下文。系统保留节点间的依赖关系,将因果链、时间序列等信息显式传递给大模型,使其能够理解信息之间的逻辑联系而非孤立片段。

效果表现与局限性

在LoCoMo和LongMemEval基准上的实验表明,MAGMA在长程推理任务中持续优于最先进的代理记忆系统。其时间对齐准确率达到100%,语义评分与人类判断完美相关。但该方法存在一个明显的局限性:高度依赖高质量的事件抽取和关系标注。在数据稀疏或因果关系模糊的场景下,因果图的构建质量可能下降,进而影响检索效果。

1.2 TeleMem:DAG约束的因果演化图与最小闭包检索

论文/项目信息:中国电信人工智能研究院(TeleAI)TeleMem框架,2026年1月开源
链接https://www.thepaper.cn/newsDetail_forward_32469615

问题背景:RAG在长期记忆中的结构性瓶颈

TeleMem团队指出,传统RAG在“长期记忆管理”和“持续学习承载能力”两个层面正在暴露结构性瓶颈:

缺乏时间与因果结构:向量只能表达语义相似度,无法描述事件先后关系、状态依赖和决策演化路径。这使系统难以形成稳定的学习轨迹,无法区分“新知识是补充、修正还是替代旧认知”。

上下文碎片化严重:检索返回的是离散片段,模型需要自行补全逻辑链条,容易产生幻觉与不一致推理。在持续学习场景下,这种碎片化上下文会导致认知漂移和策略不稳定。

索引随规模恶化:随着历史数据增长,写入成本、索引漂移和存储冗余不断累积,系统很难在长期运行中保持稳定学习能力。

核心设计:有向无环图(DAG)与最小因果骨架

TeleMem的核心创新是将所有历史记忆统一组织为一张有向无环图(DAG),把“记忆存储”升级为“可演化的认知结构”。

节点(Node):表示一段已经被语义理解并稳定固化的记忆状态,包含内容语义、向量表征和时间信息。每个节点对应一次对话状态、一次关键事件,或一次阶段性的认知更新结果。节点不是原始文本,而是“被模型理解并稳定固化后的语义状态”,这种抽象显著降低了存储与索引成本。

依赖边(Edge):表示节点之间显式的语义与因果依赖关系,即“当前认知由哪些历史状态条件转化而来”。每条边同时编码三类约束:

  • 时间顺序约束:只能从更早节点指向更新节点,保证语义单调演化,避免循环依赖

  • 语义依赖约束:明确刻画当前认知形成所依赖的上下文

  • 逻辑约束:整体图保持为最小因果骨架,若两节点之间已存在间接可达路径,则对应的直连边会被剪除,以消除传递冗余

路径(Thread):多条依赖边串联起来,形成可追溯的记忆演化链,不仅用于描述话题、状态或角色在时间维度上的连续演进,也天然刻画了Agent的认知更新与持续学习轨迹。

关键技术一:表征层与索引层的协同更新

TeleMem将记忆系统拆分为两个协同演化的层次:

表征层(Representation Layer):负责语义内容的抽象、压缩与状态演化,如用户画像、事件摘要和多模态语义表示。

索引层(Index / Graph Layer):负责维护节点之间的时间约束、因果依赖与可检索拓扑结构。

为了应对表征持续变化而索引必须同步反映变化的挑战,TeleMem设计了Offline Batch与Online Stream两条更新路径:

Offline Batch:全量表征整合与离线并行构图

  • 记忆抽取:并行抽取标准化记忆表征

  • 检索对齐:并行匹配新生成表征与已有记忆

  • 聚类决策:对候选内容进行全局聚类,并对不同语义簇并行执行合并、更新或淘汰操作

Online Stream:增量表征演化与局部索引维护

  • 在线阶段面向实时交互,强调低延迟与持续可用性

  • 表征层持续吸收新事件,对用户画像、对象状态和多模态摘要进行增量更新

  • 索引层基于检索完成近似挂载,并在必要时对局部结构进行调整

关键技术二:因果闭包检索(Causal Closure Retrieval)

TeleMem的读取目标不是“Top-K相似片段拼接”,而是复原一段完整因果上下文。系统会构造一个最小闭包子图(Minimal Closure Subgraph),将回答所需的前置依赖一并补齐:

  1. 种子定位:通过语义相似性找到最相关节点(传统RAG的Top-K)

  2. 因果回溯:沿依赖边反向遍历,补齐必要祖先节点,这一步是关键,确保模型获得的是前因后果完整的信息,而非孤立片段

  3. 闭包构造:形成自洽的上下文子图,确保所有节点间的依赖关系完整

  4. 线性化输出:按时间顺序组织为模型输入序列

最终获得的不再是零散片段,而是一段“前因后果相对完整的上下文”,显著降低碎片化带来的推理偏差。

效果表现

在中文长程对话基准ZH-4O(平均约600轮、多角色场景)测试中,TeleMem的准确率达到86.33%,相比RAG基线提升约38个百分点,相比Mem0提升约19个百分点。同时,记忆规模不再受限于模型的Context Window,可稳定支持千轮乃至万轮对话。

二、因果推理增强的RAG训练

2.1 CRGS-RAG:反事实训练与博弈论知识融合

论文信息:《Causal reasoning meets heuristic strategies: enhancing RAG through fine-tuning and knowledge interaction》,Knowledge-Based Systems, Volume 333, 2026年1月
链接https://www.sciencedirect.com/science/article/abs/pii/S0950705125020143
代码https://github.com/yuanlill/CRGS-RAG

这是目前最系统的因果增强RAG框架,直接针对你提出的两个核心挑战:

  • C1:如何从噪声文档中提取真正的支持性证据?

  • C2:如何解决内部参数化知识与外部检索知识之间的冲突?

模块一:因果推理微调(Causal Reasoning Fine-Tuning, CRFT)

CRFT的核心思想是让模型学会区分“表面相关”和“因果相关”。研究指出,超过30%的检索文档虽然主题相关,但缺乏事实支撑。传统模型无法识别这种差异,因为它们只在“相关文档+正确答案”上训练,从未学习过“相关但无用”的文档应该被忽略。

技术实现:干预与反事实训练
CRFT通过构造三类训练样本,让模型在微调过程中建立因果敏感性:

  1. 原始样本:查询 + 相关文档 + 正确答案(标准RAG训练)

  2. 干预样本:替换文档中的因果关键信息,观察答案变化。例如,对于查询“服药后头痛缓解了吗?”,原始文档是“服药后30分钟头痛消失”;干预样本将文档改为“服药后30分钟头痛加剧”。模型需要学习:关键信息的变化应该导致答案的变化。

  3. 反事实样本:假设因果条件不成立时的场景。例如,“如果没有服药,头痛会如何?”模型需要理解:反事实条件下,答案应与事实条件不同。

这种训练使模型学会关注真正影响答案的因果因素,而非表面相似性。消融实验表明,CRFT模块在噪声检索条件下对推理能力提升贡献最大。

模块二:启发式知识融合(Heuristic Knowledge Fusion, HKFS)

HKFS解决的是知识冲突问题,当模型内部参数化知识与外部检索知识不一致时,应该如何决策?现有方法往往简单地“优先外部知识”或“信任内部知识”,但这两种极端策略都不合理。

博弈论视角的知识融合
HKFS将知识融合建模为博弈论策略决策,定义了四种自适应融合策略:

  1. 一致性策略(Agreement Strategy):内外部知识一致时,强化融合,生成更置信的回答

  2. 互补性策略(Complementarity Strategy):知识互补时,拼接整合,形成更完整的答案

  3. 冲突解决策略(Conflict Resolution Strategy):知识矛盾时,基于证据强度裁决,如果外部知识来源权威且相关度高,则优先外部;如果外部噪声明显,则优先内部

  4. 不确定性策略(Uncertainty Strategy):证据不足时,显式表达不确定性,而非强行生成

动态策略选择机制
系统根据查询类型、文档质量评分、内部知识置信度等特征,动态选择最合适的融合策略。这使模型能够在不同场景下做出明智决策,而非机械地套用单一规则。

效果表现

在五个开放域问答数据集(PopQA、TriviaQA、Natural Questions、2WikiMultiHopQA、ASQA)上,CRGS-RAG显著超越现有SOTA基线。更重要的是,案例研究表明,该方法在处理需要因果推理的复杂查询时表现尤为出色。

三、主动因果推理的记忆框架

3.1 ActMem:从被动记录到主动因果推理

论文信息:《ActMem: Bridging the Gap Between Memory Retrieval and Reasoning in LLM Agents》,arXiv:2603.00026 [cs.CL],2026年3月
链接https://papers.cool/arxiv/2603.00026

核心问题

现有记忆框架将Agent视为被动“记录器”,检索信息但不理解其深层含义。这种设计在需要冲突检测和复杂决策的场景中表现不佳。例如,当Agent需要判断“用户当前的请求是否与三天前的承诺冲突”时,仅靠相似度检索无法完成这个任务,它需要理解承诺的因果约束。

解决方案:可操作记忆(Actionable Memory)

ActMem提出将非结构化对话历史转化为结构化的因果与语义图,并通过两种主动推理机制增强因果理解:

机制一:反事实推理(Counterfactual Reasoning)
给定当前意图,系统反推过去状态中哪些条件必须成立。例如,如果用户说“我要取消明天的会议”,系统需要回溯:这个会议是在什么条件下约定的?是否涉及其他人?取消会触发什么后果?通过反事实推理,系统能够识别隐含的因果约束。

机制二:常识补全(Commonsense Completion)
当因果链存在缺口时,系统利用外部常识知识图谱补全隐式信息。例如,用户说“下雨了,所以我迟到了”,常识知识可以补全“下雨→交通拥堵→迟到”的因果链,即使原始对话中没有提及“交通拥堵”。

评测基准:ActMemEval

团队还发布了专门的数据集ActMemEval,用于评估逻辑驱动场景中的Agent推理能力,超越传统以事实检索为中心的评测。该数据集包含需要冲突检测、因果推理、意图理解的复杂任务,为因果感知记忆系统提供了更全面的测试平台。

效果

实验表明,ActMem在复杂、依赖记忆的任务上显著超越现有基线。

四、因果挖掘与检索的底层技术

4.1 RAG-based 因果挖掘(Causality Mining)

论文信息:《Retrieval Augmented Generation based Large Language Models for Causality Mining》,NAACL 2025 Workshop,arXiv:2505.23944 [cs.CL],2025年5月
链接https://arxiv.org/abs/2505.23944

问题背景

因果检测和挖掘是信息检索的重要任务,但现有方法面临两难:

  • 无监督方法:性能差,需要大量人工干预进行因果规则选择,难以跨领域泛化

  • 有监督方法:缺乏大规模训练数据,难以训练高质量模型

解决方案:RAG-based动态提示

研究者利用LLM的提示工程,结合RAG构建动态提示方案。核心思想是:在推理时,系统首先从知识库中检索与当前查询相关的因果模式示例,然后将这些示例作为上下文提供给LLM,引导其生成更准确的因果抽取结果。

这种方法的优势在于,它不需要为每个领域标注大量训练数据,而是通过检索相似示例实现少样本甚至零样本学习。在三个数据集和五个LLM上的实验表明,RAG-based动态提示显著优于静态提示方案。

五、语言模型内部的因果追踪机制

5.1 Lookback Mechanism:反向工程LLM的因果推理

论文信息:《Language Models use Lookbacks to Track Beliefs》,ICLR 2026
链接https://www.networkscienceinstitute.org/publications/language-models-use-lookbacks-to-track-beliefs
DOIhttps://doi.org/10.48550/arXiv.2505.14685

独特视角

这篇论文不是设计新系统,而是反向工程LLM内部如何处理因果关系。研究者通过因果中介分析(causal mediation)和抽象(abstraction)技术,深入分析Llama-3-70B-Instruct在追踪人物信念时的内部机制。

发现:回溯机制(Lookback Mechanism)

研究发现,模型使用一种称为回溯机制的算法模式来追踪因果关系:

绑定存储:模型将“人物-对象-状态”三元组绑定在一起,在状态token的残差流中存储顺序ID(Ordering IDs)。这些ID不是具体的语义内容,而是指向信息的指针。

两步检索过程

  1. 绑定回溯:当需要查询某人物对某对象的信念时,模型首先检索对应的状态ID

  2. 答案回溯:通过状态ID检索具体的状态token

可见性处理:当文本指定一个人是否对另一个人可见时,模型先生成可见性ID,编码观察者和被观察者之间的关系。在后续推理中,这个ID被用于更新观察者的信念状态。

意义

这项工作揭示了LLM内部已经存在某种因果追踪机制,为设计更高效的因果感知检索提供了神经科学式的启发。如果我们能理解并引导这些内部机制,可能设计出更轻量、更高效的因果检索算法。

六、宏观范式转移:分析式搜索

6.1 Analytical Search:将因果分析作为一等公民

论文信息:《Analytical Search》,arXiv:2602.11581 [cs.IR],2026年2月
链接https://arxiv.org/abs/2602.11581

范式革命

这篇论文提出,传统搜索范式(无论是关键词匹配还是RAG)都难以支持分析式信息需求,如趋势分析、因果影响评估等需要因果推理的任务。现有系统的根本问题是:它们要么强调“信息查找”而非“问题解决”,要么简单地将一切视为“幼稚的问答”,对推理过程、证据使用和可验证性缺乏控制。

作者提出**分析式搜索(Analytical Search)**作为新的搜索范式,其核心特征包括:

  1. 显式建模分析意图:理解用户是想找“原因”“趋势”还是“影响”,而非仅仅匹配关键词

  2. 证据融合检索:不仅检索文档,还检索支持/反对的证据,并对证据质量进行评估

  3. 结构化多步推理:通过多步推理产生可验证的结论,每一步都可追溯

系统框架

分析式搜索引擎包含四个核心模块:

查询理解(Query Understanding):识别查询中的分析意图类型(因果、对比、趋势、评估等),并提取关键分析要素

召回导向检索(Recall-oriented Retrieval):追求证据覆盖率而非单纯相关性,确保不遗漏可能的重要证据

推理感知融合(Reasoning-aware Fusion):按推理链组织证据,而非简单拼接。系统理解证据之间的逻辑关系,如“A支持B,C反对B”

自适应验证(Adaptive Verification):对产生的结论进行事实核查,识别可能的幻觉或错误

意义

分析式搜索标志着信息检索正在从“找文档”向“找原因”进化,为因果感知检索提供了顶层框架。虽然目前还处于概念阶段,但它指明了未来10年检索系统的发展方向。

七、技术路线总结与改进建议

7.1 现有技术的分类比较

技术路线

代表工作

核心机制

适用场景

成熟度

链接/代码

多图正交化

MAGMA

分离语义、时序、因果、实体图;查询自适应遍历

多跳推理、复杂查询

论文级

https://arxiv.org/abs/2601.03236

DAG约束演化

TeleMem

显式因果边+最小闭包子图检索

长期记忆、持续学习

开源可用

https://github.com/TeleAI/TeleMem(注:文中提及开源,但搜索结果未提供具体链接)

反事实训练

CRGS-RAG

干预+反事实样本训练;博弈论知识融合

噪声检索、知识冲突

论文+代码

https://github.com/yuanlill/CRGS-RAG

主动推理

ActMem

反事实推理+常识补全

冲突检测、复杂决策

论文级

https://papers.cool/arxiv/2603.00026

因果挖掘

RAG-based Causality Mining

动态提示+示例检索

因果抽取

论文级

https://arxiv.org/abs/2505.23944

内部机制研究

Lookback

揭示模型已有回溯能力

模型理解、效率优化

研究级

https://www.networkscienceinstitute.org/publications/language-models-use-lookbacks-to-track-beliefs

范式框架

Analytical Search

分析式搜索架构

趋势分析、因果评估

概念框架

https://arxiv.org/abs/2602.11581

八、结论与展望

当前,使检索系统理解因果关系的主流技术路径已经形成清晰的谱系:从显式图结构建模(MAGMA、TeleMem)到反事实训练增强(CRGS-RAG),从主动推理框架(ActMem)到底层机制挖掘(Lookback),再到顶层范式重构(Analytical Search)。这些工作共同表明,从相关性检索到因果性检索的范式转移正在发生。

完整参考文献

[1] Jiang, D., Li, Y., Li, G., & Li, B. (2026). MAGMA: A Multi-Graph based Agentic Memory Architecture for AI Agents. arXiv:2601.03236. https://arxiv.org/abs/2601.03236

[2] 中国电信人工智能研究院. (2026). 让Agent画思维导图稳固长期记忆:新框架实现稳定长期学习,准确率提升38%. 澎湃新闻. https://www.thepaper.cn/newsDetail_forward_32469615

[3] Yuan, L., et al. (2026). Causal reasoning meets heuristic strategies: enhancing RAG through fine-tuning and knowledge interaction. Knowledge-Based Systems, 333, 114976. https://www.sciencedirect.com/science/article/abs/pii/S0950705125020143
代码:https://github.com/yuanlill/CRGS-RAG

[4] ActMem: Bridging the Gap Between Memory Retrieval and Reasoning in LLM Agents. (2026). arXiv:2603.00026. https://papers.cool/arxiv/2603.00026

[5] Tu, Y., Miao, S., Su, W., Liu, Y., & Ai, Q. (2026). Analytical Search. arXiv:2602.11581. https://arxiv.org/abs/2602.11581

[6] Prakash, N., Shapira, N., Sharma, A. S., Riedl, C., Belinkov, Y., Shaham, T. R., Bau, D., & Geiger, A. (2026). Language Models use Lookbacks to Track Beliefs. ICLR 2026. https://www.networkscienceinstitute.org/publications/language-models-use-lookbacks-to-track-beliefs

[7] Naduvilakandy, T. M., et al. (2025). Retrieval Augmented Generation based Large Language Models for Causality Mining. NAACL 2025 Workshop, arXiv:2505.23944. https://arxiv.org/abs/2505.23944

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐