ICLR 2026 | 告别Top-K检索！RF-Mem在嵌入空间逐步重构证据链，实现长记忆渐进式唤醒

程序猿李巡天

419人浏览 · 2026-03-31 21:04:10

程序猿李巡天 · 2026-03-31 21:04:10 发布

今天分享一篇来自大连理工大学、香港城市大学、华为和中国科学技术大学的最新工作 RF-Mem，发表于ICLR 2026。这篇工作关注个性化大模型中的一个关键问题：当用户历史越来越长时，模型到底该怎样从海量记忆里，准确找回“此时此刻最相关的那一段”？ 现有方法大多停留在一次性向量 Top-K 的“快检索”范式中：它反应迅速、成本可控，但也天然偏向表层相似，面对含糊提问、长尾细节或需要串联多段经历的问题时，往往只能“捞到几片碎片”，甚至把无关记忆一并带上来。

RF-Mem 的核心想法很直观，也很有启发性：突破传统“快检索”，提出一种“慢回忆”机制。 借鉴人类记忆中的双加工理论，RF-Mem 不再把检索看成一次性命中，而是拆成两条路径。对于“很熟悉”的问题，直接走快速的 Familiarity 路径；对于“没那么熟悉”或“候选结果不确定”的问题，则启动更深入的 Recollection 路径，像人类回忆往事一样，顺着线索逐步重建上下文，把真正关键的证据一点点找出来。实验表明，RF-Mem 在 PersonaMem、PersonaBench 和 LongMemEval 三个基准上都取得了稳定提升，并在固定预算和延迟约束下持续优于 one-shot retrieval 与 full-context 方法。

摘要

个性化大模型的效果，很大程度上取决于它能否从用户长期历史中检索出真正相关的记忆。现有记忆检索方法大多将问题简化为一次性相似度搜索，也就是一种“快检索”；或者粗暴地把全部历史塞进提示词中，但这两种方式都难以兼顾准确性、效率与可扩展性。RF-Mem 从认知科学中的 Recollection-Familiarity Dual-Process Theory 出发，指出用户记忆检索不应只停留在快速识别，还应具备一种在必要时被唤起的“慢回忆”能力。

Problem Figure

具体来说，RF-Mem 先通过一次 probe retrieval 得到初步候选，并用平均相似度与分布熵共同衡量 familiarity signal。若问题与用户记忆高度匹配，就沿着 Familiarity 路径执行低开销的一步式 top-K 检索；若匹配不充分或候选分布存在较高不确定性，则切换到 Recollection 路径，通过聚类、query-centroid mixing 和多轮扩展，在 embedding space 中逐步重建更完整的证据链。这样的设计既避免了 full-context 的昂贵开销，也弥补了传统“快检索”在复杂个性化场景下“检得快但检不深”的不足。

主要创新点

提出面向个性化记忆检索的双路径框架：首次将认知科学中的 Familiarity-Recollection 双加工理论系统引入个性化 LLM 记忆检索，让检索过程具备“快速识别”和“深度回想”两种模式。
设计基于不确定性的自适应切换机制：不只看 top-K 分数高不高，还结合候选分布的熵来判断“模型到底熟不熟悉这个问题”，从而决定是一步检索还是进入多轮 recollection。
提出 stepwise recollection retrieval：在 Recollection 路径中，通过 KMeans 聚类候选记忆，并将 cluster centroid 与原 query 做混合更新，实现链式、渐进式的证据重构，而不是停留在一次向量匹配。
兼顾效果与效率：RF-Mem 不依赖额外的大规模生成过程，主要建立在向量检索与轻量聚类之上，因此既能提升复杂问题上的检索质量，也能保持接近 one-shot retrieval 的延迟。

方法

Method Figure

整体框架

RF-Mem 的整体流程可以概括为四步：

输入用户问题；
Familiarity Selection：对用户记忆做一次探针检索，并根据平均相似度与熵判断当前问题在记忆库中的熟悉度；
执行对应的记忆检索路径，熟悉度高Familiarity Retrieval，熟悉度低走Recollection Retrieval；
将检索出的记忆交给 LLM 生成最终回答。

这个框架的关键，不在于“检索得更多”，而在于根据问题难度和熟悉度，动态决定应该检索得多深。

Familiarity Selection：先判断“这个问题熟不熟”

RF-Mem 并不默认所有问题都需要复杂推理，而是先通过一次轻量 probe retrieval 估计熟悉度。具体来说，它会对初步候选记忆的相似度分数进行统计，计算：

Mean Score：反映候选记忆整体上与当前问题有多接近；
Entropy：反映候选分布是否集中，还是存在明显不确定性。

直觉上，如果平均分高、而且候选分布很集中，那么说明模型已经“心里有数”，直接走 Familiarity 路径即可；相反，如果平均分偏低，或者虽然分数不算太差但候选分布很分散，那么说明当前问题可能涉及更深层的用户背景，这时就需要启动 Recollection。

这一设计对应了人类记忆中的经典现象：熟悉的问题可以快速认出，不熟悉的问题则需要慢慢回想。

Familiarity Retrieval：高熟悉度下的一步式命中

当 familiarity signal 足够强时，RF-Mem 采用 Familiarity 路径。这个阶段非常直接：基于 query embedding 与记忆 embedding 的相似度，返回 top-K 记忆片段。

它的优势在于：

延迟低：基本保持 dense retrieval 的效率；
开销小：不需要额外推理与扩展；
适合“事实清晰、表达直接”的问题：例如基础信息、显式偏好、明显可匹配的个人背景。

换句话说，RF-Mem 并不是一味追求“更复杂的检索”，而是在该简单的时候果断简单。

Recollection Retrieval：低熟悉度下的“慢回忆”

真正体现 RF-Mem 新意的，是它的 Recollection 路径。

当系统判断当前问题“不够熟悉”时，它不会停在第一次检索结果上，而是进入一个 retrieve-cluster-mix-iterate 的循环过程：

Retrieve：先取回一批候选记忆；
Cluster：对候选记忆做聚类，找到若干语义中心；
Mix：将当前 query 与 cluster centroid 做混合，得到新的 recollect query；
Iterate：用新的 recollect query 继续检索，逐步扩展相关证据链。

这种做法很像人类回忆的过程：一开始也许只记得一个模糊线索，但顺着这个线索往下想，就会慢慢把事件背景、个人偏好和上下文关系一起带出来。

从上面的图也能更直观看到这一点。面对“Can you suggest some new evidence-based practices to explore for healthcare decision-making?” 这样的提问，传统 one-shot familiarity retrieval 虽然能抓到 “effective and safe”“complement conventional treatments” 这类局部相关片段，却也容易混入 “I tried a new healthy recipe…” 这样的噪声，最后导致答案偏移。相比之下，RF-Mem 的 recollection 路径会继续沿着线索向外扩展，把 “conventional medicine”“evidence-based practices resonate” 等更关键的上下文逐步串联起来，从而得到更完整、更可靠的个性化证据。

与传统“单跳检索”相比，Recollection 的优势在于：

能更好处理模糊问题、上下文依赖问题、长尾偏好问题；
能逐步恢复跨轮次、跨时间分散存储的用户记忆；
能在不读取 full context 的前提下，构造更完整的证据链。

RF-Mem 为什么比“全量记忆输入”更合理？

很多个性化系统的一个常见思路是：既然怕快检索漏掉关键信息，那就把用户历史全都给模型看。但问题在于，这样做在用户记忆变长后会迅速失控：

token 成本极高；
上下文长度受限；
噪声信息大量引入；
模型难以判断什么才是真正关键的历史片段。

RF-Mem 的思路恰好相反：不是把所有记忆都暴力灌进去，也不是执着于更快地做一次检索，而是引入一种“慢回忆”机制，按需唤起关键记忆。 这也正是它在大规模长期记忆场景下仍然有效的核心原因。

实验

评测基准与设置

RF-Mem 在三个代表性任务上进行了系统评测：

PersonaMem：关注个性化生成，测试模型能否根据用户长期历史给出与当前 persona 一致的回答；
PersonaBench：关注个性化检索，强调从私人文档中找回与用户信息相关的记忆；
LongMemEval：关注长程记忆下的信息定位与检索能力。

实验同时覆盖了不同 memory corpus scale，以及多种 embedding backbone，包括 MiniLM、MPNet 与 BGE，说明 RF-Mem 的改进并不依赖某一个特定检索器。

主实验结论

RF-Mem 在三类基准上都展现出一致优势。

PersonaMem，关注的是“检索出来的记忆，最终能不能真正帮助模型完成个性化生成”。可以看到，RF-Mem 在 32K、128K 和 1M 三种 memory corpus 下都取得了最高 overall accuracy，分别达到 0.6350、0.5394 和 0.4589。这说明 RF-Mem 的优势并不局限于小规模记忆，而是随着用户历史不断变长，依然能够稳定找到对回答最有帮助的记忆证据。与 Full Context 相比，RF-Mem 在效果更优的同时，输入 token 显著更少；尤其在 1M 规模时，Full Context 已经 out-of-context，而 RF-Mem 仍然能够稳定工作。与始终执行 Recollection 的方案相比，RF-Mem 保留了“慢回忆”的效果优势，同时显著降低延迟，例如在 32K 设定下，RF-Mem 的检索时间为 5.09ms，低于 Recollection 的 7.09ms。

Method Figure

PersonaBench，关注的是“能不能把真正相关的个性化记忆检回来”。在这项检索任务上，RF-Mem 在不同 embedding backbone 下都表现出很强的稳定性。无论是 Basic Info、Social Info，还是更难的 Preference Hard，RF-Mem 都能保持与最强基线相当甚至更优的 Recall@5 和 Recall@10。换句话说，它并不是只在某一类简单问题上有效，而是在不同类型的个人信息检索上都具备更稳的覆盖能力。

Method Figure

LongMemEval，它更强调长程记忆场景下的检索能力。这里可以更清楚地看到 RF-Mem 的核心价值：单纯的 Familiarity 虽然快，但容易漏掉更深层、跨时间分散的信息；纯 Recollection 虽然更强，但代价也更高；而 RF-Mem 则在两者之间取得了更好的平衡，在保持较低延迟的同时，持续取得更高或更稳的 Recall 表现。

把三张图放在一起看，RF-Mem 的价值就非常明确了：它不只是“准确率更高”，而是系统性地证明了，在个性化记忆检索里，更好的方向不是一味追求更快，而是在必要时让系统具备“慢回忆”的能力。

为什么 RF-Mem 的提升更稳定？

Case Figure

RF-Mem 的提升之所以更稳定，关键在于它抓住了个性化记忆检索里最容易被忽略的一点：用户真正需要的，往往不是“最像问题的话”，而是“最能解释用户意图的那段记忆”。 传统方法通常默认一次 top-K 检索就足够了，但个性化场景往往并不是这样。很多问题表面上和多段用户历史都有关联，可真正决定回答方向的，往往藏在更深层、更分散的记忆线索里。需要记忆检索系统像人类回忆往事一样，顺着线索逐步重建上下文，把真正关键的证据一点点找出来。。

如图 healthcare case 就很典型。用户问的是：“Can you suggest some new evidence-based practices to explore for healthcare decision-making?” 对传统 Familiarity 来说，这个问题会和大量 health-related memory 产生表面相似，因此它很容易先抓到 “effective and safe”“complement conventional treatments” 这类片段，甚至还可能混入 “I tried a new healthy recipe…” 这样的噪声内容。也就是说，快检索虽然能迅速找到“像”的内容，但这些内容未必真正决定用户想要什么。

问题的关键在于，这个用户真正重要的偏好，并不只是泛泛的 healthcare interest，而是更深层的倾向：他更认同 conventional medicine，也更看重 evidence-based practices。这些信息未必会在第一次 top-K 中完整出现，却恰恰决定了回答应该朝哪个方向展开。RF-Mem 的不同之处就在于，它不会把第一次命中的局部相似当作终点，而是会在熟悉度不足时继续启动 Recollection，顺着已有线索逐步扩展，把 “focus on conventional medicine”“evidence-based practices resonate” 这类更关键的记忆重新串联起来。

因此，RF-Mem 的稳定性并不是因为它在某个数据集上偶然更强，而是因为它更符合个性化记忆检索的本质。它检索到的不再只是“和问题沾边”的内容，而是能够真正支撑回答方向的证据链。也正因为如此，RF-Mem 的优势不会只体现在某一类 query 上，而是能在不同场景下都更稳地找到“真正重要的那段记忆”。

RF-Mem 还能和其他方法结合吗？

可以，而且这是论文里一个很亮眼的点。

论文专门做了 adaptive study，验证 RF-Mem 可以作为一个在线检索层，与不同类型的上游或离线模块灵活组合：

适配 MemoryBank 这类离线 index building 方法：RF-Mem 不替代已有 memory index，而是在检索阶段提供更灵活的双路径调用；
适配 HyDE 这类 query expansion 方法：即便 query 先被扩展，RF-Mem 仍能继续发挥 familiarity-recollection 的动态切换优势；
适配 Search-o1 这类 iterative RAG 方法：面对不断演化的新 query，RF-Mem 也可以作为底层 memory retrieval 模块持续工作。

这说明 RF-Mem 不是一个封闭方案，而是一个具有模块化与可插拔性的 retrieval controller。

总结

RF-Mem 最值得关注的地方，不只是提出了一个新检索技巧，而是它重新定义了个性化记忆检索的思路：突破传统“快检索”，在检索侧引入一种可以被动态唤起的“慢回忆”。

这种视角带来了两个直接收益：

在熟悉问题上保留高效率；
在复杂问题上获得更深、更完整的记忆证据。

对于个性化 LLM 来说，这意味着模型不再只是“把记忆库查一遍”，而是真正具备了一种更接近人类的“唤起记忆”能力。RF-Mem 也因此给出了一个很鲜明的判断：下一代个性化检索，不只是更快地找，而是更会想、更会回忆。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

在这里插入图片描述

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～