今天分享一篇来自大连理工大学、香港城市大学、华为和中国科学技术大学的最新工作 RF-Mem,发表于ICLR 2026。这篇工作关注个性化大模型中的一个关键问题:当用户历史越来越长时,模型到底该怎样从海量记忆里,准确找回“此时此刻最相关的那一段”? 现有方法大多停留在一次性向量 Top-K 的“快检索”范式中:它反应迅速、成本可控,但也天然偏向表层相似,面对含糊提问、长尾细节或需要串联多段经历的问题时,往往只能“捞到几片碎片”,甚至把无关记忆一并带上来。

RF-Mem 的核心想法很直观,也很有启发性:突破传统“快检索”,提出一种“慢回忆”机制。 借鉴人类记忆中的双加工理论,RF-Mem 不再把检索看成一次性命中,而是拆成两条路径。对于“很熟悉”的问题,直接走快速的 Familiarity 路径;对于“没那么熟悉”或“候选结果不确定”的问题,则启动更深入的 Recollection 路径,像人类回忆往事一样,顺着线索逐步重建上下文,把真正关键的证据一点点找出来。实验表明,RF-Mem 在 PersonaMem、PersonaBench 和 LongMemEval 三个基准上都取得了稳定提升,并在固定预算和延迟约束下持续优于 one-shot retrieval 与 full-context 方法


摘要

个性化大模型的效果,很大程度上取决于它能否从用户长期历史中检索出真正相关的记忆。现有记忆检索方法大多将问题简化为一次性相似度搜索,也就是一种“快检索”;或者粗暴地把全部历史塞进提示词中,但这两种方式都难以兼顾准确性、效率与可扩展性。RF-Mem 从认知科学中的 Recollection-Familiarity Dual-Process Theory 出发,指出用户记忆检索不应只停留在快速识别,还应具备一种在必要时被唤起的“慢回忆”能力。

Problem Figure

具体来说,RF-Mem 先通过一次 probe retrieval 得到初步候选,并用平均相似度分布熵共同衡量 familiarity signal。若问题与用户记忆高度匹配,就沿着 Familiarity 路径执行低开销的一步式 top-K 检索;若匹配不充分或候选分布存在较高不确定性,则切换到 Recollection 路径,通过聚类、query-centroid mixing 和多轮扩展,在 embedding space 中逐步重建更完整的证据链。这样的设计既避免了 full-context 的昂贵开销,也弥补了传统“快检索”在复杂个性化场景下“检得快但检不深”的不足。


主要创新点

  1. 提出面向个性化记忆检索的双路径框架:首次将认知科学中的 Familiarity-Recollection 双加工理论系统引入个性化 LLM 记忆检索,让检索过程具备“快速识别”和“深度回想”两种模式。
  2. 设计基于不确定性的自适应切换机制:不只看 top-K 分数高不高,还结合候选分布的熵来判断“模型到底熟不熟悉这个问题”,从而决定是一步检索还是进入多轮 recollection。
  3. 提出 stepwise recollection retrieval:在 Recollection 路径中,通过 KMeans 聚类候选记忆,并将 cluster centroid 与原 query 做混合更新,实现链式、渐进式的证据重构,而不是停留在一次向量匹配。
  4. 兼顾效果与效率:RF-Mem 不依赖额外的大规模生成过程,主要建立在向量检索与轻量聚类之上,因此既能提升复杂问题上的检索质量,也能保持接近 one-shot retrieval 的延迟。

方法

Method Figure

整体框架

RF-Mem 的整体流程可以概括为四步:

  1. 输入用户问题;
  2. Familiarity Selection:对用户记忆做一次探针检索,并根据平均相似度与熵判断当前问题在记忆库中的熟悉度;
  3. 执行对应的记忆检索路径,熟悉度高Familiarity Retrieval,熟悉度低走Recollection Retrieval
  4. 将检索出的记忆交给 LLM 生成最终回答。

这个框架的关键,不在于“检索得更多”,而在于根据问题难度和熟悉度,动态决定应该检索得多深


Familiarity Selection:先判断“这个问题熟不熟”

RF-Mem 并不默认所有问题都需要复杂推理,而是先通过一次轻量 probe retrieval 估计熟悉度。具体来说,它会对初步候选记忆的相似度分数进行统计,计算:

  • Mean Score:反映候选记忆整体上与当前问题有多接近;
  • Entropy:反映候选分布是否集中,还是存在明显不确定性。

直觉上,如果平均分高、而且候选分布很集中,那么说明模型已经“心里有数”,直接走 Familiarity 路径即可;相反,如果平均分偏低,或者虽然分数不算太差但候选分布很分散,那么说明当前问题可能涉及更深层的用户背景,这时就需要启动 Recollection。

这一设计对应了人类记忆中的经典现象:熟悉的问题可以快速认出,不熟悉的问题则需要慢慢回想。


Familiarity Retrieval:高熟悉度下的一步式命中

当 familiarity signal 足够强时,RF-Mem 采用 Familiarity 路径。这个阶段非常直接:基于 query embedding 与记忆 embedding 的相似度,返回 top-K 记忆片段。

它的优势在于:

  • 延迟低:基本保持 dense retrieval 的效率;
  • 开销小:不需要额外推理与扩展;
  • 适合“事实清晰、表达直接”的问题:例如基础信息、显式偏好、明显可匹配的个人背景。

换句话说,RF-Mem 并不是一味追求“更复杂的检索”,而是在该简单的时候果断简单。


Recollection Retrieval:低熟悉度下的“慢回忆”

真正体现 RF-Mem 新意的,是它的 Recollection 路径。

当系统判断当前问题“不够熟悉”时,它不会停在第一次检索结果上,而是进入一个 retrieve-cluster-mix-iterate 的循环过程:

  1. Retrieve:先取回一批候选记忆;
  2. Cluster:对候选记忆做聚类,找到若干语义中心;
  3. Mix:将当前 query 与 cluster centroid 做混合,得到新的 recollect query;
  4. Iterate:用新的 recollect query 继续检索,逐步扩展相关证据链。

这种做法很像人类回忆的过程:一开始也许只记得一个模糊线索,但顺着这个线索往下想,就会慢慢把事件背景、个人偏好和上下文关系一起带出来。

从上面的图也能更直观看到这一点。面对“Can you suggest some new evidence-based practices to explore for healthcare decision-making?” 这样的提问,传统 one-shot familiarity retrieval 虽然能抓到 “effective and safe”“complement conventional treatments” 这类局部相关片段,却也容易混入 “I tried a new healthy recipe…” 这样的噪声,最后导致答案偏移。相比之下,RF-Mem 的 recollection 路径会继续沿着线索向外扩展,把 “conventional medicine”“evidence-based practices resonate” 等更关键的上下文逐步串联起来,从而得到更完整、更可靠的个性化证据。

与传统“单跳检索”相比,Recollection 的优势在于:

  • 能更好处理模糊问题、上下文依赖问题、长尾偏好问题
  • 能逐步恢复跨轮次、跨时间分散存储的用户记忆;
  • 能在不读取 full context 的前提下,构造更完整的证据链。

RF-Mem 为什么比“全量记忆输入”更合理?

很多个性化系统的一个常见思路是:既然怕快检索漏掉关键信息,那就把用户历史全都给模型看。但问题在于,这样做在用户记忆变长后会迅速失控:

  • token 成本极高;
  • 上下文长度受限;
  • 噪声信息大量引入;
  • 模型难以判断什么才是真正关键的历史片段。

RF-Mem 的思路恰好相反:不是把所有记忆都暴力灌进去,也不是执着于更快地做一次检索,而是引入一种“慢回忆”机制,按需唤起关键记忆。 这也正是它在大规模长期记忆场景下仍然有效的核心原因。


实验

评测基准与设置

RF-Mem 在三个代表性任务上进行了系统评测:

  • PersonaMem:关注个性化生成,测试模型能否根据用户长期历史给出与当前 persona 一致的回答;
  • PersonaBench:关注个性化检索,强调从私人文档中找回与用户信息相关的记忆;
  • LongMemEval:关注长程记忆下的信息定位与检索能力。

实验同时覆盖了不同 memory corpus scale,以及多种 embedding backbone,包括 MiniLM、MPNet 与 BGE,说明 RF-Mem 的改进并不依赖某一个特定检索器。


主实验结论

RF-Mem 在三类基准上都展现出一致优势。

  1. PersonaMem,关注的是“检索出来的记忆,最终能不能真正帮助模型完成个性化生成”。可以看到,RF-Mem 在 32K、128K 和 1M 三种 memory corpus 下都取得了最高 overall accuracy,分别达到 0.6350、0.5394 和 0.4589。这说明 RF-Mem 的优势并不局限于小规模记忆,而是随着用户历史不断变长,依然能够稳定找到对回答最有帮助的记忆证据。与 Full Context 相比,RF-Mem 在效果更优的同时,输入 token 显著更少;尤其在 1M 规模时,Full Context 已经 out-of-context,而 RF-Mem 仍然能够稳定工作。与始终执行 Recollection 的方案相比,RF-Mem 保留了“慢回忆”的效果优势,同时显著降低延迟,例如在 32K 设定下,RF-Mem 的检索时间为 5.09ms,低于 Recollection 的 7.09ms

Method Figure

  1. PersonaBench,关注的是“能不能把真正相关的个性化记忆检回来”。在这项检索任务上,RF-Mem 在不同 embedding backbone 下都表现出很强的稳定性。无论是 Basic Info、Social Info,还是更难的 Preference Hard,RF-Mem 都能保持与最强基线相当甚至更优的 Recall@5 和 Recall@10。换句话说,它并不是只在某一类简单问题上有效,而是在不同类型的个人信息检索上都具备更稳的覆盖能力。

Method Figure

  1. LongMemEval,它更强调长程记忆场景下的检索能力。这里可以更清楚地看到 RF-Mem 的核心价值:单纯的 Familiarity 虽然快,但容易漏掉更深层、跨时间分散的信息;纯 Recollection 虽然更强,但代价也更高;而 RF-Mem 则在两者之间取得了更好的平衡,在保持较低延迟的同时,持续取得更高或更稳的 Recall 表现。

把三张图放在一起看,RF-Mem 的价值就非常明确了:它不只是“准确率更高”,而是系统性地证明了,在个性化记忆检索里,更好的方向不是一味追求更快,而是在必要时让系统具备“慢回忆”的能力。


为什么 RF-Mem 的提升更稳定?

Case Figure

RF-Mem 的提升之所以更稳定,关键在于它抓住了个性化记忆检索里最容易被忽略的一点:用户真正需要的,往往不是“最像问题的话”,而是“最能解释用户意图的那段记忆”。 传统方法通常默认一次 top-K 检索就足够了,但个性化场景往往并不是这样。很多问题表面上和多段用户历史都有关联,可真正决定回答方向的,往往藏在更深层、更分散的记忆线索里。需要记忆检索系统像人类回忆往事一样,顺着线索逐步重建上下文,把真正关键的证据一点点找出来。。

如图 healthcare case 就很典型。用户问的是:“Can you suggest some new evidence-based practices to explore for healthcare decision-making?” 对传统 Familiarity 来说,这个问题会和大量 health-related memory 产生表面相似,因此它很容易先抓到 “effective and safe”“complement conventional treatments” 这类片段,甚至还可能混入 “I tried a new healthy recipe…” 这样的噪声内容。也就是说,快检索虽然能迅速找到“像”的内容,但这些内容未必真正决定用户想要什么。

问题的关键在于,这个用户真正重要的偏好,并不只是泛泛的 healthcare interest,而是更深层的倾向:他更认同 conventional medicine,也更看重 evidence-based practices。这些信息未必会在第一次 top-K 中完整出现,却恰恰决定了回答应该朝哪个方向展开。RF-Mem 的不同之处就在于,它不会把第一次命中的局部相似当作终点,而是会在熟悉度不足时继续启动 Recollection,顺着已有线索逐步扩展,把 “focus on conventional medicine”“evidence-based practices resonate” 这类更关键的记忆重新串联起来。

因此,RF-Mem 的稳定性并不是因为它在某个数据集上偶然更强,而是因为它更符合个性化记忆检索的本质。它检索到的不再只是“和问题沾边”的内容,而是能够真正支撑回答方向的证据链。也正因为如此,RF-Mem 的优势不会只体现在某一类 query 上,而是能在不同场景下都更稳地找到“真正重要的那段记忆”。


RF-Mem 还能和其他方法结合吗?

可以,而且这是论文里一个很亮眼的点。

论文专门做了 adaptive study,验证 RF-Mem 可以作为一个在线检索层,与不同类型的上游或离线模块灵活组合:

  • 适配 MemoryBank 这类离线 index building 方法:RF-Mem 不替代已有 memory index,而是在检索阶段提供更灵活的双路径调用;
  • 适配 HyDE 这类 query expansion 方法:即便 query 先被扩展,RF-Mem 仍能继续发挥 familiarity-recollection 的动态切换优势;
  • 适配 Search-o1 这类 iterative RAG 方法:面对不断演化的新 query,RF-Mem 也可以作为底层 memory retrieval 模块持续工作。

这说明 RF-Mem 不是一个封闭方案,而是一个具有模块化与可插拔性的 retrieval controller


总结

RF-Mem 最值得关注的地方,不只是提出了一个新检索技巧,而是它重新定义了个性化记忆检索的思路:突破传统“快检索”,在检索侧引入一种可以被动态唤起的“慢回忆”。

这种视角带来了两个直接收益:

  • 在熟悉问题上保留高效率;
  • 在复杂问题上获得更深、更完整的记忆证据。

对于个性化 LLM 来说,这意味着模型不再只是“把记忆库查一遍”,而是真正具备了一种更接近人类的“唤起记忆”能力。RF-Mem 也因此给出了一个很鲜明的判断:下一代个性化检索,不只是更快地找,而是更会想、更会回忆。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

在这里插入图片描述

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐