在这里插入图片描述


现在绝大多数“大模型记忆”系统,本质上不是模型参数发生了变化,而是:

下一次调用模型时,系统把“过去的信息”重新组织后塞进上下文(prompt/context)里。

所以从工程角度看:

  • 模型本体(权重)没变

  • 推理机制没变

  • 真正变的是:

    • prompt 变长了
    • system prompt 变复杂了
    • 检索出来的信息更多了
    • agent 在调用模型前做了更多“前处理”

你可以把现在很多 agent 的“记忆”理解成:

用户历史数据存数据库
        ↓
需要时检索
        ↓
拼接成 prompt
        ↓
再发给 LLM

这就是现在主流的 memory architecture。


但这里有几个非常关键的细节,很多人会忽略。


1. “把所有历史都发进去”其实并不可行

“记忆越多,下次发给模型的内容就越多”

这个方向是对的,但现实里不能无限增长,因为:

  • context window 有上限
  • token 很贵
  • 太长会导致注意力稀释
  • 长上下文会降低推理质量

所以真正的 agent 不会无脑拼接全部历史。

而是会做:

Memory Retrieval(记忆检索)

类似:

  • 当前问题是什么?
  • 过去哪些信息相关?
  • 哪些应该召回?

例如:

用户问:

“我之前说过的数据库方案还能扩展吗?”

系统不会把:

  • 旅游聊天
  • 健身计划
  • 点外卖记录

全塞进去。

而是:

  • embedding 检索
  • rerank
  • summarize
  • memory compression

最后只取“数据库相关”的历史。


2. 现代 agent 的“记忆”更像 RAG

很多 agent memory 本质就是:

Memory = RAG over conversation history

即:

  • 历史对话向量化
  • 存入向量数据库
  • 当前 query 做相似度召回
  • 把召回结果拼 prompt

所以:

“记忆”其实更接近:

  • retrieval system
  • knowledge system

而不是人类那种“神经记忆”。


3. 真正改变模型的是“训练”而不是“上下文”

“后面的大模型没有任何变化”

对于一次普通对话来说,确实如此。

因为:

  • ChatGPT 不会因为你聊了几句就更新参数
  • Transformer 权重不会在线学习
  • 推理结束后模型状态就丢失了

所以:

Prompt Memory ≠ Parametric Memory

区别非常大:

类型 是否改模型参数 持久性
上下文记忆 临时
RAG记忆 外部存储
微调/Fine-tune 持久
Continual Learning 持久

现在绝大多数 agent 用的是前两种。


4. 你可以把 LLM 看成“CPU”

这是个非常准确的类比:

  • LLM 本身像 CPU
  • Memory system 像 RAM / Disk
  • Agent orchestration 像操作系统

真正复杂的部分越来越不在模型内部。

而在:

  • memory
  • tool use
  • retrieval
  • planning
  • workflow
  • multi-agent coordination

所以很多人会发现:

“为什么换个 prompt 效果差这么多?”

因为:
真正决定能力的,
很多时候已经是:

  • 外部系统
  • 上下文工程
  • agent架构

而不仅仅是模型参数。


5. 但也有一种“伪记忆”会让人误解

有时候你会觉得:

“它好像真的记住我了”

其实可能是:

  • system prompt 有用户 profile
  • 长期 memory 被注入
  • assistant summary 被注入
  • conversation state 被恢复

模型并不知道“自己以前见过你”。

它只是:

看到了关于你的文字描述

然后继续做 next-token prediction。


6. 未来可能会出现“真正在线学习”的 agent

现在主流 LLM 基本:

  • inference-only
  • stateless

但研究方向已经在做:

  • continual learning
  • test-time training
  • self-modifying agents
  • neural memory
  • recurrent memory transformers

如果未来成熟:

模型参数可能真的会被长期更新。

那时:
“记忆”就不仅是 prompt engineering 了。


一句话总结:

绝大多数 agent 的“记忆”并不是模型学会了什么,而是系统把过去的信息重新检索、压缩、组织后,再作为上下文喂给同一个大模型。真正变化的大多是外部 memory system,而不是模型本身。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐