agent的记忆详解

江上清风山间明月

415人浏览 · 2026-05-22 15:54:18

江上清风山间明月 · 2026-05-22 15:54:18 发布

在这里插入图片描述

文章目录

1. “把所有历史都发进去”其实并不可行
- Memory Retrieval（记忆检索）
2. 现代 agent 的“记忆”更像 RAG
Memory = RAG over conversation history
3. 真正改变模型的是“训练”而不是“上下文”
- Prompt Memory ≠ Parametric Memory
4. 你可以把 LLM 看成“CPU”
5. 但也有一种“伪记忆”会让人误解
6. 未来可能会出现“真正在线学习”的 agent

现在绝大多数“大模型记忆”系统，本质上不是模型参数发生了变化，而是：

下一次调用模型时，系统把“过去的信息”重新组织后塞进上下文（prompt/context）里。

所以从工程角度看：

模型本体（权重）没变
推理机制没变
真正变的是：
- prompt 变长了
- system prompt 变复杂了
- 检索出来的信息更多了
- agent 在调用模型前做了更多“前处理”

你可以把现在很多 agent 的“记忆”理解成：

用户历史数据存数据库
        ↓
需要时检索
        ↓
拼接成 prompt
        ↓
再发给 LLM

这就是现在主流的 memory architecture。

但这里有几个非常关键的细节，很多人会忽略。

1. “把所有历史都发进去”其实并不可行

“记忆越多，下次发给模型的内容就越多”

这个方向是对的，但现实里不能无限增长，因为：

context window 有上限
token 很贵
太长会导致注意力稀释
长上下文会降低推理质量

所以真正的 agent 不会无脑拼接全部历史。

而是会做：

Memory Retrieval（记忆检索）

类似：

当前问题是什么？
过去哪些信息相关？
哪些应该召回？

例如：

用户问：

“我之前说过的数据库方案还能扩展吗？”

系统不会把：

旅游聊天
健身计划
点外卖记录

全塞进去。

而是：

embedding 检索
rerank
summarize
memory compression

最后只取“数据库相关”的历史。

2. 现代 agent 的“记忆”更像 RAG

很多 agent memory 本质就是：

Memory = RAG over conversation history

即：

历史对话向量化
存入向量数据库
当前 query 做相似度召回
把召回结果拼 prompt

所以：

“记忆”其实更接近：

retrieval system
knowledge system

而不是人类那种“神经记忆”。

3. 真正改变模型的是“训练”而不是“上下文”

“后面的大模型没有任何变化”

对于一次普通对话来说，确实如此。

因为：

ChatGPT 不会因为你聊了几句就更新参数
Transformer 权重不会在线学习
推理结束后模型状态就丢失了

所以：

Prompt Memory ≠ Parametric Memory

区别非常大：

类型	是否改模型参数	持久性
上下文记忆	否	临时
RAG记忆	否	外部存储
微调/Fine-tune	是	持久
Continual Learning	是	持久

现在绝大多数 agent 用的是前两种。

4. 你可以把 LLM 看成“CPU”

这是个非常准确的类比：

LLM 本身像 CPU
Memory system 像 RAM / Disk
Agent orchestration 像操作系统

真正复杂的部分越来越不在模型内部。

而在：

memory
tool use
retrieval
planning
workflow
multi-agent coordination

所以很多人会发现：

“为什么换个 prompt 效果差这么多？”

因为：
真正决定能力的，
很多时候已经是：

外部系统
上下文工程
agent架构

而不仅仅是模型参数。

5. 但也有一种“伪记忆”会让人误解

有时候你会觉得：

“它好像真的记住我了”

其实可能是：

system prompt 有用户 profile
长期 memory 被注入
assistant summary 被注入
conversation state 被恢复

模型并不知道“自己以前见过你”。

它只是：

看到了关于你的文字描述

然后继续做 next-token prediction。

6. 未来可能会出现“真正在线学习”的 agent

现在主流 LLM 基本：

inference-only
stateless

但研究方向已经在做：

continual learning
test-time training
self-modifying agents
neural memory
recurrent memory transformers

如果未来成熟：

模型参数可能真的会被长期更新。

那时：
“记忆”就不仅是 prompt engineering 了。

一句话总结：

绝大多数 agent 的“记忆”并不是模型学会了什么，而是系统把过去的信息重新检索、压缩、组织后，再作为上下文喂给同一个大模型。真正变化的大多是外部 memory system，而不是模型本身。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

鸿蒙Electron框架下鸿蒙PC——命枢AI生命体征分析系统技术实现详解

AtomGit开源社区

静态资源加速+WAF防护，构建企业安全加速一体化架构

AtomGit开源社区

AI检测率多少算合格：技术判定标准与实操校准指南详解

AtomGit开源社区

所有评论(0)

查看更多评论

江上清风山间明月

@yikezhuixun

已为社区贡献6条内容

agent的记忆详解

江上清风山间明月

文章目录

1. “把所有历史都发进去”其实并不可行

Memory Retrieval（记忆检索）

2. 现代 agent 的“记忆”更像 RAG

Memory = RAG over conversation history

3. 真正改变模型的是“训练”而不是“上下文”

Prompt Memory ≠ Parametric Memory

4. 你可以把 LLM 看成“CPU”

5. 但也有一种“伪记忆”会让人误解

6. 未来可能会出现“真正在线学习”的 agent

所有评论(0)

温馨提示：您尚未绑定手机号

江上清风山间明月