论文:Memory for Autonomous LLM Agents: Mechanisms, Evaluation, and Emerging Frontiers
作者:Pengfei Du
arXiv2603.07670 · 2026-03-08 · cs.AI
License:CC BY 4.0
覆盖范围:2022 ~ 2026年初 LLM Agent 记忆系统全景研究
关键词:LLM Agent / Memory Architecture / RAG / MemGPT / Reflexion / Agentic Memory


写在前面:为什么这篇综述值得花一晚上读完

如果你正在做 LLM Agent 相关工作——不管是企业内部 Agent 平台、开源 Agent 框架,还是个人项目(比如我自己的 OpenClaw)——这篇综述给出了一个颠覆工程优先级的实证结论

"有记忆"和"没记忆"之间的差距,往往比不同 LLM 底座之间的差距还要大。

—— Pengfei Du, arXiv:2603.07670

这句话意味着什么?意味着我们花在选模型、调 Prompt 上的时间可能严重高估了 ROI,而真正决定 Agent 产品差异化的——记忆架构——却经常只用一个下午草草设计。这就是这篇综述最大的价值:它告诉你应该把工程预算重新分配到哪里。

本文是对这篇 2026 年权威综述的深度解读,包含:

  • 三维分类法的每个维度详解(含每个子类别的代表系统)
  • 5 类机制家族完整对照(Context Compression / RAG / Reflection / Hierarchical / Policy-Learned)
  • Write-Manage-Read 闭环的形式化定义(POMDP 视角)
  • 4 个评估基准详细对比(LoCoMo / MemBench / MemoryAgentBench / MemoryArena)
  • 10 个开放挑战的工程含义
  • 架构演进路径与生产环境实践建议

目录


一、核心命题:记忆是 Agent 的 belief state

1.1 论文的最强论断

              Agent 性能差距来源
                    ↓
    ┌───────────────┴────────────────┐
    │                                │
"有/无 记忆" 差距            不同 LLM backbone 差距
        ↑                                ↑
       更大                              较小

这个论断的实证支撑来自论文 Section 7 的多个量化实验:

  • Generative Agents 去除反思机制 → 48 小时内退化为重复响应
  • Voyager 去除技能库 → tech-tree 速度降低 15.3 倍,独特物品数减少 3.3 倍
  • MemoryArena 用纯长上下文替代主动记忆 → 任务完成率从 80%+ 降至约 45%

这些数据告诉我们:模型再强,没有合适的记忆架构兜底,长期任务都会塌方。

1.2 为什么记忆 = belief state

论文借用 POMDP(Partially Observable MDP,部分可观察马尔可夫决策过程)框架,把记忆形式化为 Agent 的"信念状态":

# 在每个时间步 t
# 1. Read 操作 - 决定动作时检索记忆
a_t = π(x_t, R(M_t, x_t), g_t)
#       ↑    ↑              ↑
#     当前   读出的相关记忆   目标
#     输入

# 2. Write/Manage 操作 - 行动后更新记忆
M_{t+1} = U(M_t, x_t, a_t, o_t, r_t)
#           ↑                        ↑
#         旧记忆                   奖励/反馈

关键洞察U 不是简单的 append——它必须执行摘要、去重、优先级评分、矛盾消解、删除。这才是记忆系统真正的工程难度所在。


二、Write-Manage-Read 闭环:形式化定义

这是整篇论文最有工程落地价值的框架。

2.1 三阶段定义

阶段 含义 工程现状 难度
Write 写入观察、结果、反思 大多数系统做得不错 ⭐⭐
Manage 维护、剪枝、压缩、合并、矛盾消解 几乎被普遍忽视 ⭐⭐⭐⭐⭐
Read 检索并注入上下文 大多数系统做得不错 ⭐⭐⭐

💡 作者最强观点Manage 才是工程上最难、最容易失败的环节,也是系统退化的真正源头。

大部分 RAG 系统只做 Write + Read,根本没有 Manage——这就是为什么 demo 跑得好、生产环境用半年后效果断崖式下降的根本原因。

2.2 五大设计目标(彼此存在张力)

       ┌──────────┐
       │ Utility  │ ← 记得越多越好
       └──────────┘
            ⚖
       ┌──────────┐
       │Efficiency│ ← Token/延迟/存储成本
       └──────────┘
            ⚖
       ┌──────────┐
       │Adaptivity│ ← 跟随世界变化更新
       └──────────┘
            ⚖
       ┌──────────┐
       │Faithful- │ ← 不要改写真相
       │   ness   │
       └──────────┘
            ⚖
       ┌──────────┐
       │Governance│ ← PII/PHI 合规
       └──────────┘

任何记忆架构都是这五个目标之间的取舍,没有银弹。

2.3 五大设计张力

# 张力 典型表现
1 Utility vs Efficiency 记得越全,token 越贵
2 Utility vs Adaptivity 有用的记忆终将过时
3 Adaptivity vs Faithfulness 更新越多,越容易失真
4 Faithfulness vs Governance 准确记忆 vs 用户要求删除
5 All vs Enterprise Compliance 全部目标 vs 企业治理审计

三、三维分类法详解

论文最大的理论贡献——用三维坐标系统一所有 Agent 记忆设计

3.1 维度一:时间范围 Temporal Scope

借用认知心理学中 Tulving 的记忆分类法:

子类别 论文定义 类比 代表系统
Working Memory 当前 context window 内容 Baddeley 中央执行+缓冲模型 LLM context
Episodic Memory 具体经历,带时间戳、重要性、嵌入 人类对昨晚晚餐的回忆 Generative Agents 的观察流
Semantic Memory 抽象、去情境化的知识 人类知道"巴黎是法国首都" 用户画像、Profile
Procedural Memory 可复用技能与可执行计划 人类骑自行车的肌肉记忆 Voyager 的 JavaScript 技能库

实践映射

工程实现示例(以个人 Agent 为例):

Working   → 当前对话上下文(< 128k tokens)
Episodic  → 每日 standup 日志、interaction trace 数据库
Semantic  → 用户偏好 markdown 文件、向量化知识库
Procedural → AGENTS.md 行为规范、自定义 Skill 文件

3.2 维度二:表示基底 Representational Substrate

子类别 特点 代表系统 适用场景
Context-resident text 摘要、scratchpad、CoT 痕迹 Chain-of-Thought 短任务、零基础设施
Vector-indexed stores 嵌入 + ANN 检索 FAISS / DPR 大规模文档检索
Structured stores SQL/KV/知识图谱 ChatDB 需要精确查询
Executable repositories 代码库、工具定义 Voyager 技能库 程序性记忆
Hybrid stores 多种组合 MemGPT 生产环境常态

关键判断

# 决策树:选哪种 substrate?

if 数据量 < 10MB and 不需要持久化:
    return "Context-resident text"   # 最简单

elif 主要做相似性检索:
    return "Vector-indexed stores"   # 最通用

elif 数据有强关系结构:
    return "Structured stores"       # 最精确

elif 记忆是"如何做某事":
    return "Executable repositories" # 程序性

else:
    return "Hybrid stores"           # 真实场景

3.3 维度三:控制策略 Control Policy

这是 2026 年最活跃的研究方向。

子类别 说明 代表系统 工程成熟度
Heuristic control 硬编码规则(top-k、定期摘要、按天过期) 传统 RAG ⭐⭐⭐⭐⭐ 生产可用
Prompted self-control 记忆操作暴露为工具,LLM 决策 MemGPT ⭐⭐⭐ 部分可用
Learned control 记忆操作作为策略动作端到端优化 Agentic Memory (AgeMem) ⭐⭐ 实验阶段

MemGPT 风格的 Prompted Self-Control 示例

# 暴露给 LLM 的记忆工具
tools = [
    {
        "name": "core_memory_append",
        "description": "Append text to core memory (always in context)",
        "params": {"text": "string"}
    },
    {
        "name": "core_memory_replace",
        "description": "Replace text in core memory",
        "params": {"old": "string", "new": "string"}
    },
    {
        "name": "archival_memory_search",
        "description": "Search archival storage with semantic query",
        "params": {"query": "string", "k": "int"}
    },
    {
        "name": "archival_memory_insert",
        "description": "Insert text into archival storage",
        "params": {"text": "string"}
    }
]

# LLM 在对话过程中自主决定何时调用
# 优点:灵活、可解释
# 缺点:依赖模型的元认知能力

四、五类机制家族对照

这是论文 Section 6 的核心内容——把所有现有系统归到 5 类(外加 1 类 Parametric Memory)。

4.1 Family 1: Context-Resident Compression(上下文驻留压缩)

核心思路:所有信息都留在 context window 里,靠压缩节省空间。

典型策略

  • 滑动窗口(Sliding Window)
  • 滚动摘要(Rolling Summary)
  • 层次化摘要(Hierarchical Summary)
  • 任务条件压缩(Task-conditioned Compression)

代表系统

  • Self-Controlled Memory System (Liang et al., 2023)
  • Claude Code / Kiro CLI 的对话自动压缩

致命风险

风险 描述 后果
Summarization drift 反复摘要导致与真实历史脱节 几轮后 Agent 就忘了最初的需求
Attentional dilution 即使 1M tokens 也会 “lost in the middle” 中间信息被忽略

适用场景:单轮任务、< 4 小时短会话。不适合长期 Agent。

4.2 Family 2: Retrieval-Augmented Stores(检索增强存储)

核心思路:外部存储 + 按需检索(典型的 RAG 路线)。

代表系统

系统 年份 亮点
RAG Lewis 2020 开山之作
RETRO Borgeaud 2022 2 万亿 token 检索语料
Self-RAG Asai 2024 自适应检索时机
RET-LLM Sun 2024 结构化三元组记忆

关键工程问题

Q1: Chunk 粒度多大合适?
    → 512 token 是 baseline,但要根据领域调
    → 过小:上下文丢失;过大:相似性失效

Q2: 用户原始 query 适合做检索吗?
    → 不适合。需要 query rewriting(论文称 "query reformulation")
    → 例:用户问"那个怎么样?" → 改写为"项目 X 的进度怎么样?"

Q3: top-k 设多少?
    → 不是越大越好。AgeMem 证明 RL 训练后 Retrieve 频率反而下降 0.36

4.3 Family 3: Reflective Self-Improvement(反思与自我改进)

核心思路:Agent 自己写"事后复盘",把经验固化为可复用记忆。

代表系统

系统 关键设计 实测效果
Reflexion (Shinn 2023) 自然语言事后复盘 HumanEval 91% pass@1(GPT-4 基线 80%)
Generative Agents (Park 2023) 观察流 → 聚类 → 反思 retrieval 评分 = recency + relevance + importance
ExpeL (Zhao 2024) 对比成功/失败轨迹提取"经验法则"
Think-in-Memory (Liu 2024a) 先回忆后思考

Generative Agents 的检索打分公式

def memory_retrieval_score(memory, query, current_time):
    # 三因素加权
    recency = decay_factor ** (current_time - memory.timestamp)
    relevance = cosine_similarity(memory.embedding, query.embedding)
    importance = memory.importance_score  # 由 LLM 评分 1-10

    # 论文用的简单加权(实际可以学习权重)
    score = (
        0.5 * recency +
        0.3 * relevance +
        0.2 * importance
    )
    return score

最大风险:自我强化错误

实际案例(来自 Towards Data Science 解读):

Nick Lawson 的 OpenClaw 把 SmartThings 标记为"故障"——从此忽略其全部数据。实际上只是电池没电。Agent 用错误的反思加固错误的判断。

缓解策略reflection grounding — 要求每条反思必须引用具体情景证据。

4.4 Family 4: Hierarchical Virtual Context(层级虚拟上下文)

核心思路:把操作系统的虚拟内存思想搬到 LLM。

代表系统

MemGPT (Packer 2024):

┌─────────────────────────────────────┐
│  Main Context (RAM)                 │  ← 高速、容量小、贵
│  - System Instructions              │
│  - Core Memory (persona, human)     │
│  - Conversation                     │
├─────────────────────────────────────┤
│  Recall Storage (Disk)              │  ← 中速、容量中、便宜
│  - 历史对话全文                      │
├─────────────────────────────────────┤
│  Archival Storage (Cold)            │  ← 低速、容量大、最便宜
│  - 长期事实、文档                    │
└─────────────────────────────────────┘
         ↑
    Agent 自管"分页"

作者(Nick Lawson)的实测评价

MemGPT 论文与仓库已近 3 年,作者至今未见到生产环境实际使用——分层维护成本过高,编排错误是静默失败

这是一个值得警惕的信号:学术上漂亮,工程上未必能落地。

4.5 Family 5: Policy-Learned Management(策略学习式管理)

核心思路:用 RL 训练 Agent 决定何时 store/retrieve/update/summarize/discard。

代表系统Agentic Memory (AgeMem) (Yu 2026, arXiv:2601.01885)

5 个可学习的操作算子:
   - store      (写入新记忆)
   - retrieve   (检索旧记忆)
   - update     (更新现有条目)
   - summarize  (压缩冗余)
   - discard    (主动遗忘)

训练流程:
   Stage 1: 监督预热
   Stage 2: 任务级 RL(结果奖励)
   Stage 3: Step-level GRPO(中间步骤奖励传播)

效果:
   - 平均提升 +49.59% vs no-memory baseline
   - 比 Mem0 高 4.82 pp
   - Filter 调用频率从 0.02 → 0.31
   - Retrieve 反而下降 0.36(存得更准)

作者评价:论文称"新兴前沿",目前还没有可用工具链和成熟生产案例

4.6 额外 Family: Parametric Memory(参数化记忆)

代表系统MemLLM (Modarressi 2024)

思路:把记忆直接嵌入模型权重(通过持续微调或 LoRA adapter)。

优势:检索零延迟。劣势:更新困难、可解释性差、容易灾难性遗忘。


五、4 个评估基准深度对比

基准 年份 核心特点 关键数据
LoCoMo (Maharana et al.) 2024 超长期对话记忆 最多 35 session、300+ 轮、9k-16k tokens;3 任务:事实 QA / 事件摘要 / 对话生成;人类远超模型
MemBench (Tan et al.) 2025 事实型 vs 反思型记忆 participation vs observation 两种模式;三维指标:effectiveness / efficiency / capacity;ACL 2025 Findings
MemoryAgentBench (Hu et al.) 2025 基于认知科学 四种能力:accurate retrieval / test-time learning / long-range understanding / selective forgetting当前无系统能掌握全部四项
MemoryArena (He et al.) 2026 多 session 相互依赖 agentic 任务 4 领域:web navigation / preference-constrained planning / progressive information search / sequential formal reasoning;LoCoMo 接近饱和的模型在此降至 40-60%

特征对照表

基准 多 session 多轮 Agentic 任务 遗忘 多模态
LoCoMo
MemBench
MemoryAgentBench
MemoryArena

论文推荐的"实用四层度量栈"

metrics = {
    # Layer 1: 业务指标
    "task_effectiveness": ["success_rate", "completion_rate"],

    # Layer 2: 记忆本身的质量
    "memory_quality": [
        "recall@k",        # 检索召回率
        "precision@k",     # 检索准确率
        "consistency",     # 跨 session 一致性
        "freshness"        # 时效性
    ],

    # Layer 3: 工程指标
    "efficiency": [
        "tokens_per_turn",
        "p50_latency_ms",
        "p99_latency_ms",
        "storage_cost_per_user"
    ],

    # Layer 4: 治理合规
    "governance": [
        "pii_leak_rate",
        "delete_request_compliance",
        "audit_trail_completeness"
    ]
}

关键洞察:MemoryArena 在 LoCoMo 接近饱和的模型上把分数打回 40-60%,说明当前评估方法严重高估了 Agent 记忆能力——只要任务设计成"多 session 相互依赖",所有现有系统都会暴露问题。


六、八大应用场景与量化效应

论文 Section 7 整理了记忆在 8 个领域的差异化价值:

6.1 个人助手与对话 Agent

系统 亮点
MemoryBank (Zhong 2024) 基于 Ebbinghaus 遗忘曲线建模记忆衰减
MemGPT 多 session 演进式用户建模

核心张力personalization without overstepping(个性化又不越界)

6.2 软件工程 Agent

系统 亮点
ChatDev (Qian 2024) CEO/CTO/programmer/tester 角色扮演,共享记忆
MetaGPT (Hong 2024) 标准化文档(PRD、设计、代码)作为共享记忆

挑战structural scale(索引数千文件的工程难度)

6.3 开放世界游戏 Agent

系统 量化效应
Voyager 3.3× 独特物品数15.3× tech-tree 进度
JARVIS-1 (Wang 2024b) 多模态记忆
Ghost in the Minecraft (Zhu 2023)

6.4 科学推理与发现

记忆作为假设账本与证据累积器

挑战uncertainty-aware memory——需维护置信度,并随证据更新。

6.5 多 Agent 协作

系统 亮点
AutoGen (Wu 2023) 微软对话框架
CAMEL (Li 2024) 角色扮演协作
ProAgent (Zhang 2024a) 主动协作

挑战:共享 vs 私有边界、并发写入一致性

6.6 工具使用与 API 编排

系统 亮点
AgentBench (Liu 2023) 8 个环境
DERA (Nair 2023) 医疗对话
Toolformer (Schick 2024) 自学工具使用

独特危险schema drift——API 升级导致存储的使用模式失效。

6.7 跨领域记忆迁移

系统 亮点
Tree of Thoughts (Yao 2024) 可受益于跨领域程序记忆

6.8 实证消融(量化记忆重要性)

最震撼的三个数据

  1. Generative Agents 去除反思 → 48 小时内退化为重复响应
  2. Voyager 去除技能库 → tech-tree 速度降低 15.3 倍
  3. MemoryArena 用纯长上下文替代主动记忆 → 任务完成率从 80%+ 降至约 45%

这些数据告诉你:记忆架构不是 nice-to-have,是 must-have。


七、10 个开放挑战与未来方向

论文 Section 9 列出了 10 个开放挑战,是未来 1-3 年的研究热点:

7.1 Principled Consolidation(有原则的整合)

问题:当前系统在**囤积(hoard)遗忘(amnesia)**之间摇摆。

借鉴:神经科学的 hippocampal 重放机制

提议Dual-buffer consolidation(双缓冲整合)

class DualBufferMemory:
    def __init__(self):
        self.hot_buffer = []      # 试用期:新记忆先进这里
        self.long_term = {}        # 长期存储

    def write(self, item):
        self.hot_buffer.append({
            "item": item,
            "trial_score": 0,
            "trial_start": now()
        })

    def consolidate(self):
        """周期性整合:从 hot → long_term"""
        for entry in self.hot_buffer:
            quality = self._validate_quality(entry)
            dedup = self._check_dedup(entry)
            importance = self._estimate_importance(entry)

            if quality and not dedup and importance > THRESHOLD:
                self.long_term[entry.id] = entry["item"]

        # 清空 hot buffer
        self.hot_buffer = []

开放问题

  • 如何在没有 future-sight 的情况下估计记忆重要性
  • 何时触发整合
  • 如何保证安全关键记录被保留

7.2 Causally Grounded Retrieval(因果接地的检索)

问题:当前向量检索回答"什么最相似",无法回答"什么导致了这个"。

提议:在标准向量索引上添加轻量级因果元数据层

class CausalAwareMemory:
    def write(self, item, causal_parents=None):
        """写入时记录因果父节点"""
        item.causal_parents = causal_parents or []
        self.index.add(item)

    def retrieve(self, query, mode="hybrid"):
        if mode == "similarity":
            return self.vector_search(query)
        elif mode == "causal":
            seed = self.vector_search(query, k=1)[0]
            return self.traverse_causal_chain(seed)
        elif mode == "hybrid":
            sim_results = self.vector_search(query)
            causal_results = self.traverse_causal_chain(sim_results[0])
            return self.rerank(sim_results + causal_results)

应用价值:根本原因分析、反事实规划、多步调试。

7.3 Trustworthy Reflection(可信反思)

问题:反思机制可能加固错误(confirmation bias)。

所需机制

机制 描述
外部验证 与 ground truth 对比
不确定性量化 无确认证据时置信度衰减
对抗探测 用反例定期挑战已有信念
过期策略 未验证反思设保留期

7.4 Learning to Forget(学习如何遗忘)

遗忘是 feature 而非 bug。

当前手段(粗糙):硬时间过期、容量驱逐。

研究方向

  • 安全合规约束下的选择性遗忘策略
  • 当记忆已通过 in-context learning 或微调影响模型行为时,需要 machine unlearning

7.5 Multimodal and Embodied Memory(多模态与具身记忆)

应用场景:机器人、混合现实。

新增维度

  • 空间记忆
  • 实时延迟约束
  • 跨模态检索(文本查询找视觉记忆,反之亦然)

早期代表:JARVIS-1 (Wang 2024b)

7.6 ~ 7.10 其余挑战速览

# 挑战 一句话总结
7.6 Multi-agent Memory Governance 访问控制、并发写入共识、跨 agent 知识转移
7.7 Memory-efficient Architectures 稀疏检索、压缩 session 向量、Recurrent Memory Transformers、adapter 注入
7.8 Deeper Neuroscience Integration spreading activation、reconsolidation theory、Ebbinghaus + spaced repetition
7.9 Foundation Models for Memory Management 跨任务训练的通用记忆控制器(AgeMem 是第一步)
7.10 Standardized Evaluation 呼吁 GLUE 风格的共享 leaderboard

八、给工程师的架构演进路径

论文 Section 10 给出一个保守渐进的工程演进路径:

Pattern A → B → C 演进路线

┌────────────────────────────────────────────┐
│  Pattern A: Context-Only                   │
│  - 只用 context window                     │
│  - 无外部存储                              │
│  适用:原型、单轮、< 4 小时会话             │
└────────────────────────────────────────────┘
              ↓ 数据证明 "失忆" 影响业务
┌────────────────────────────────────────────┐
│  Pattern B: Context + Retrieval Store      │
│  - 向量数据库做语义检索                    │
│  - 简单 heuristic 控制(top-k、TTL)       │
│  - 充分埋点观测                            │
│  适用:90% 生产场景                        │
└────────────────────────────────────────────┘
              ↓ 数据证明启发式不足以应对长任务
┌────────────────────────────────────────────┐
│  Pattern C: Tiered Memory + Learned Control│
│  - 多层存储(hot / warm / cold)           │
│  - RL 训练的策略控制器                     │
│  - AgeMem 风格                             │
│  适用:长期 Agent、多 session 高频任务     │
└────────────────────────────────────────────┘

关键原则

从 Pattern B 起步,充分埋点观测,仅在数据证明学习控制能显著改进目标工作负载后才升级到 Pattern C。

不要一上来就上 MemGPT 或 AgeMem,那是过度设计。

工程师 5 条实操建议

来自 Towards Data Science 作者 Nick Lawson 的解读

  1. 从显式的时间尺度入手 —— 别建"一个记忆系统",按需逐个建(episodic → semantic → …)
  2. 认真对待 Manage 阶段 —— 提前定义压缩、合并、晋升规则
  3. 保留原始情景记录 —— 别只信摘要,raw 数据是回滚的依据
  4. 为反思型记忆加版本号 / 时间戳 —— 解决矛盾的关键
  5. 把程序性记忆当代码管 —— AGENTS.mdMEMORY.md、人格文件全部纳入源码控制

实践参考:OpenClaw 的实现映射

论文概念 OpenClaw 实现 商用对应
Working Memory 当前会话上下文 Claude Code / Kiro CLI
Episodic Memory 每日 standup log 文件 AWS AgentCore Short-term
Semantic Memory MEMORY.md AgentCore Long-term / 向量 DB
Procedural Memory AGENTS.md / SOUL.md (多数团队仅停留在 system prompt 层)
Hierarchical Virtual Context 未采用(成本高) MemGPT
Reflective Self-Improvement “dream” 流程 Reflexion / ExpeL

九、总结:核心 takeaway

三个反直觉的认知

  1. "有/无 记忆"的差距 > 不同 LLM 的差距

    • 工程预算应从"调模型"重新分配到"调记忆"
  2. Manage 才是真正的瓶颈,不是 Read

    • 90% RAG 系统失败在 Manage 阶段(无压缩、无矛盾消解、无遗忘)
  3. 遗忘是 feature 不是 bug

    • “记得越多越好” 是错的,“该记的记,该忘的忘” 才对

适用人群

强烈推荐读全文的人

  • 正在做 Agent 平台 / Agent 框架的工程师
  • 在评估 RAG / MemGPT / Mem0 选型的架构师
  • 想理解 Agent 长期任务退化原因的产品经理
  • 做学术研究、需要文献综述基础的研究生

⚠️ 可以只读 Section 6 + 10 的人

  • 已经在用某种记忆系统、想看是否要升级
  • 关心实战案例胜过理论框架

可以跳过的人

  • 只做单轮问答、不涉及 Agent
  • 完全不想动当前系统的人

一句话记住

2026 年最高杠杆的 Agent 工程干预,不是换模型,是设计记忆系统。


十、延伸阅读

论文家族

类型 论文 arXiv 关键
本文综述 Memory for Autonomous LLM Agents 2603.07670 必读
Policy-learned 代表 Agentic Memory (AgeMem) 2601.01885 必读
Harness 自进化 Self-Harness 2606.09498 互补阅读
Hierarchical 代表 MemGPT 2310.08560 经典
Reflection 代表 Reflexion 2303.11366 经典
Generative Agents Generative Agents 2304.03442 经典
LLM-based Agent 总览 LLM-based Autonomous Agents Survey 2308.11432 配合阅读

关于作者

路易乔布斯,AI 战略咨询师 & OpenClaw 创始人,专注 LLM Agent 工程化落地。已发表 30+ 篇 AI 实战文章,覆盖 Agent 架构、Skills 体系、自进化框架、记忆系统等主题。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐