Token省30倍,大模型Agents高效永久记忆框架开源:SimpleMem
当 LLM 开始“断片”

- 痛点 1:上下文膨胀
多轮对话里 80 % 是「好的」「哈哈」等低熵噪声,却被原封不动塞进历史,导致“中间丢失”现象。 - 痛点 2:反复推理=高成本
在线过滤型 Agent(ReadAgent、MemGPT)靠多次 LLM 调用筛信息,延迟 & Token 费用飙升。 - 痛点 3:小模型记不住,大模型用不起
全量历史 16 k+ tokens 一次推理,30 轮后 GPT-4o 也要“失忆”,成本 30× 于轻量方案。

SimpleMem是通过语义无损压缩来高效管理历史交互经验,解决现有记忆系统在长期交互场景下的冗余和效率问题。
三阶段“语义无损压缩”流水线

Fig.2 架构总览
① Semantic Structured Compression(压缩)
- 熵感知过滤:窗口内新实体占比 + 语义偏移度打分,低于 τ=0.35 直接丢弃。
- 上下文原子化:共指消解 + 时间戳归一化,把「他昨天去了那儿」变成「Bob 2025-07-12 去了 Starbucks」。
- 输出:独立、可解释的原子记忆单元,体积 ↓ 90 %。
② Recursive Memory Consolidation(整合)
- 三视角索引:
- Semantic:text-embedding-3-small
- Lexical:BM25
- Symbolic:时间、实体、主题
- 异步合并:语义相似 + 时间邻近 > 0.85 自动抽象成高阶模式,如“Sarah 常在早上喝咖啡”。
③ Adaptive Query-Aware Retrieval(检索)
- 查询复杂度估计:轻量分类器判断 LOW / HIGH,动态决定拿 k=[3,20] 条记忆。
- 混合打分:
S(q,m)=λ₁cos(embedding)+λ₂BM25+γ 符号约束 - 结果:单跳查询 3 条就够,多跳推理自动扩展到 20 条,Token 不浪费。
prompt

用 1/30 的成本做到 SOTA
在 LoCoMo 四任务平均 F1 提升 26.4 %,推理 Token 降到 1/30,构建速度比 Mem0 快 14×,检索延迟再降 33 %。


关键数字
- GPT-4.1-mini 上平均 F1:43.24(vs Mem0 34.20)
- 单轮 Token:531(vs LoCoMo 16 910)
- 3B 模型 + SimpleMem 直接跑赢 8B+基线

Fig.3 案例可视化

表3 效率对比

表4 消融实验
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)