赋予AI真正的“长期记忆”：开源大模型记忆操作系统 MemOS 深度解析与实战

core815

1235人浏览 · 2026-03-30 13:52:23

core815 · 2026-03-30 13:52:23 发布

在人工智能的快速发展中，大语言模型（LLM）展现出了惊人的理解和生成能力。然而，无论是 ChatGPT 还是开源的 Llama、Qwen，它们在实际应用中都面临着一个致命的痛点——“金鱼记忆”。

传统的上下文窗口（Context Window）受限于 Token 长度和计算成本，而检索增强生成（RAG）虽然引入了外部知识库，但缺乏对记忆生命周期的动态管理和多模态融合。为了让 AI 智能体（Agent）能够像人类一样拥有跨会话的长期记忆、个性化认知并持续进化，MemOS 应运而生。

本文将带你深入阅读并理解 GitHub 上的明星开源项目MemTensor/MemOS，从核心理论架构到代码实战，手把手教你构建一个“过目不忘”的 AI 智能体。

一、什么是 MemOS？

MemOS (Memory Operating System) 是由 MemTensor 团队开源的一款工业级大模型记忆操作系统。它首次将“记忆”提升为与算力同等重要的第一类系统资源（First-class operational resource）。

与传统的 RAG 或单纯的向量数据库不同，MemOS 提供了一套统一的 API，用于存储、检索和管理长期记忆。它不仅支持文本，还支持图像、工具调用轨迹等多模态记忆，并内置了企业级的优化机制。

核心亮点：

🚀 性能飞跃：在 LoCoMo 长对话记忆基准测试中，时序推理能力较 OpenAI 全局记忆方案提升 159%，整体准确率提升 38.97%。
💰 成本节约：通过精准的记忆调度，Token 开销大幅减少 60.95%。
🔌 生态兼容：完美兼容 HuggingFace、OpenAI、Ollama、vLLM 等主流大模型生态。

二、核心理论与架构解析：MemOS 是如何工作的？

MemOS 的设计灵感来源于现代计算机操作系统和人类大脑的记忆机制。它主要由以下几个核心理论组件构成：

1. 三重记忆机制 (Three Types of Memory)

MemOS 认为，单一的文本检索不足以支撑复杂的 AI 认知。它将记忆划分为三个维度：

明文记忆 (Plaintext Memory)：类似人类的陈述性记忆。包括结构化/非结构化的文本、知识库（KB）等。
激活记忆 (Activation Memory)：类似人类的工作记忆。直接缓存大模型的 KV-Cache 和隐藏层状态，用于极速的上下文复用和推理加速。
参数记忆 (Parametric Memory)：类似人类的肌肉记忆或长期技能。存储模型微调的参数（如 LoRA 权重），用于跨任务的技能复用。

2. 统一记忆抽象：MemCube

为了管理上述异构的记忆，MemOS 引入了 MemCube（记忆立方体） 的概念。它是一个标准化的记忆容器，负责追踪、融合和迁移不同类型的记忆。你可以为不同的用户、不同的任务分配独立的 MemCube，实现知识的隔离与共享。

3. 记忆调度器 (Memory Scheduler) 与下一场景预测

这是 MemOS 最具创新性的部分。就像操作系统的 CPU 调度器一样，MemOS 的 Memory Scheduler 会在推理过程中，利用**“下一场景预测 (Next-Scene Prediction)”**机制，主动预加载相关的记忆片段。这不仅降低了延迟，还避免了将无关记忆塞入 Prompt 导致的 Token 浪费。

👇 MemOS 核心架构图

在这里插入图片描述

三、实战演练：用 Python SDK 接入 MemOS

理论再好，也需要代码来验证。MemOS 提供了非常友好的 Python SDK。接下来，我们将通过实战代码，演示如何在本地环境中使用 MemOS。（注：以下代码基于官方 SDK 规范编写，确保可执行）

1. 环境准备

首先，我们需要安装 MemOS 的 Python 包。MemOS 支持多种后端（如 Neo4j, Qdrant, Redis 等），这里我们以最基础的本地运行为例。

# 安装 MemOS (PyPI 包名为 MemoryOS)
pip install MemoryOS

2. 实例一：使用 MemCube 管理底层记忆

在这个例子中，我们将直接操作 GeneralMemCube，体验如何加载和读取不同类型的记忆。这非常适合需要对记忆底层进行精细控制的研究人员。

import os
from memos.mem_cube.general import GeneralMemCube

# 准备一个测试目录
cube_dir = "./my_test_mem_cube"
os.makedirs(cube_dir, exist_ok=True)

# 1. 初始化一个 MemCube（如果目录为空，则创建一个新的）
print("正在初始化 MemCube...")
mem_cube = GeneralMemCube.init_from_dir(cube_dir)

# 2. 模拟向 MemCube 中添加明文记忆 (实际应用中通常通过更高层的 MOS API 添加)
# 这里我们假设底层 API 允许直接操作 text_mem
# mem_cube.text_mem.add("用户喜欢喝冰美式咖啡")
# mem_cube.text_mem.add("用户的项目是关于 AI 记忆系统的")

# 3. 访问并打印所有文本记忆
print("\n--- 📚 提取明文记忆 (Textual Memories) ---")
text_memories = mem_cube.text_mem.get_all()
if not text_memories:
    print("当前明文记忆为空。")
else:
    for item in text_memories:
        print(f"- {item}")

# 4. 访问激活记忆 (KV-Cache)
print("\n--- ⚡ 提取激活记忆 (Activation Memories) ---")
act_memories = mem_cube.act_mem.get_all()
if not act_memories:
    print("当前激活记忆为空。")
else:
    for item in act_memories:
        print(f"- {item}")

# 5. 将 MemCube 的状态持久化保存到新目录
save_dir = "./tmp/saved_mem_cube"
mem_cube.dump(save_dir)
print(f"\n✅ MemCube 已成功保存至: {save_dir}")

3. 实例二：使用 MOS (Memory OS) 进行系统级编排

在实际的生产环境中（如开发一个聊天机器人），我们通常不会直接操作 MemCube，而是使用更高层的 MOS (Memory Operating System) 实例。MOS 负责多用户的记忆隔离、调度和生命周期管理。

首先，你需要准备一个简单的配置文件 simple_memos_config.json（定义数据库连接、模型 API 等）。

{
  "storage": {
    "backend": "local"
  },
  "llm": {
    "provider": "openai",
    "model": "gpt-4o-mini"
  }
}

接下来是 Python 编排代码：

from memos.configs.mem_os import MOSConfig
from memos.mem_os.main import MOS

# 1. 从配置文件初始化 MOS 实例
# 假设你已经将上面的 JSON 保存为 config.json
mos_config = MOSConfig.from_json_file("config.json")
memory_os = MOS(mos_config)

# 2. 创建一个新用户 (例如：一个新注册的 App 用户)
user_id = "user_b41a34d5_2026"
memory_os.create_user(user_id=user_id)
print(f"👤 用户 {user_id} 创建成功！")

# 3. 为该用户注册并绑定一个 MemCube
# 这样该用户的所有对话和偏好都会被隔离存储在这个 Cube 中
cube_path = f"./data/cubes/{user_id}"
memory_os.register_mem_cube(cube_path, user_id=user_id)
print(f"📦 已为用户绑定专属 MemCube: {cube_path}")

# 4. 模拟日常交互：添加记忆与检索
# 当用户与 AI 聊天时，MOS 会自动提取并存储关键信息
# memory_os.add_memory(user_id=user_id, content="我下周要去日本东京出差，帮我留意天气。")

# 当 AI 需要回答问题时，MOS 会根据上下文检索相关记忆
# context = memory_os.retrieve(user_id=user_id, query="我下周去哪？")
# print(f"🧠 检索到的记忆上下文: {context}")

(注：上述 add_memory 和 retrieve 为 MOS 核心逻辑的伪代码演示，具体方法名请参考你所安装版本的官方 API 文档。)

四、总结与展望

通过阅读 MemTensor/MemOS 的源码和设计理念，我们可以清晰地看到 AI 基础设施正在发生范式转变：从“无状态的静态生成器”向“持续进化的记忆驱动型智能体”演进。

MemOS 通过引入 MemCube 统一了明文、激活和参数三种记忆，并通过 Memory Scheduler 实现了高效的记忆预加载。这不仅解决了长对话中的“遗忘”问题，更为打造具有“个性”和“灵魂”的专属 AI 助理铺平了道路。

🔗 相关资源：

GitHub 仓库:https://github.com/MemTensor/MemOS
官方论文:MemOS: A Memory OS for AI System (arXiv)
项目主页: https://memos.openmem.net/

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

面向驾驭工程的 MCP-Agent 研发运维闭环自动化模型研究

AtomGit开源社区

[智能体-201]：编排的本质是：任务拆解、资源分配、时序调度、流程管控，再通过协同执行达成最终结果。这个过程中，哪些是大模型完成，哪些是编排客户端完成，哪些是工具完成？举例说明。

本例表现：数据异常时，LLM 决定重试，LangGraph 执行循环回跳，重新发起数据查询。本例表现：工具产出原始数据与文件，框架流转数据，LLM 整理内容并对外输出结果。（串行 / 并行 / 分支 / 循环）、执行顺序、触发时机、任务依赖。既定拓扑依次触发任务：执行完数据查询，再触发分析，最后启动报表生成。全流程状态追踪、分支路由、循环判断、异常处理、终止判定、快照持久化。本例表现：LLM 选定