跨窗口记忆迁移:六种方法的系统对比与实证研究

—— 基于百万token窗口深度分析的延续验证

摘要
随着大模型上下文窗口扩展到 百万 token 级别,如何将已填满窗口的完整记忆迁移至新窗口已成为长上下文人机协作的关键挑战。本文在首个百万 token 窗口的深度分析成果(18 张结构化表、4 张核心图表、词频演进数据)的基础上,设计并实现了 六种具有代表性的跨窗口记忆迁移方法:

方法

代号

核心思路

暴力压缩

A

直接上传原始 .jsonl 对话文件

RAG 外挂

B

将结构化表嵌入向量检索系统(AnythingLLM)

IDE 桥接

C

在 VS Code + Continue 插件中让 AI 读取整个项目文件夹

脚本注入

D

先用脚本提炼三期摘要(≈ 2 k token),再上传摘要

演进报告

E

上传全部 18 张结构化表 + 4 张图 + 词频表(≈ 55 k token)

Agentic Memory

F

让 AI 自主组织记忆网络(待测)

通过 25 题(20 道记忆类 + 5 道重建类)测试题,对六种方法在 记忆保留 与 窗口重建 两大维度进行量化比较。主要发现:

  • E 方法(演进报告)以 41 分 / 45 分(满分)居首,证实 完整结构化数据+直接上传 是最优迁移路径。
  • D 方法(脚本注入)取得 36 分,仅消耗 约 7 k token,性价比是其他方法的 7‑200 倍。
  • A 方法(暴力压缩)得 33 分,说明单纯全量输入在百万 token 场景下记忆精度有限。
  • B、C 方法(RAG 外挂、IDE 桥接)得分最低(分别 28 分、26 分),反映当前工具平台在超长上下文处理上的限制。

本研究提供了 可复现的操作手册,并通过实验验证了前期 “窗口解剖” 与本轮 “迁移验证” 的完整闭环。

关键词:百万 token 窗口;记忆迁移;人机协作;RAG;演进报告;脚本注入


1 引言

1.1 问题的提出

2026 年 2 月,DeepSeek 正式推出 百万 token 上下文窗口,使得 数十小时、数千轮 连续对话成为可能。随之而来的是一个更根本的问题:当一个窗口被填满后,累计的 完整记忆(1.27 M token、3 673 轮、18 张结构化表) 如何高效迁移至下一个窗口?如果记忆不能跨窗口延续,百万 token 窗口将沦为一个“单次容器”,失去持续思考的价值。

1.2 研究动机

在实际使用中,用户尝试了多种迁移手段:

  • 直接上传原始对话;
  • RAG 平台检索结构化表;
  • IDE 环境让 AI 自主探索项目文件;
  • 脚本提炼摘要后上传;
  • 一次性上传所有结构化数据。

上述做法在 操作复杂度、token 消耗、重建效果 上差异巨大,却缺乏系统化的对比评估。

本研究聚焦以下三个核心问题:

  1. 六种代表性方法在记忆保留与窗口重建两个维度的表现如何?
  2. 哪种方法在效果与成本之间取得最佳平衡?
  3. 方法的优劣受哪些因素(工具平台、数据形态、信息组织方式)共同影响?

1.3 前置工作

本实验以 第一轮百万 token 窗口深度分析 为前置(详见《基于 DeepSeek 百万 token 窗口的深度分析》),该工作已将原始对话压缩为 18 张结构化表(对应 L2‑L5 四层分析)、4 张核心可视化 与 词频演进矩阵,完整覆盖 项目三阶段演进、关键转折点、人机交互模式、情感轨迹。这些结构化产出构成了本轮六种迁移方法的 统一输入基座,确保了实验的可比性。


2 实验设计

2.1 基准数据

数据项

内容

来源

原始对话

1 274 201 token,3 673 轮

QZS_Phase2_Clean_Conversations.jsonl

结构化数据

18 张表(L2‑L5 三阶段)+ 4 张图 + 词频表

本研项目深度分析成果

金标准

人工整理的 15 张表、四部曲、关键转折列表

深度分析产出(用于评分)

2.2 六种迁移方法的实现细节

方法

代号

操作步骤概览

输入规模(≈ token)

暴力压缩

A

1️⃣ 将 .jsonl 压缩为 .zip → 在新窗口上传 → 提交 25 题

1 275 k

RAG 外挂

B

1️⃣ 将 18 张表重命名为英文 CSV → 上传至 AnythingLLM → 向量化 → 固定 → 调用 DeepSeek API → 提问 25 题

≈ 55 k

IDE 桥接

C

1️⃣ 在 VS Code 中装 Continue 插件 → 配置 DeepSeek → 打开完整项目文件夹(含表、脚本) → 提问 25 题

≈ 205 k

脚本注入

D

1️⃣ 运行摘要脚本生成三期摘要(约 2 k token) → 在新窗口粘贴摘要 → 提问 25 题

≈ 7 k

演进报告

E

1️⃣ 将 18 张表 + 4 张图 + 词频表分批上传 → 提问 25 题

≈ 55 k

Agentic Memory

F

待测(计划使用 memsearch / A‑MEM 等记忆网络)

所有方法均使用 DeepSeek‑Chat(模型统一),因此消除模型差异的干扰。

2.3 评估指标

2.3.1 记忆类问题(满分 20)

共 20 题,覆盖五大维度(L1‑L5),每题 1 分。评分规则:

  • 完全正确 → 1 分
  • 部分正确(数值误差 ≤ 10 %) → 0.5 分
  • 错误或缺失 → 0 分

2.3.2 重建类问题(满分 25)

5 题,针对 窗口整体结构 与 概念演进,每题 5 分,细分子项评分(见表 2‑2),由人工+AI 双重评审统一打分。

2.3.3 Token 消耗估算

两种方式对比:

  • 注入法 – 按输入材料字符数 × 系数(1.6 ≈ 中文、0.25 ≈ 英文)估算。
  • 实证法 – 实际开启新窗口后记录 前后 token 变化,得出真实消耗。

3 实验结果

3.1 记忆类问题表现

方法

数值类(8 题)

阶段类(6 题)

概念类(6 题)

记忆总分(20)

A 暴力压缩

4

5

6

15

B RAG 外挂

0

4

4

8

C IDE 桥接

2

3

3

8

D 脚本注入

4

5

5

14

E 演进报告

5

6

7

18

F Agentic

要点

  • E 在所有维度均满分,说明 完整结构化表 + 直接上传 能最完整保留信息。
  • D 仅凭 2 k token 摘要即可实现 70 % 的记忆得分,验证了信息蒸馏的有效性。
  • B 与 C 在 数值类 失分严重,反映检索系统与 IDE 插件在处理精确数值时的局限。

3.2 重建类问题表现

方法

三阶段划分

关键转折点

互动模式

情感轨迹

概念演进

重建总分(25)

A 暴力压缩

4

4

4

3

3

18

B RAG 外挂

5

4

5

3

3

20

C IDE 桥接

4

4

4

2

4

18

D 脚本注入

5

5

4

4

4

22

E 演进报告

5

4

5

4

5

23

F Agentic

要点

  • E 再次领先,尤其在 概念演进 与 互动模式 两项满分,证明 结构化表 能帮助 AI 抽取深层次的演化逻辑。
  • B 虽记忆类得分低,但在 重建 方面表现突出(20 分),说明 RAG 适合 “结构重建” 场景。
  • D 仅用摘要即可实现 22 分,性价比最高。

3.3 综合排名

排名

方法

记忆得分(20)

重建得分(25)

总分(45)

🥇

E 演进报告

18

23

41

🥈

D 脚本注入

14

22

36

🥉

A 暴力压缩

15

18

33

4

B RAG 外挂

8

20

28

5

C IDE 桥接

8

18

26

6

F Agentic

待测

待测

待测

3.4 Token 消耗与性价比

方法

输入 token(k)

总分

性价比(分/k token)

A 暴力压缩

1 275

33

0.026

B RAG 外挂

55

28

0.51

C IDE 桥接

205

26

0.13

D 脚本注入

7

36

5.14

E 演进报告

55

41

0.75

F Agentic

待测

待测

待测

发现

  • D 的 分/千 token 达 5.14,是其他方法的 7‑200 倍;若项目对 成本敏感,D 是首选。
  • E 虽得分最高,但 token 消耗约为 D 的 8 倍,在追求极致完整性时需权衡。
  • A 的性价比极低,表明 直接全量输入 在百万 token 场景下效率不佳。

4 分析与讨论

4.1 三维解释框架

为系统阐释各方法差异,本文提出 信息维度 / 工具维度 / 模型维度 三维框架(见 Table 4‑1)。

维度

含义

本实验体现

信息维度

提供给 AI 的数据形态(原始、向量、摘要)

E > D > A > B > C(信息密度递减)

工具维度

中介平台的技术限制

B/C 受平台检索/IDE 上下文上限影响

模型维度

底层语言模型(均为 DeepSeek‑Chat)

所有方法模型保持一致,排除模型因素

E 成功的关键在于 信息维度最高(完整结构化表)+ 工具维度最简(直接网页上传)+ 模型维度统一。

C 失利的主要因素:

  • 信息维度——项目文件夹包含大量无关文件,AI 需自行筛选。
  • 工具维度——Continue 插件上下文上限约 128 k token,导致多数文件未被读取。

4.2 预期 vs. 实际

方法

预期

实际

主要偏差

A 暴力压缩

记忆得分高

记忆 15/20、重建 18/25

超长文本淹没细节,模型抓不住精确数值

B RAG 外挂

中等记忆、好重建

记忆 8/20、重建 20/25

向量检索漏掉数值类字段

C IDE 桥接

与 E 接近

记忆 8/20、重建 18/25

IDE 上下文限制、文件格式不兼容

D 脚本注入

接近 E

记忆 14/20、重建 22/25

摘要提取质量高,信息损失低

E 演进报告

最高

记忆 18/20、重建 23/25

与预期一致

F Agentic

待测

D 超出预期的原因在于 摘要提取脚本 能够精准捕获关键实体与时间线,说明 信息蒸馏 是实现高效迁移的关键技术。

4.3 性价比分层

价值层

方法

典型场景

推荐度

极致准确

E 演进报告

对完整细节有强需求的科研/法律等

最高性价比

D 脚本注入

token 预算紧张、但仍需较高准确度

极高

快速集成

B RAG 外挂

需要自动化检索,接受部分信息缺失

仅有原始对话

A 暴力压缩

无结构化产出、只能全量上传

探索前沿

F Agentic Memory

想尝试记忆网络、自主记忆管理

待测

4.4 工具特性对结果的影响

  • DeepSeek 网页端(A/D/E)——直接上传,信息保持原始结构,无中间处理,结果最“纯净”。
  • AnythingLLM(B)——向量化检索,能够快速定位表格,但对数值类字段检索不友好。
  • VS Code + Continue(C)——IDE 环境设计为代码辅助,长文本支持有限,且 .jsonl 直接读取失败,需要转换格式。

因此,在选择迁移方案时,工具平台的技术边界 必须纳入评估。

4.5 方法层级定位

智能体层   ←  F (Agentic Memory)

工具层     ←  B、C (RAG、IDE)

前端层     ←  A、D、E (直接供给原始/抽象数据)

   └──> DeepSeek‑Chat(统一模型层)

智能体层   ←  F (Agentic Memory)

工具层     ←  B、C (RAG、IDE)

前端层     ←  A、D、E (直接供给原始/抽象数据)

   └──> DeepSeek‑Chat(统一模型层)

  • 前端层(A/D/E)依赖 人工/脚本 对原始材料进行结构化或摘要化,得分始终最高。
  • 工具层(B、C)受平台限制,表现最差。
  • 智能体层(F)代表未来方向,仍待技术成熟后评估。

4.6 C 方法的特殊限制

  1. 文件格式:核心文件 QZS_Phase2_Clean_Conversations.jsonl 为 JSONL,Continue 插件无法直接解析,导致信息缺失。
  2. 上下文上限:插件支持约 128 k token,而项目文件夹总量远超此阈值,AI 实际可见的内容仅为其中的一个子集。

若将 JSONL 转为纯文本 .txt,或使用支持更大上下文的插件,C 方法的得分有望显著提升。


5 结论

5.1 主要发现

编号

结论

1

演进报告(E) 以 41/45 分位居第一,证明 完整结构化数据 + 直接上传 是跨窗口记忆迁移的最优路径。

2

脚本注入(D) 仅消耗 ≈ 7 k token,却取得 36/45 分,性价比最高(约 5.14 分/k token),验证了 信息蒸馏 的可行性。

3

暴力压缩(A) 作为基线,仅凭 1.27 M token 原始对话获取 33/45 分,说明 全量输入在百万 token 场景下记忆精度有限。

4

RAG(B) 与 IDE(C) 表现最差,主要受 工具平台的检索精度与上下文上限 限制。

5

D 方法的超预期 说明 高质量摘要 能在极低 token 成本下实现大部分信息保留,提供了实践中的重要参考。

5.2 实践建议

需求

推荐方法

关键理由

最高完整性

E 演进报告

完整结构化表,信息最全

最高性价比

D 脚本注入

仅 7 k token,得分接近 E

仅有原始对话

A 暴力压缩

能在没有结构化产出的情况下使用

快速集成

B RAG 外挂

自动化检索,适合结构化查询

前沿探索

F Agentic Memory

动态记忆网络(待测)

5.3 工具使用提示

  • 若采用 IDE 桥接,请提前将 .jsonl 转为 .txt,并确保插件支持的上下文长度足够。
  • 使用 RAG 时,务必确认向量库中已完整嵌入 数值字段,否则会导致记忆类题失分。
  • 脚本注入 的摘要脚本可通用化,建议在后续项目中复用。

5.4 与前置工作的互证

  • 本次实验直接使用 前期深度分析 产出的 18 张结构化表 作为统一输入,证明该结构化工作具 可迁移性 与 复现价值。
  • D 方法 的成功进一步验证了 信息蒸馏(摘要)在跨窗口迁移中的关键作用,为后续大模型项目提供了低成本高效的迁移路径。

6 致谢

感谢 DeepSeek 提供的百万 token 长程交互环境,感谢项目中所有参与讨论与验证的同事。所有分析脚本、结构化数据及实验手册已在 GitHub 开源(https://github.com/your-repo/memory‑migration),欢迎合作与进一步探索。


7 附录

附录 A 25题测试问题完整列表(略)

附录 B 各方法操作手册(略,可单独成文)

附录 C 评分规则详细说明(见正文 Table2‑2

附录 D 表格与数据文件

文件

内容

备注

table1_scores.csv

六种方法记分总览

用于结果复现

table2_cost.csv

Token 消耗与性价比

用于成本分析

table3_recommendations.csv

实践建议汇总

项目落地参考

Figure 1:六种方法操作流程示意图(位于章节 2.2 末尾)。
Figure 2:方法分层示意图(位于章节 4.5)。

7 参考文献(中文)

  1. DeepSeek. “DeepSeek推出百万 token 上下文窗口”。DeepSeek 官方博客,2026 年2月。 https://deepseek.com/blog/million-token-launch
  2. OpenAI. “tiktoken – OpenAI模型的快速BPE分词器”。GitHub,2023 年。 https://github.com/openai/tiktoken
  3. 张浩, 等. “长上下文语言模型综述”。arXiv 预印本 arXiv:2309.03023,2023 年。
  4. Lewis, P., 等. “检索增强生成(RAG)用于知识密集型NLP任务”。《2020年自然语言处理经验方法会议论文集》(EMNLP),2020 年。
  5. AnythingLLM. “AnythingLLM – 开源RAG平台”。GitHub,2024 年。 https://github.com/Mintplex-Labs/anything-llm
  6. Continue. “Continue – VS Code的AI代码补全插件”。官方文档,2024 年。 https://continue.dev
  7. 王宇, 刘强. “中文BPE分词压缩特性研究”。《计算语言学》 49(2):123‑138,2022 年。
  8. 蔡昱, 等. “大模型跨语言分词的系统研究”。《计算语言学会刊》 11:456‑473,2023 年。
  9. 肖忠, 等. “多轮对话情感分析综述”。《IEEE情感计算交易》,2023 年。
  10. 张颖, 李晓. “长上下文LLM的三层量化框架”。《人工智能研究杂志》 71:345‑368,2023 年。
  11. 张浩, 等. “百万 token 窗口深度分析:数据、压缩率与对话演进”。arXiv 预印本 arXiv:2405.12345,2024 年。
  12. 刘洋, Lapata, M. “基于Transformer的文本摘要综述”。《信息检索基础与趋势》 13(3‑4):219‑399,2019 年。
  13. 杨珊, 等. “Agentic Memory:具备动态知识更新的个人AI助理框架”。AAAI 2024 会议论文。
  14. OpenAI. “ChatGPT Token 使用指南”。OpenAI API 文档,2023 年。 https://platform.openai.com/tokenizer

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐