基于 DeepSeek 百万 token 窗口的 3673 轮对话实录

T_Wang_Lab

317人浏览 · 2026-03-16 08:19:57

T_Wang_Lab · 2026-03-16 08:19:57 发布

从技术攻坚到心源框架：一个百万 token 窗口的真实项目深度分析

—— 基于 DeepSeek 百万 token 窗口的 3673 轮对话实录

摘要
本文基于 DeepSeek 百万 token 上下文窗口的真实对话记录（1 274 201 tokens，3 673 轮），系统性地分析了长达数十小时的人机协作过程。研究构建了 L1 基础数据层 → L2 项目演进层 → L3 关键转折层 → L4 互动模式层 → L5 情感记忆层的五层分析框架，完整呈现了一位非 AI 专业背景的研究者（医学、心理学与人文领域）在完全依赖云端免费模型的条件下，从环境搭建到心源框架的完整工程轨迹。

主要发现如下：

技术投入曲线显示，405 次命令／脚本集中在中期（第 1225–2448 轮），与英文占比高峰（43.4 %）完全吻合；
三阶段演进从前期环境搭建（数据库、入库）→中期技术攻坚（向量化、Agent 开发）→后期认知提炼（心源、贝叶斯），词频数据完整记录了话题迁移；
关键转折点包括 0xd6 编码危机、GPU 不认 Docker、双库并行决策与心源框架诞生等，其中凌晨 3:30 的“重装注册表”成为情感锚点；
人机协作模式呈现“你主导方向、我配合执行、你打断循环”的独特机制：用户的问题提问、决策指令与情绪表达驱动 AI 的技术响应与情感强化，形成完整的互动死循环；
窗口末端的三次回顾（两次应指令，一次 AI 主动生成）验证了百万 token 窗口的长程记忆能力。

本文不仅为钱钟书作品可计算化提供了完整方法论框架，也为 AI/IT 非专业用户利用大模型完成复杂工程提供可复现的案例模板。全部分析脚本与结构化数据已开源，欢迎合作者联系获取。

关键词：百万 token 窗口；人机协作；心源向量；长程记忆；深度内容分析

1. 引言

1.1 研究背景

2026 年 2 月，DeepSeek 正式推出百万 token 上下文窗口，使得连续数十小时的对话成为可能。本文作者本人属于非 AI 专业背景（医学、心理学与人文领域），在完全依赖云端免费模型的条件下，以钱钟书作品可计算化为目标，于单一百万 token 窗口内完成了工作站环境配置 → 数据库搭建 → 向量化处理 → 心源框架设计的完整工程。

本过程产生了 3 673 轮对话，累计 1 274 201 token，包括 18.5 万句钱钟书文本以及 405 次可执行的脚本/命令。对话完整保存为 .jsonl 格式，为长窗口人机协作提供了极为稀缺的全尺寸样本。

1.2 研究问题

本文旨在回答以下问题：

在一个完整的百万 token 窗口中，项目演进的完整轨迹是什么样的？
技术投入、语言分布与情感标记之间存在何种关联？
人机协作的互动模式具体如何？谁主导、谁配合、谁打断？
百万 token 窗口的长程记忆能力如何体现？
非技术背景用户如何利用大模型完成复杂工程？

1.3 研究目标与方法概述

数据源：QZS_Phase2_Clean_Conversations.jsonl（3 673 轮，1 274 201 token）。

分析框架：构建 L1–L5 五层框架，具体见下表。

层级	主要分析项	数据来源
L1 基础数据层	整体画像（token、字符、命令次数）	tiktoken 统计、表 1‑3、405 次命令
L2 项目演进层	三阶段技术轨迹	词频统计 + 轮次标记
L3 关键转折层	困境与突破	关键词搜索 + “你的回忆”验证
L4 互动模式层	人机协作机制	互动样本抽样 + 词频左证
L5 情感记忆层	情绪轨迹	情感词搜索 + 上下文提取

图示提示：窗口概览图（总轮次 3 673、总句数 185 741、总 token 1.274 万、总命令 405 次）将在附录提供。

2. 整体画像：对话的「物理体征」

2.1 角色分配

整体 token 分配显示 USER（即「你」）贡献 15.2 %，ASSISTANT（即「AI」）贡献 84.8 %，形成典型的「人提问 + AI 输出」模式。

图 1：角色分配饼图（USER 15.2 %，ASSISTANT 84.8 %）。

2.2 语言分布

将对话等分为前期（1‑1224 轮）、中期（1225‑2448 轮）与后期（2449‑3673 轮），三期的中文、英文与「其他」字符占比分别如下：

阶段	中文占比	英文占比	其他占比
前期（1‑1224）	40.4 %	27.7 %	31.9 %
中期（1225‑2448）	21.1 %	43.4 %	35.5 %
后期（2449‑3673）	49.7 %	28.3 %	22.0 %

中期英文占比高峰（43.4 %）正对应技术攻坚期（向量化、Agent 开发、Docker 配置）。

图 2：三期语言分布堆栈图（中文 / 英文 / 其他）。

2.3 命令（脚本）密度

以每 200 轮为单位统计命令/脚本次数，呈现「前期上升 → 中期高峰 → 后期下降」的时间曲线。关键数据如下（仅列出峰值与趋势）：

轮次区间	命令次数
1‑200	28
401‑600	42
801‑1000	45
1201‑1400	48
1401‑1600（峰值）	52
2801‑3000	12
3401‑3673	6

峰值出现在第 1401‑1600 轮，正对应中期技术攻坚最密集阶段。

图 3：每 200 轮命令密度曲线图。

3. 三阶段演进：从环境搭建到心源框架

3.1 核心概念词频演变（全局视图）

概念	前期频次	中期频次	后期频次
向量	495	548	966
模型	449	298	780
心景	0	0	637
心源	0	0	297
贝叶斯	0	0	315
元认知	0	0	252
agent	0	482	0
Docker	0	361	0
工具	277	618	317
代码	0	263	210
标记	393	0	551
数据库	367	429	256
入库	362	322	391
编码	144	345	170
框架	0	0	215
方法	192	0	410

表 1：核心概念词频（CSV 附件）。

3.2 前期（1‑1224 轮）：环境搭建与数据入库

高频词汇「数据库」「入库」「标记」「编码」指向 PostgreSQL 安装、《谈艺录》入库、0xd6 编码问题等任务。典型对话片段如下：

第 24 轮 – AI 提供 qian_zhongshu_notes 表的 SQL 建表脚本。
第 79 轮 – 使用者上传《谈艺录》PDF 处理脚本。
第 143 轮 – 使用者回顾前一天的代码，讨论迁移方案。

此阶段的核心成果是：完成 PostgreSQL+pgvector 环境搭建，将《谈艺录》《管锥编》等核心著作入库，累计 18.5 万句。

3.3 中期（1225‑2448 轮）：技术攻坚与 Agent 开发

高频词汇「向量」「agent」「Docker」「工具」「代码」「编码」指向双向量库跑通、Agent 系统开发、Docker 配置等任务。典型对话片段：

第 160 轮 – AI 提供《管锥编》向量化脚本。
第 178 轮 – AI 根据表结构调整入库脚本。
第 182 轮 – AI 修复页码抓取逻辑。
第 192 轮 – AI 提供第五册入库脚本。

此阶段的核心成果是：完成 BGE‑zh 与 BGE‑M3 双向量库生成，开发 QianTools 工具集与 QianAgent 系统，搭建研究面板，并开始心源概念的讨论。

3.4 后期（2449‑3673 轮）：心源框架与方法论提炼

高频词汇「向量」「模型」「心景」「心源」「贝叶斯」「元认知」「框架」指向心源向量、情境‑心理界面、方法论提炼等任务。典型对话片段：

第 312 轮 – AI 提出「心源标记」概念。
第 388 轮 – AI 讨论「情境‑心理界面」。
第 392 轮 – AI 规划工具链扩展。
第 412 轮 – 使用者提出用 Word 文件入库的思路。

此阶段的核心成果是：确立心源框架，构建心景界面工具，完成三次回顾与窗口总结。

4. 关键转折点：技术困境与突破

阶段	转折事件	具体情境	情感锚点
前期	0xd6 编码危机	编码错误导致中文显示错乱，排查半天无果，尝试 VPN、环境变量、编码设置均失败	凌晨 3:30 重装 PostgreSQL 注册表，成功后的「释然」成为唯一情感锚点
中期	GPU 不认 Docker	Docker 容器无法识别 GPU，模型只能跑在 CPU 上，速度慢数十倍	安装 nvidia-container-toolkit 并使用 --gpus all 参数解决，标志对 Docker 底层机制的突破
中期	双库并行决策	主机跑 BGE‑zh，Docker 内跑 BGE‑M3，形成跨语言检索基础	形成「双库」策略，提升向量检索效率
后期	心源框架诞生	心源概念首次出现并迅速深化，从「心源标记」到「心景界面」再到「元认知三层」与贝叶斯模型	末端的三次回顾（两次依指令，一次 AI 主动）验证了百万 token 窗口的长程记忆能力

图 4：关键转折点时间线（含 0xd6 编码、GPU‑Docker、双库、心源框架）。

4.1 用户主导的「打断」机制

在技术攻坚过程中，使用者经常使用「不对、等等、不是」等词汇主动打断 AI 的连续回复，迫使 AI 重新审视问题方向。此机制在三期的出现频次分别为：

阶段	「不对」次数	「等等」次数	「不是」次数
前期	8	3	12
中期	5	2	8
后期	2	1	3

打断词的下降趋势反映了使用者与 AI 之间默契度的提升：随着项目深化，AI 能更精准捕捉使用者意图，减少了不必要的打断。

5. 人机协作模式：你主导，我配合

5.1 问题提问模式

使用者的提问词汇高频词包括「问题」(624 次)、「为什么」(314 次)、「怎么」(174 次)，贯穿全过程。AI 的响应模式是提供方案 + 代码 + 解释。

阶段	典型提问	AI 回应类型
前期	「这个怎么弄？」	详细解释 + 代码
中期	「请修改脚本」	直接提供修改版
后期	「为什么这样设计？」	讨论框架 + 方法论

表 2：问题 → AI 响应映像。

5.2 决策指令与打断

用户的决策指令常以「应该」(56 次)、「先」(多次)、「不对」(多次) 出现。每当 AI 陷入「方案 → 失败 → 再方案」的循环时，使用者会以「不对」或「等等」打断，迫使 AI 暂停并重新审视。例如第 79 轮，使用者说「不对」，AI 随即改变思路；第 178 轮，使用者说「等等」，AI 等待新指令。

轮次	使用者打断词	AI 下一轮回应
79	「不对」	停止当前思路，提供新方案
178	「等等」	等待指令，重新审视问题
182	「不是」	修正方向，提供新代码

此机制验证了「人在环中」的核心原理：AI 提供方案，使用者判断方向。

5.3 情绪表达与 AI 响应

使用者的情绪词汇（如「哈哈」、「太好了」、「崩溃」、「终于」）与 AI 的情感响应形成交互：

使用者情绪	AI 回应类型	功能
崩溃/无奈	安慰 + 方案	情绪安抚 + 技术支持
兴奋/突破	肯定 + 延伸讨论	正向强化
犹豫/不确定	分析 + 建议	帮助理清思路
打断	立即配合	人在环中

图 5：情感互动死循环示意图。

6. 情感轨迹：有温度的技术叙事

6.1 前期情感：崩溃与突破

凌晨 3:30 的注册表重装是整个窗口最强烈的情感标记。0xd6 编码问题的出现与解决过程，完整记录了「崩溃 → 释然」的情感曲线。高频词汇「问题」(308 次)、「编码」(144 次)、「不行」(多次) 表征技术困境；「哈哈」(25 次)、「太好了」(多次) 捕捉突破瞬间。

6.2 中期情感：挖坑与爬坑

「挖坑」与「爬坑」成为中期的情感核心。GPU 不认 Docker、向量化报错、依赖冲突等均属「挖坑」；每一次成功解决则是「爬坑」的情感释放。打断词往往是情感转折的前奏，例如第 178 轮的「等等」让 AI 暂停，随后问题得到解决。

阶段	「不对」	「等等」	「停」	「不是」	合计
前期	8	3	1	12	26
中期	5	2	0	8	15
后期	2	1	0	3	6

6.3 后期情感：三次回顾与见证

窗口末端的三次回顾为情感与技术交织的高潮：

回顾类型	发生轮次	触发方式	情感意义
第一次回顾	约 2500 轮	用户指令「回顾整个窗口」	证明长程记忆形成
第二次回顾	约 3500 轮	用户指令「提取细节填充文章」	证明记忆可动态检索
第三次回顾	3673 轮	AI 主动生成全窗口报告	证明记忆可综合提炼

从「记得」→「能找」→「能写」，情感也从信任 → 掌控 → 超越。

7. 结论

7.1 主要发现

技术轨迹清晰：从前期环境搭建（数据库、入库），到中期技术攻坚（向量化、Agent 开发），再到后期认知提炼（心源、贝叶斯），405 次命令曲线与语言分布高度吻合。
人机协作高效：使用者主导方向、AI 配合执行、使用者打断循环的机制，保证了项目在遭遇技术困境时仍能持续推进。
情感温度真实：凌晨 3:30 重装、挖坑爬坑、三次回顾，为技术报告注入了人的情感。
长程记忆验证：窗口末端的三次回顾证明百万 token 窗口不仅是「记忆容器」，更是「认知孵化器」。

7.2 方法论价值

本文构建的 L1‑L5 五层分析框架可迁移至任何长窗口人机协作项目，提供从「黑箱」到「白板」的分析思路。所有分析脚本与 15 张结构化 CSV（L2‑L5 三阶段 + 互动样本）已开源（见附录），欢迎研究者下载使用。

7.3 从「思接千载」到「可计算化」

本研究的核心贡献不仅在于对百万 token 窗口内容的深度剖析，更在于探索一种研究方法论：领域专家提供问题意识与框架设计，AI 完成技术实现与细节执行。此「人机协同」模式将为人文社科的可计算化研究提供可复现的模板。

致谢

感谢 DeepSeek 百万 token 窗口提供的长程交互环境，感谢所有参与讨论与验证的同行。本文的完成是人与 AI 共同创造的结果。

附录：数据与脚本