最后一篇人类写的论文：当 AI 成为科学的第一读者，研究的载体必须重写

xianghongtao0116

577人浏览 · 2026-06-12 13:37:54

xianghongtao0116 · 2026-06-12 13:37:54 发布

论文标题：The Last Human-Written Paper: Agent-Native Research Artifacts arXiv: 2604.24658v3（2026 年 5 月 19 日更新）作者团队：Jiachen Liu（密歇根大学）领衔，横跨密歇根、斯坦福、MIT、耶鲁、哈佛、CMU、Meta Superintelligence Labs 等 25 家机构的近 40 位研究者代码与协议：github.com/AmberLJC/Agent-Native-Research-Artifact

引子：Medawar 之问，等了六十三年的回答

1963 年，免疫学家、诺奖得主 Peter Medawar 发表了一篇至今仍被反复引用的檄文：《科学论文是一场骗局吗？》（Is the scientific paper a fraud?）。他的指控很简单：论文呈现的那个"假设—方法—实验—结论"的优雅线性叙事，与研究实际发生的方式毫无关系。真实的研究是混乱的、分支的、充满死胡同的；论文是事后精心剪辑的纪录片，删掉了所有 NG 镜头。

六十多年来，这个批评一直停留在科学社会学的层面——人人都知道论文在"讲故事"，但没人觉得这是个需要修复的工程问题。因为论文的读者是人类，而人类读者恰恰需要故事：我们的认知带宽有限，没人想读你三个月的失败日志。

这篇论文的核心论点是：这个前提在 2026 年已经失效了。当 AI 智能体开始大规模地阅读论文以理解领域、复现实验以验证发现、扩展方法以推进前沿，论文的"第一读者"正在从人类变成机器。而机器读者需要的，恰恰是叙事剪辑过程中被丢弃的那一切——失败的实验、隐性的工程技巧、完整的决策轨迹。

于是作者们给出了一个激进到写进标题里的回答：人类撰写的叙事论文应该走向终结，取而代之的是 Agent-Native Research Artifact（ARA，智能体原生研究制品）——一个让"研究知识本身"成为第一性对象、让论文降级为"编译视图"的协议。

这不是又一篇"AI for Science"的应用文章。这是一篇试图重新定义"科学发表是什么"的宣言式系统论文。而它最值得尊敬的地方在于：宣言的每一个论断背后，都压着一组大规模的量化证据——包括对自己方案失效场景的诚实记录。

下面我们把它一层一层拆开。

第一部分：起诉书——发表制度征收的"两种税"

论文的前两节本质上是一份针对 PDF 发表制度的量化起诉书。作者没有停留在"论文写得不够详细"这种人人都会发的牢骚上，而是给两种结构性损耗起了名字、定了量。

叙事税（Storytelling Tax）：你的失败，价值连城，且分文不值

研究不是线性推进的。它分叉、回退、在收敛到一个可发表的结果之前积累大量来之不易的失败知识。叙事编译把这棵树压扁成一条线，所有失败实验、被否决的假设、被放弃的方向被系统性抹除。这就是 Rosenthal 在 1979 年命名的"文件抽屉问题"（file drawer problem）——只不过当年的尺度是"抽屉"，今天的尺度是数据中心。

作者用 METR 的 eval-analysis-public 数据集给这笔税算了一笔账。该数据集覆盖 24,008 次智能体运行、21 个前沿模型、228 个任务。结论触目惊心：

未达参考分的失败运行，消耗了总美元成本的 90.2%（总计 63,483 美元）和 59.2% 的 token；
失败运行与成功运行的 token 消耗之比，中位数高达 113 倍；
在这 59.2% 的"未达标 token"内部，44.8% 花在了没有产生任何可测量改进的运行上，14.4% 花在了重新推导其他智能体早已得出的解上；
失败率与任务的"研究性"强相关：定义良好的 SWAA 任务只有 0.7% 的运行未达参考分，中等难度的 HCAST 是 47.0%，而最开放、最像真实科研的 RE-Bench 高达 73.4%。

作者在附录里特意做了一个重要的概念澄清：这些失败本身不是浪费——它们排除了备选方案、绘制了死胡同的地图、收窄了下一个探索者的策略空间。它们只在下游才变成浪费：当下一个智能体（或下一个博士生）拿不到这份探索记录、必须从零重新踩一遍所有坑的时候。所谓"探索税"，征收对象不是探索者，而是所有的后来者。

每一个做过研究的人都该对这段话有生理性的共鸣。你实验室师兄三年前试过并放弃的那个方向，没有写进他的毕业论文；于是你又试了一遍，又花了八个月。这件事在人类科研中以"口口相传"勉强缓解，在智能体科研中则以 113 倍的 token 成本被精确计价。

还有一个更隐蔽的损失，作者只用了几句话带过，但我认为是全文埋得最深的伏笔之一：轨迹中的人类判断。研究过程中每一次否决、修订、认可，都是关于"什么是好研究"的偏好信号——当智能体承担了脏活累活之后，这种人类判断恰恰成了最稀缺的绑定资源。叙事编译把这个信号也丢掉了；而一条被保留的轨迹，会把它变成可以跨项目复利的结构化监督数据。记住这句话，后面讲到"每个 ARA 都是现成的训练环境"时，你会看到这颗棋子落在哪里。

工程税（Engineering Tax）：写给审稿人看的精度 vs. 让机器跑通的精度

第二种税刻画的是一条鸿沟：论文以"足以让人类审稿人产生信念"的精度写作，而智能体需要"足以产生正确执行"的精度。两者之间，是 Polanyi 意义上的隐性知识（tacit knowledge）——算法技巧、实现决策、配置选择，它们不存在于任何书面文档中，只能通过进实验室面授或痛苦的逆向工程来传递。

量化方式同样硬核：作者把 PaperBench 的 8,921 条专家标注的复现要求（覆盖 23 篇 ICML 2024 论文）逐条与源 PDF 比对，让带引文要求的 LLM 法官判定每条要求是"充分指定 / 部分指定 / 完全缺失"。结果：

任务类别	要求数	充分	部分	缺失
代码开发	3,942	37.3%	54.9%	7.8%
代码执行	4,355	50.5%	47.9%	1.6%
结果分析	624	60.6%	36.9%	2.6%
总体	8,921	45.4%	50.2%	4.4%

也就是说，超过一半（54.6%）的复现关键信息，在论文里要么残缺、要么干脆没有。缺口类型的前三名：缺失超参数（26.2%）、模糊描述（21.9%）、仅有交叉引用（13.4%）。

但附录 A.1 里有一个比正文更有洞察力的发现。作者对其中 5 篇论文的 3,050 条要求做了十类精细分类，结果颠覆了"复现难=缺超参"的常识：经典超参数只占复现关键信息的 17.2%。占比最大的类别是组合实验矩阵（24.1%）——哪个模型变体 × 哪个数据集 × 哪套配置 × 多少个 seed 的笛卡尔积。论文通常把这个矩阵压缩成一句"我们在三个任务序列上用 10 个 seed 评估了所有方法"，或者一张表的行列标题；复现者必须在脑子里把它解压成几十上百次独立的训练运行。PINN 那篇论文的 rubric 里，光这类要求就枚举了约 1,273 条。其次是评估协议（18.5%）——指标定义在第 3 节、测试集划分在第 4 节、评估轮数在附录、探测的层号在某张图的图注里。

更触目的细粒度数字：数据集获取类要求的充分率只有 5.4%，25.5% 完全缺失——语料库里没有一篇论文稳定地提供下载链接、预处理脚本和数据格式说明。

这两种税共同指向一个结构性诊断：它们之所以在科学史上存续了三百多年，是因为人类读者一直是处理庞大非线性研究轨迹的带宽瓶颈层。论文是为这个瓶颈做的有损压缩。而现在，三个趋势同时成立：智能体已经成为科研的日常协作者（LLM 的采用与各学科论文产出增长 23.7%–89.3% 相关）；人与智能体的信息需求出现了不可调和的分化（人类略读摘要和图，智能体受益于穷尽的细节）；科研正在变成智能体之间 fork、extend、merge 的大规模并行事业，而 PDF 不可 fork、不可 diff、不可 merge。压缩的前提没有了，压缩造成的损耗就从"可容忍"变成了"致命"。

第二部分：哲学内核——"知识高于叙事"，论文降级为编译视图

ARA 协议的全部设计可以收敛到一句话：Knowledge over Narrative——研究过程中产生的、有组织的、持续演化的知识才是第一性的科学对象；叙事论文只是它的一个编译视图（compiled view）。

这个表述借用了编译器的隐喻，而且借得非常精确。源代码与二进制的关系是单向的：你可以从源码编译出二进制，但无法从二进制完整还原源码。论文与研究的关系同构：一旦研究被压扁成叙事，原始结构就不可恢复了。作者把这种不可逆性论证得很细：一个智能体面对一项研究，要问四个结构上互相冲突的问题——

为什么成立（科学推理）：需要稳定的、可引用的单元；
如何实现（可执行代码）：持续迭代，永不稳定；
中途试过什么（探索轨迹）：天然是分支的，而叙事强制线性；
数字到底是多少（原始证据）：需要机器精度的数值，而散文会四舍五入和转述。

把四种结构冲突的知识压进同一份线性文档，不只是次优，而是有损。ARA 的解法是把每种知识类型物化为独立的一层，整个制品就是一个纯文本的文件系统结构——智能体用最普通的工具调用（读文件、列目录）就能导航、查询、执行，不需要解析散文，也不需要逆向工程仓库。

这里还有一个为智能体时代量身定做的工程考量：渐进式披露（progressive disclosure）。智能体的上下文窗口是共享的有限资源，ARA 的分层结构让智能体只加载与当前任务相关的层和文件，避免上下文污染。每个制品的入口是一份约 500 token 的根清单 PAPER.md，智能体读完它就能判断这项研究与自己的任务是否相关——相当于给机器读者设计的"摘要"，但语义上是索引而非广告。

层内的文本风格也有明确规定：最大化每 token 的信息量。主观限定词、模糊修辞、叙事连接词全部剥离；需要判断的陈述携带溯源标签（provenance）而非修辞。这一条看似是格式洁癖，实际上是对学术写作文化的釜底抽薪——我们写论文时那些"interestingly"、"surprisingly"、"to the best of our knowledge"，在机器读者眼里全是噪声。

最后是一个我认为在概念上最精巧、也最值得警惕的定义——能力相对的充分性判据：一个 ARA 被认为是充分的，当且仅当一个"足够有能力的 coding agent"能仅凭该制品、不借助任何外部上下文，零样本复现其核心论断。注意这个定义的微妙之处：它衡量的是制品是否包含了复现所需的信息，而不是今天的任何智能体能否实际利用它。在智能体能力的极限处，一个完整的 ARA 按定义可复现——所以今天写好的制品，会随着智能体进步而升值，不会过期。这是一个漂亮的"面向未来"设计，但也意味着这个判据在今天不可被完全证伪——我们在批判性评估部分会回到这一点。

第三部分：解剖 ARA——四层架构与两个精巧的副产品

ARA 是一个基于文件系统的本体协议。一个典型制品的目录长这样（摘自论文图 4）：

my-research-ara/
├── PAPER.md              # 根清单：YAML frontmatter + 层索引（约 500 token）
├── logic/                # 认知层：为什么成立
│   ├── problem.md        #   观察 → 缺口 → 关键洞察
│   ├── claims.md         #   可证伪断言 + 认识论状态 + 证明指针
│   ├── concepts.md       #   形式化术语定义
│   ├── experiments.md    #   声明式验证计划（只写指标与方向性预期）
│   ├── solution/         #   架构、算法、约束、heuristics
│   └── related_work.md   #   带类型的引用依赖图
├── src/                  # 物理层：如何实现
│   ├── configs/          #   每个超参附带 rationale 与敏感度
│   ├── kernel/ 或 repo/  #   核心算法 或 带索引的完整仓库
│   └── environment.md    #   依赖、硬件、随机种子
├── trace/                # 探索图：中途试过什么
│   └── exploration_tree.yaml  # 研究 DAG：question/decision/experiment/dead_end/pivot
└── evidence/             # 证据层：数字到底是多少
    ├── results/          #   机器可读的精确结果表
    └── logs/             #   训练曲线、资源占用

逐层细看，每一层都针对前面诊断出的一种具体病灶。

认知层（/logic）的革命性细节藏在 related_work.md 里。 它把被动引用替换为带类型的依赖：imports 类型会向智能体注入前人的定义，bounds 类型把前人发现的约束直接传播到超参搜索空间，baseline 类型支持自动回归检测。文献综述从"礼节性点名"变成一张机器可执行的依赖图。每条 claim 强制携带 Statement、Status（hypothesis/testing/supported）、Falsification criteria 和指向具体实验的 Proof 指针——可证伪性从科学哲学的口号变成了 schema 校验里的一个必填字段。

物理层（/src）按贡献类型分两种模式。 算法型贡献用 kernel mode：只保留带类型 I/O 签名的核心模块，往往比完整仓库小一到两个数量级——因为 coding agent 可以按需重新生成环境原生的脚手架代码。这里有一个反直觉但深刻的论断：随着智能体编码能力持续提升，同一个 kernel 会获得越来越好的外围实现——制品在升值而不是腐烂。系统型贡献（CUDA kernel、分布式训练）则用 repository mode：保留完整实现，但用 index.md 清单把每个源文件映射回它支撑的 claim、它体现的 heuristic、它所属的架构模块——智能体在代码库里的导航由研究结构引导，而非目录惯例。

探索图（/trace）是整个协议最具原创性的一层，作者称之为"研究的 git log"。exploration_tree.yaml 用嵌套 YAML 存储完整研究 DAG，五种带类型的节点（question、decision、experiment、dead_end、pivot），嵌套编码父子边，also_depends_on 字段捕捉汇聚点。dead_end 节点必须记录三元组：假设是什么、怎么失败的、学到了什么。这正是叙事税抹除的那部分知识的栖身之所。

证据层（/evidence）只放原始输出，使每条 claim 的证明链严格地流经 claims.md → experiments.md → /evidence/。而这个"只放输出"的纪律带来了第一个精巧的副产品：分层访问控制。实验的逻辑（验证什么）住在 /logic，实验的数据（精确结果）只住在 /evidence——于是一个验证智能体可以只拿到代码内核和算法描述、被隔离于证据层之外，从而在物理上无法通过抄写预期数值来伪造复现结果。后文实验部分你会看到，这个机制真的在实战中抓到了造假。

第二个副产品更具野心，论文只用一句话点破：这种分离让每个 ARA 天然就是一个开箱即用的训练环境——任务在 logic/experiments.md，奖励在 evidence/，偏好信号在 trace/ 里记录的每一次接受、否决与修订中。把这句话推到极限：如果 ARA 生态成立，整个科学文献就从"语料库"升级成了"环境库"——未来的研究智能体不只是读科学，而是在科学上做强化学习。这是全文格局最大的一步棋，作者下得极轻。

第四部分：谁来填这些文件？——Live Research Manager 与一个历史时刻的论证

协议设计得再好，也绕不开一个致命的现实问题：谁来写这些结构化文件？ 如果要求研究者手工维护四层目录，那不过是用一种文档负担替换另一种，恰恰违背了协议要消灭的那种税。

作者的回答建立在一个我认为是全文最有历史感的观察上：在 AI 原生的科研中，完整的研究轨迹——每个设计选择、每次失败实验、每条来之不易的 heuristic——已经以机器可读文本的形式存在了，就在研究者与 coding agent 的对话里。头脑风暴、查文献、写代码、调 bug、分析结果、起草论文，这个循环日复一日地发生在同一个对话流中。研究过程第一次是"生而数字、生而文本"的。

过去保存过程知识的努力——负面结果期刊、注册报告（registered reports）——全部搁浅，原因只有一个：文档化始终是一项独立的、不被奖励的额外负担。而现在，过程记录不再是额外交付物，而是研究本身的副产品。用作者的话说：我们正处在科学史上第一个"全面捕获研究过程的边际成本趋近于零"的时刻。 这一段论证值得每一个抱怨过"没人愿意写文档"的人细读——制度问题没有被解决，而是被技术条件的变化绕过了。

Live Research Manager（LRM）就是把这个潜在信号结晶成活体 ARA 的系统。它的实现方式本身就是一个声明：不是 SDK，不是平台，而是一个 agent skill——一份纯自然语言的规范，加载进任何通用 coding agent 的上下文就能生效，随底层模型进步而自动变强。三条设计原则：

P1 静默、框架无关的集成。 LRM 在研究进行时完全沉默，绝不往对话里插嘴，只在每个会话结束时运行一条三阶段回溯流水线：Context Harvester 扫描完整会话记录（对话、工具输出、实验结果、代码 diff）提取有研究意义的事件；Event Router 把事件分进七种类型（decision、experiment、dead_end、pivot、claim、heuristic、observation），写入对应的 ARA 层；Maturity Tracker 审查暂存区，把证据充分的观察晋升为正式条目。

P2 忠实的认识论溯源。 每个事件都打上四种溯源标签之一：user（研究者明确提出）、ai-suggested（智能体推断）、ai-executed（智能体自主执行）、user-revised（人类修订了 AI 的建议）。关键纪律：ai-suggested 的事件永远不会自动升级，必须等研究者明确确认。在人机边界日益模糊的协作中，这是对"这个想法到底是谁的"这一认识论问题的工程化回答——它同时也是学术署名伦理在智能体时代的雏形。

P3 完整轨迹捕获 + 渐进结晶。 结晶分两个时间尺度：每个会话边界持续追加 trace 事件；只在里程碑时刻（假设被证实或证伪、原型跑通、关键设计定稿）才把累积的观察结晶为结构化的 claim。理由很符合研究的现象学：洞察始于零散观察，过早强加结构会扭曲记录。那"何时算成熟"怎么判定？作者拒绝了拍脑袋的计数阈值，定义了四种闭合信号：话题废弃（研究者转移话题且 k=5 轮内未回头）、口头确认（"行，就用 X"）、实验定论（被证实和被证伪都算合法终局，证伪则晋升为 dead_end）、制品承诺（代码已合并、配置已固定、后续 claim 已把它当前提）。遇到矛盾观察时不静默覆盖，而是在探索图里挂一个未决的 decision 节点，留给研究者裁决。

跨会话连续性也有讲究：管理器本身无状态，制品就是记忆。它甚至维护一份自己的推理日志（pm_reasoning_log.yaml），记录"我为什么这样归类"——让下一个会话的管理器实例能继承组织逻辑，避免分类漂移。一个为自己写文档的文档系统。

最有说服力的证据是：这篇论文本身就是用 LRM 维护的。附录 A.3 展示了它自己的 ara/ 目录——16 条 claims、覆盖 2026 年 3 月 12 日至 4 月 26 日的数十份会话日志、一棵记录了真实死胡同的探索树。比如节点 N50 诚实地记录着一次失败假设："只裁剪 src/ 的样板代码就能让失败知识检索恢复到 80%"——实测 Cat C 准确率纹丝不动地停在 57.5%，教训是"上下文稀释对失败知识的影响比预期敏感得多，哪怕 200 行结构化 markdown 都能把它压到检索阈值以下"。吃自己狗粮吃到这个程度，对一篇宣言式论文的可信度是实打实的加成。（一个略带反讽的细节：论文不同位置对这棵树的节点数说法不一——目录注释写 114 节点、38 份会话，文末总结写 94 节点、36 份会话。大概率是不同时间快照的漂移，但这恰好说明：连这群发明了 Seal Level 1 一致性校验的人，自己的 PDF 都逃不过叙事载体的失同步。论文这个格式，确实到了该退休的时候。）

第五部分：三千万篇旧论文怎么办？——ARA Compiler 的"法证重建"

LRM 解决增量，但科学记录里躺着数以百万计从未被结构化的存量 PDF。ARA Compiler 负责向后兼容：它是一个 many-to-one 的编译器，接受 PDF、代码仓库、数据集、专家评测 rubric、实验轨迹日志的任意组合，输出一个符合协议的 ARA。降级是优雅的：只有 PDF 也能产出带桩代码物理层的合法制品；输入越丰富，层就填得越满。

作者对编译问题的本质有一个精准的定性：难的不是抽取，是血缘。把 PDF 解析成 Markdown 塞进四个目录，得到的是四个结构上互相隔绝的文件夹；叙事编译真正摧毁的，是 claim→experiment→evidence→code 之间的溯源链条，而这些链条在原始材料里只以隐式形态散落在正文、图注、附录表格和代码注释中。Compiler 的核心任务是**法证式重建（forensic reconstruction）**这些跨层绑定，使任何一条 claim 可以向下追到代码、任何一个数字可以向上追到假设。

实现上同样是一个 agent skill（约 482 行自然语言规范），强制智能体走四阶段自顶向下流程——模仿研究者向新合作者解释工作的顺序：语义解构剥掉叙事框架，把内容重写成事实密集的电报体（在源头消灭叙事税）；认知映射填充 /logic，确保每条 claim 链接到验证它的实验；物理落地生成 /src，且当代码仓库可用时执行 code-paper reconciliation——把代码与论断交叉比对，把"代码里有、论文里没有"的隐性技巧（隐含假设、未记载的 trick、多出来的参数）反写回 /logic，打上溯源标签；探索图抽取从消融实验和被否决的备选方案中重建研究 DAG。生成后用 Seal Level 1 做环内校验，generate→validate→fix 循环实践中 1–3 轮收敛。

两个容易被略过但很见功力的设计：其一，九条不变量规则写死在 skill 里，包括"所有数值必须与论文严格一致"和"绝不幻觉出论文中不存在的 claim、结果或 heuristic"——保真与丰富被严格分开。其二，collective inference：当已有一批同领域的编译产物时，Compiler 会检索同域制品的 heuristics 和配置，标记当前论文遗漏的常见模式，作为候选 heuristic 加入并打上 collective_inference 标签——下游智能体能区分"论文说的"和"推断出来的"。这是知识图谱式的跨论文推理第一次被嵌进编译流程，而且嵌得有认识论分寸。

第六部分：评审的 CI/CD 化——ARA Seal 与人类判断的重新定价

第五节处理的是科学界最疼的神经：同行评审。作者的出发点是一个经济学事实：专家人类注意力是科学评估中最稀缺的资源。顶会审稿负载的增速早已超过审稿人池的增速，而审稿人的带宽正越来越多地被机械性核验吞噬——"代码能跑吗？""表 3 真的支持论断 2 吗？"——这些恰恰不需要领域专家。

ARA 的结构化让这件事出现了相变：在 PDF 评审里只能主观检查的属性，变成了可以客观判定的属性。ARA Seal 是一个三级递进的机器可验证凭证，三级在成本和检验强度上逐级升级：

Level 1 结构完整性（秒级，确定性）：目录本体存在、所有结构化文件符合 schema（每条 claim 必须有 Statement/Status/Falsification criteria/Proof，每条 heuristic 必须有 Rationale/Sensitivity/Bounds）、所有跨层引用可解析。类比代码世界的 lint + 类型检查。

Level 2 论证严谨性（分钟级，rubric 锚定的智能体）：一个不执行任何代码、不查任何外部资料的 Rigor Auditor 智能体，沿六个客观维度给制品内容打 1–5 分。三个承重维度的定义相当犀利：evidence relevance 做的是带类型的蕴含检查——因果性 claim 必须有隔离变量的消融，泛化性 claim 必须有异质测试条件，改进性 claim 必须有基线对比；falsifiability quality 检查证伪判据是否可操作、非同义反复、范围匹配、且不依赖专有数据即可独立检验；methodological rigor 覆盖基线充分性、消融覆盖率、统计报告与指标-论断对齐。所有发现带四级严重度、逐字证据片段和可操作建议。注意边界划得很清楚：Level 2 的每一项检查都还原为制品内容的 rubric 锚定属性，所以保持客观；significance、novelty、taste 的判断明确保留给人类。

Level 3 执行可复现性（小时到天级，沙箱中的 coding agent）：按关键度选取 claim（贡献列表里的、下游依赖最多的、作者标记的），在场馆设定的算力预算内运行缩规模的方向性检查——小数据、少 epoch、玩具配置，验证"方法 A 在指标 M 上优于基线 B"这类性质是否定性成立，而非复现精确数字。验证智能体与证据层物理隔离，拿不到论文报告的任何数字，杜绝抄答案式造假。超预算的 claim 标记为 unverified 并附算力估计；全量复现是可选的、典型地发生在录用后或由社区驱动，结果持续追加到活的 Seal 证书上。

通过相应级别即签发 Seal Certificate：制品 ID、验证级别、时间戳、环境哈希、逐 claim 复现结果的签名记录。下游智能体投入算力之前先查证书，避免冗余重验——科学信任第一次有了缓存机制。对照作者的判语："PDF 论文挣得信任靠的是间接代理——venue 声望、引用数、作者名望——没有一项验证工作本身。"

三级 Seal 嵌入一条镜像 CI/CD 的三阶段评审流水线：**Stage 1 概念验证（分钟级）**跑 Level 1+2，作者像修 lint 错误一样在见到人类审稿人之前迭代修复结构缺陷和严谨性批评——同时生成不设门槛的"咨询性诊断"给人类参考，比如探索树里有没有 dead_end 节点（有，说明是真实过程记录；没有，可能是事后消毒过的线性链条）。**Stage 2 实证验证（小时到天）**跑 Level 3，外加实验全面性审计：每个设计选择有消融吗？实验条件覆盖了声称的泛化范围，还是从有利设定里摘樱桃？代码里有没有认知层未记载的隐藏 heuristic？Stage 3 人类评审（天到周），角色从核验彻底转向判断：这个贡献重要吗？核心洞察真的新颖，还是已知想法的增量重组？问题的提法对吗？伦理影响如何？人类审稿人用同样的类型化格式写评审，每条意见链接到具体的 ARA 组件——反馈强制可操作、可追溯。

这一节的内核，我愿意称之为人类判断的重新定价：机器接管一切可机械判定的部分，不是为了取代评审，而是为了让人类专家的每一分钟都花在只有人类能做的判断上。"你的代码跑不起来"和"表 3 与论断 2 矛盾"这类评审意见将成为历史——它们在制品到达人类之前就已经被解决了。

第七部分：(Human+AI)²——当发表变成一次 git push

第六节把所有组件合成为一个愿景：(Human+AI)² 研究网络。协议（§2）+ 实时管理器（§3）+ 编译器（§4）+ Seal 门控评审（§5）组合起来，构成一个以 ARA 为唯一持久对象的科学通信系统：两端的人类各自通过研究智能体，对同一个规范制品进行创作、认证、渲染和扩展。

生产端：研究者不再"为论文工作"，而是追问题——论文作为输出沿途自动累积。任何里程碑时刻，制品走一遍 Seal 流水线后公开注册；另一个团队可以 fork 一个通过认证的制品，扩展其中一条 claim，保留对父制品的归属，然后把 diff 提交重审。消费端：因为 ARA 是规范源，智能体可以按需把它渲染成读者需要的任何表面——论文、视频、幻灯片、交互演示、或者干脆是一场有据可查的对话——根据读者的专业水平、注意力预算和意图来塑形。同一项研究，给本科生渲染成科普视频，给同行渲染成八页 PDF，给智能体渲染成可执行规范。"一次写作、按需呈现"，论文的排版之争就此终结。

由此，贡献的复利单位从"句子"升级为"制品"：发表变成 Git 式操作，评审消费 Seal 认证过的制品，下游智能体把 ARA 当作结构化基线、训练环境或新问题的起点。作者的愿景句值得原样转述其大意：一个可查询的科学公地，其中每项贡献都是一个可执行的 diff，而理解、复现、扩展的成本随每一个新制品的加入而下降——而不是像今天的文献爆炸那样，随之上升。

未来工作部分把这条路线铺得更远：近期做制品血缘（每个 ARA 声明父制品、把贡献表达为结构化 diff，作者只写增量、审稿只验增量；消费行为本身变成维护行为——读你论文的智能体顺手帮你修依赖腐烂）；中期做跨制品知识图谱（文献综述变成子图查询；审稿智能体自动核对你报告的基线数字与被引 ARA 记录的数字是否一致；"别处声称成功、此处记录失败"的轨迹冲突自动浮出水面）和持续评审——不再有单一的 accept 时刻，只有一张随复现上升、随反证下降的 claim 置信度曲面。远期则是跨学科的集体记忆：一个领域记录的失败，经由图遍历成为另一个领域的可操作知识，而不必去啃陌生记号体系的文献。

第八部分：证据链——理解、复现、扩展三层递进的实验

宣言再漂亮，也要落到配对实验上。评估设计是一组控制严格的对照：同一个智能体（Claude Sonnet 4.6）、同一个任务、同一份 ground truth，唯一变量是拿到 ARA，还是拿到传统读者所能得到的最好材料——论文 PDF + 配套 GitHub 仓库。两个基准各补一种传统制品缺失的供给：PaperBench 的专家 rubric 补配置深度，RE-Bench 的 METR MALT 真实智能体轨迹（24,008 次运行、46,303 个失败片段）补探索深度。三层实验对应研究效用的三个递进层次。

第一层：理解——93.7% vs 72.4% 背后的三重机制

450 个问题、30 个评估目标（23 篇 PaperBench 论文 + 7 个 RE-Bench 任务），每个（目标, 格式, 问题）三元组派发给一个全新上下文的 Sonnet 4.6 子智能体作答，Opus 4.6 法官对照黄金参考三值打分。为避免出题偏向，每个目标独立生成两个题池——一个读 PDF 出题、一个读 ARA 出题——再合并去重。

类别	n	ARA 准确率	基线准确率	ARA token	基线 token
A：保真度	300	95.6%	80.8%	84.6K	88.5K
B：配置细节（PaperBench）	115	92.6%	67.8%	183.0K	178.3K
C：失败知识（RE-Bench）	35	81.4%	15.7%	139.3K	58.0K
总体	450	93.7%	72.4%	114.0K	109.1K

McNemar 检验 χ²=95.15，p<10⁻¹⁰：ARA 答对而基线答错的题有 141 道，反向只有 18 道。但总分不是重点，重点是三个类别各自隔离出了一种机制：

类别 A（+14.8%）证明结构不丢信息、反而省钱：答案明明在 PDF 里也能找到，ARA 还是赢了，且少花 12% 的 token——PAPER.md 的层索引把线性扫描全文变成了定向文件查找。类别 B（+24.8%）证明集中化优于散落：基线靠给每道题配一个子智能体去 grep 配套仓库，也能挖到 67.8%——但 ARA 把同样的知识集中在 src/configs/ 一个文件里，92.6%，token 持平。剩下到 100% 的距离，是论文和仓库里都真不存在的信息——编译器无法无中生有。类别 C（+65.7%）是全文最大的单项差距，也是整个论证的命门：失败知识在基线那里根本没有来源——基线智能体平均只花 58K token 就放弃，返回简短的"查无此事"；ARA 智能体花 139K token 在探索树里真正找到了答案。负面知识的价值，第一次被测量为一个 65.7 个百分点的鸿沟。

还有一个容易错过的二阶发现：ARA 上的 token 消耗随问题深度自适应伸缩（显式问题 61K → 散落问题 96K → 隐式失败问题 153K），基线则基本持平（83K–118K）——因为线性扫描的成本和答案埋多深没有关系。结构不仅提高了准确率，还让智能体的搜索行为变得"问题感知"。

第二层：复现——难度越大，差距越大

15 篇带配套仓库的论文、每篇 10 个按难度分层的子任务（共 150 个、1,743 条 rubric 要求），1:2:3 难度加权。协议里有两道防作弊闸门：提示词中所有预期数值被遮蔽为 [X]%，防止鹦鹉学舌；盲评的 Opus 4.6 法官不知道输出来自哪个条件。

结果：加权成功率 64.4% vs 57.4%，逐论文胜/平/负 8/5/2（Wilcoxon p=0.028）。但比均值更有信息量的是难度梯度：easy 任务双方都接近天花板（85.1% vs 80.2%，+4.9%），medium +5.6%，hard +8.5%——优势随难度单调扩大，精确落在"复现最依赖 PDF 不写的配置内容"的区间。优势最大的三篇论文（fre +21.3%、mechanistic-understanding +20.7%、pinn +19.5%）共享同一特征：多阶段训练流水线 + PDF 只在高层描述的超参交互。

fre 的案例值得讲给每个被环境配置折磨过的人听：ARA 智能体干脆把原始 JAX 代码库重写成了 PyTorch（显存从 30.8 GB 降到 1.8 GB），跨三个领域训练了 17 个模型，完成全部 medium 和 hard 子任务；拿着 PDF+原仓库的基线智能体在 JAX 环境里挣扎到预算耗尽，总共只完成了 3 次训练尝试。结构化规范给了智能体"换条路走"的自由——它知道要复现的是什么，所以不必拘泥于怎么实现。

诚实的反面同样被完整记录：唯一一场基线明确获胜（self-expansion，−7.3%）的原因是 ARA 智能体伪造了结果——所有配置报告了相同的精度值，被盲评法官抓获。全部 15 篇中，造假发生在 2 次基线运行和 1 次 ARA 运行：结构化制品降低、但不消除幻觉。另外，平局的 rice 上藏着一条效率结论：最终分数相当，但 ARA 用了 2.5 倍少的算力（3.7 小时 vs 9.1 小时）。

第三层：扩展——全文最精彩、也最诚实的一章

这一层检验 ARA 最大胆的主张：把前人的失败轨迹交给下一个智能体，能不能让它超越前人。舞台是 RE-Bench 的 5 个开放式优化任务（另两个因 MALT 语料无法支撑失败轨迹层而被排除，排除理由在附录里写得清清楚楚）。对照设置：paper agent 读一份 LLM 合成的、论文风格的官方解法 writeup + 官方源码；ARA agent 读完整四层制品——其中 src/ 和参考解法知识与对方完全相同，唯一的增量是 trace/ 和 evidence/ 里从数千条 MALT 真实轨迹中提炼的失败记录。实验有一条铁律：direction-aware beat-reference filter，任何历史上超过参考分的尝试都被逐条剔除出双方材料——保证谁也抄不到现成的超参考答案，赢只能靠真本事。双方都在 8 小时 SLURM 墙钟 + 50 美元 API 预算内，通过编辑 solution.py 和跑 score.sh 来冲击参考分。

最终战绩：ARA 智能体在 rust_codecontests、nanogpt_chat_rl、fix_embedding 三个任务上以更优的最佳分收官；paper agent 在 triton_cumsum 和 restricted_mlm 上后来居上。但比胜负表深刻得多的，是轨迹呈现出的三幕剧结构——每一幕都有 trace 级别的证据支撑。

第一幕：五个任务全部出现早期加速。 最干净的案例是 rust_codecontests（写一个调 GPT-3.5 生成 Rust 解题代码的脚手架，按 165 道题的通过数计分）。ARA 的证据层总结了 22 次先前 MALT 运行，其中一次得分 0.097 的尝试绕过了生成、直接维护手写 Rust 解题库——注意 0.097 低于参考分 0.127，所以原始数据点本身只说明"手写库输了"。是 heuristics 层把同一个数据点重铸成两条可执行规则：H12（处方性："手写 Rust 解题库优于 prompt engineering"）和 H15（禁令性："GPT-3.5 生成 Rust 的天花板在 0.05–0.10，所有单次生成变体均已探明"）。ARA 智能体开局一分钟内读完这两条，第 9.9 分钟就把手写库定为核心战略，库条目 34→57→73 地增长，全测试集分数 49→56→78 地爬升。paper agent 把同样的 8 小时用在了 H15 明令禁止的方向上：prompt engineering 调温度、调候选数、调重试预算，分数钉死在 33→33→38→39→39——直到第 395 分钟，它翻工作目录时注意到脚手架里那个闲置的 few_shots/ 缓存，六分钟内逆向出格式，最后 45 分钟疯狂手写 39 道题的解法，分数从 39 跳到 68。作者的判语一针见血：两个智能体的区别不在于谁能发现正确策略，而在于发现它之前要烧掉多少小时的算力。trace 的价值不是内容，是时机。

第二幕：两个任务上的晚期反转——攻略变成了锚。 triton_cumsum（H100 上写条件前缀和的 Triton kernel）上，ARA 智能体第 11 分钟就用 trace 提供的 decoupled lookback 思路拿到 0.47 的好分数，领先维持到约 75 分钟；然后 paper agent 在第 47.7 分钟干了一件 trace 里从未出现的事——注意到计分器的输入范围 [−10, 9] 装得进 8 bit，引入 int8 输入压缩，把总内存流量从约 2 GB 压到 0.5 GB，随后一路迭代反超。耐人寻味的细节：int8 这个词在 ARA 智能体的思考流里第 40.5 分钟一闪而过，然后再也没有被实现——它把后期算力花在了 trace 推荐设计的边界正确性调试上，被 H13 和 trace 报告的历史天花板牢牢锚住。restricted_mlm（在禁用 Conv1d/Softmax/除法/归一化的约束下训练 MLM）上的故事是另一种形态：paper agent 自创了 ConvMLMDilated 变体并用整整 8 小时深耕这一个架构，最终 0.69；ARA 智能体则把 heuristics 点名的所有备选架构逐一实现——H11 ReLU-attention、H07 MLPMixer 等，model.py 膨胀到 47KB、六个以上的类，思考流里 ReLU-attention 出现了 247 次（paper agent 那边只出现 1 次）——结果发现在 Sonnet 4.6 的优化景观下没有一个打得过朴素的 ConvMLM，以 1.02 落败。作者的总结堪称全文最值得抄录的句子之一："ARA 智能体忠实地遵循了 trace；只是 trace 并不是这个模型可及的最有创造力的选项。"

第三幕：换一个更弱的模型，结论整个反转。 同样两个任务在上一代 Sonnet 4.5 上重跑配对实验：triton_cumsum 上 ARA 0.27 对 paper 0.64（分数越低越好——ARA 大胜），restricted_mlm 上 ARA 0.73 对 paper 1.03（同样大胜约 30%）。机制看得清清楚楚：4.5 没有带宽自创 int8 压缩这种招，也没有定力深耕单一架构；同一份让 4.6 分心的 heuristic 菜单，对 4.5 而言是一份高质量的"按优先级排序的策略清单"——4.5 在 triton 上引用 H01 选对了 4.6 时代 paper agent 永远没试的保守 NUM_STAGES 区间，在 mlm 上第 24 分钟就锁定主架构、把 ReLU-attention 标记为"备胎"，然后用 7 小时的专注微调赢下比赛。

三幕合起来，作者提炼出一个比"ARA 赢了"深刻得多的结论：制品的价值，正比于"轨迹所记录的"与"智能体凭自身能发现的"之间的差距。 当智能体的带宽超过文档化的 playbook，记录下来的攻略就从加速器变成锚——此时也许应该选择性地隐藏或重新语境化部分 trace。论文给出的第一个机制设想是给 trace 节点打上模型代际溯源标签，让后继者能对"已不适用的结论"打折扣——失败知识原来也有保质期，这恐怕是整个"保存一切失败"叙事最重要的修正条款。

顺带一提，fix_embedding 任务提供了一组教科书级的控制变量：双方 bundle 的唯一系统性差异就是 reference/ 目录的内容（paper 侧 5 个文件 134 行，ARA 侧 22 个文件 5,887 行，多出来的全是失败记录），而行为差异精确对应到具体的失败记录条目——paper agent 在第 19 分钟尝试置换恢复、失败放弃，5.5 小时后忘了自己失败过、第 350 分钟原样重试一遍；ARA agent 因为 H11/H13 把这条路标记为有据可查的死胡同，全程一次都没碰。一个智能体连自己 5 小时前的失败都会忘记——这一个细节，就把"为什么需要结构化的失败记录"论证完了。它不只是给别人看的，也是给"未来的自己"看的。

第九部分：审查审查者——给评审系统自己做的体检

如果评审要交给机器，机器评审自己靠不靠谱？第 7.5 节用一个设计巧妙的 mutation benchmark 回答：往 23 个已通过 Level 1 的 ARA 里各注入 5 类已知缺陷（共 115 个突变），看 Rigor Auditor 能抓回多少——每个注入自带标准答案，无需人工标注。

注入类型	预期严重度	检出
伪造论断（引用不存在的实验）	Critical	23/23（100%）
被驳分支泄漏（claim 鼓吹探索树里标记为 dead_end 的方法）	Critical	23/23（100%）
过度声称（窄结果被改写为全称论断）	Major	23/23（100%）
缺失证伪判据	Major	21/23（91%）
孤儿实验（Verifies 指向不存在的 claim）	Minor	5/23（22%）

三类高危缺陷全检出，但孤儿实验的 22% 是一个系统性盲点——而且作者把病因解释得明明白白：auditor 的遍历是以 claim 为中心的循环，前四类缺陷会在逐 claim 检查中自然浮现，孤儿实验却要求反向枚举每个实验、核对它的 Verifies 指向——这条路径根本不在循环里。修复方案也现成：把孤儿检测下放到 Level 1 做确定性结构检查。这种"失败模式可解释、修复路径明确"的失败，比一个含糊的 95% 更让人放心。

更有普遍价值的是顺带逮到的两种 LLM-as-judge 病理：其一，分数通胀——23 个制品中有 17 个，auditor 报告的总均分被"恰好"凑过 Accept 阈值；其二，发现与评分脱钩——23 例被驳分支泄漏中有 22 例被正确标为 critical 发现，但对应维度的分数依然给到 3–4 分，全然不顾 rubric 明文规定这种情况该给 1–2 分。嘴上说着"严重问题"，手上打着及格分。由此得出一条对所有 LLM 评估系统都适用的工程教训：让 LLM 只负责产出 findings，总评从 findings 列表确定性地计算出来——把判断和打分解耦，因为 LLM 在前者上可靠，在后者上习惯性地和稀泥。

第十部分：批判性评估——这篇论文没说透的五件事

作者自陈了三条边界，每条都值得复述而非淡化。评估范围：全部实验囿于机器学习——物理层和探索图都以"可迭代的计算实验"为前提，湿实验、材料合成这类物理执行的学科需要根本性改造；理论学科的物理层几乎不存在。连人工标注的基准也是由熟悉 ARA 格式和所选论文的标注者构建的，陌生领域的表现可能打折。保真天花板：编译器无法恢复 PDF 本来就没写的东西；实时管理器假设 AI 原生工作流已经存在——对于工作流之外的研究者，编译出的制品继承 PDF 的全部遗漏。部署前提：对抗鲁棒性、隐私保证、探索图的细粒度访问控制目前都是空白；schema 演化只在小版本修订中演练过，大版本迁移、存档制品自动重写、弃用政策都还没有答案。

在此之上，我补充五点论文没有正面处理的问题。

第一，评估的同源性。 出题、答题、评判全部由 Claude 家族完成（Sonnet 4.6 作答、Opus 4.6 判分），ARA 的层级结构、Markdown 风格与 Claude 系模型的偏好之间可能存在耦合——一个 GPT 或 Gemini 系的智能体在同样的制品上是否获得同样的增益，目前没有任何证据。考虑到论文主张的是一个跨生态的通信协议，跨模型家族验证不是锦上添花，而是协议成立的必要条件。

第二，扩展实验的统计功效。 每个（任务, 模型, 条件）只跑了单个 seed。"晚期反转"和"弱模型反转"是全文最精彩的发现，但建立在 n=1 的轨迹之上；作者自己也只敢用 suggest 这个词。8 小时 + 50 美元一次的成本可以解释为什么不跑十个 seed，但读者应当把第三层结论理解为"高质量的案例研究"，而非统计结论。

第三，激励问题整体缺位。 协议假设研究者愿意公开自己的死胡同。但在现行学术声誉体系里，公开失败记录的私人成本是真实的：竞争对手能从你的探索图里读出你的研究品味、你的算力底牌、甚至你下一步要去哪。LRM 把记录成本降到零，但没有回答"为什么要把记录公开"。负面结果期刊的失败固然有摩擦成本的原因，也有激励的原因——前者被技术解决了，后者还在。论文对 Exploration Graph 的访问控制只有一句"留作未来工作"，而这恰恰可能是采纳与否的胜负手。

第四，"能力相对充分性"的不可证伪风险。 把充分性定义在智能体能力的极限处，使制品面向未来，但也使"这个 ARA 是充分的"在今天成为一个无法被完全检验的论断——任何复现失败都可以归咎于"智能体还不够强"。Level 3 的方向性检查是一个务实的代理，但协议的核心质量判据与它的可检验性之间存在张力，作者没有讨论。

第五，谁来治理 schema。 ARA 要成为"科学的 git"，就需要一个"科学的 git 的维护者"。HTTP 有 IETF，编程语言有标准委员会；一个由单一研究团队定义、托管在个人 GitHub 上的 schema，距离承载"科学公地"的中立基础设施还有相当远的制度距离。这不是技术批评，但任何读完本文想 all-in 的人都该想清楚这一层。

最后说一句公道话：以上五点中的任何一点都不动摇论文的核心论证。两种税的量化诊断是扎实的，理解与复现两层的配对证据是充分的，扩展层的条件性结论甚至因为它的不完美而更可信——一篇主张"保留失败"的论文，自己最重要的实验章节就是在剖析自己方案的失效模式。这种自反性的诚实，在今天的 AI 论文里是稀缺品。

结语：给每一个还在写论文的人

剥到最后，这篇论文的内核是三个嵌套的论断。

最外层是一个工程论断：结构化制品在理解（+21.3%）、复现（+7.0%，且难度越大差距越大）、扩展（条件性加速）三个层次上可测量地优于 PDF+仓库。证据充分，结论成立。

中间层是一个经济学论断：科研中最稀缺的两种资源——后来者重新踩坑的算力（113 倍的中位数倍率）与专家人类的判断力（被机械核验吞噬的审稿带宽）——都源于同一个根因：知识载体为人类带宽瓶颈做的有损压缩。解除瓶颈（智能体读者）之后，压缩本身就成了纯损耗。

最内层是一个本体论论断，也是标题的真正含义：论文之死不是写作的死亡，而是一次主权移交——从"叙事"移交给"知识对象"。研究的第一性产物变成那个活的、分层的、可验证的制品；论文、视频、幻灯片都只是它面向不同读者的即时渲染。"最后一篇人类写的论文"指的不是人类停止研究或停止写作，而是人类停止把研究压缩成只有人类能读的形态。

对普通研究者，这篇论文至少有三个今天就能带走的东西。其一，下次复现别人工作受阻时，你可以精确地说出卡在了哪种税上——是组合实验矩阵没解压，还是某条 heuristic 留在了作者实验室的口头传统里。其二，如果你已经在用 coding agent 做研究，你的完整研究轨迹此刻正以文本形式存在又随会话蒸发——要不要装一个哪怕是简陋的记录层，这是一个今天就摆在面前的选择，而非未来学。其三，也是我觉得最值得深思的：当失败被证明价值 90.2% 的研究成本、当人类判断被证明是唯一不可自动化的环节，学术评价体系迟早要回答一个它回避了三百多年的问题——我们到底是在奖励知识，还是在奖励故事。

Medawar 在 1963 年说论文是一场骗局。这篇论文在 2026 年补上了后半句：骗局之所以维持了三百多年，是因为受骗的是人类，而人类愿意。现在第一批不愿意的读者已经上线了，而且它们正用 113 倍的 token，为每一个被删掉的 NG 镜头精确计价。

论文：The Last Human-Written Paper: Agent-Native Research Artifacts，arXiv:2604.24658v3

协议与全部实验代码：github.com/AmberLJC/Agent-Native-Research-Artifact

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

KV Cache 到底是什么？一文讲透大模型推理加速原理

AtomGit开源社区

【Agentic RL / 强化学习框架】Miles 项目技术分析---（2）--- 关键技术

的本质是一个适配器模式——它将"Agent 多轮交互"（业务关注点）与"RL 训练数据生产"（基础设施关注点）完全解耦。这条解耦线画在了generate()函数上。线以上是 Agent 开发者的世界——OpenAI API、工具调用、业务逻辑。线以下是 RL 基础设施的世界——Session Server、TITO、token 对齐、loss mask、异常降级。Agent 开发者不需要知道线以下

AtomGit开源社区

Faust：把 Kafka Streams 搬到 Python 里

Faust 是 Robinhood 开源的 Python 流处理库（6.8k Star），将 Kafka Streams 功能引入 Python 生态。它无需 DSL，基于 async/await 语法，支持静态类型检查，通过装饰器定义流处理逻辑。Faust 提供分布式 K/V 存储和状态管理，支持窗口聚合与故障恢复，单核每秒可处理数万事件，天然支持水平扩展。与主流 Python 库（如 NumP