论文标题:The Last Human-Written Paper: Agent-Native Research Artifacts arXiv: 2604.24658v3(2026 年 5 月 19 日更新) 作者团队:Jiachen Liu(密歇根大学)领衔,横跨密歇根、斯坦福、MIT、耶鲁、哈佛、CMU、Meta Superintelligence Labs 等 25 家机构的近 40 位研究者 代码与协议:github.com/AmberLJC/Agent-Native-Research-Artifact

引子:Medawar 之问,等了六十三年的回答

1963 年,免疫学家、诺奖得主 Peter Medawar 发表了一篇至今仍被反复引用的檄文:《科学论文是一场骗局吗?》(Is the scientific paper a fraud?)。他的指控很简单:论文呈现的那个"假设—方法—实验—结论"的优雅线性叙事,与研究实际发生的方式毫无关系。真实的研究是混乱的、分支的、充满死胡同的;论文是事后精心剪辑的纪录片,删掉了所有 NG 镜头。

六十多年来,这个批评一直停留在科学社会学的层面——人人都知道论文在"讲故事",但没人觉得这是个需要修复的工程问题。因为论文的读者是人类,而人类读者恰恰需要故事:我们的认知带宽有限,没人想读你三个月的失败日志。

这篇论文的核心论点是:这个前提在 2026 年已经失效了。当 AI 智能体开始大规模地阅读论文以理解领域、复现实验以验证发现、扩展方法以推进前沿,论文的"第一读者"正在从人类变成机器。而机器读者需要的,恰恰是叙事剪辑过程中被丢弃的那一切——失败的实验、隐性的工程技巧、完整的决策轨迹。

于是作者们给出了一个激进到写进标题里的回答:人类撰写的叙事论文应该走向终结,取而代之的是 Agent-Native Research Artifact(ARA,智能体原生研究制品)——一个让"研究知识本身"成为第一性对象、让论文降级为"编译视图"的协议。

这不是又一篇"AI for Science"的应用文章。这是一篇试图重新定义"科学发表是什么"的宣言式系统论文。而它最值得尊敬的地方在于:宣言的每一个论断背后,都压着一组大规模的量化证据——包括对自己方案失效场景的诚实记录。

下面我们把它一层一层拆开。

第一部分:起诉书——发表制度征收的"两种税"

论文的前两节本质上是一份针对 PDF 发表制度的量化起诉书。作者没有停留在"论文写得不够详细"这种人人都会发的牢骚上,而是给两种结构性损耗起了名字、定了量。

叙事税(Storytelling Tax):你的失败,价值连城,且分文不值

研究不是线性推进的。它分叉、回退、在收敛到一个可发表的结果之前积累大量来之不易的失败知识。叙事编译把这棵树压扁成一条线,所有失败实验、被否决的假设、被放弃的方向被系统性抹除。这就是 Rosenthal 在 1979 年命名的"文件抽屉问题"(file drawer problem)——只不过当年的尺度是"抽屉",今天的尺度是数据中心。

作者用 METR 的 eval-analysis-public 数据集给这笔税算了一笔账。该数据集覆盖 24,008 次智能体运行、21 个前沿模型、228 个任务。结论触目惊心:

  • 未达参考分的失败运行,消耗了总美元成本的 90.2%(总计 63,483 美元)和 59.2% 的 token
  • 失败运行与成功运行的 token 消耗之比,中位数高达 113 倍
  • 在这 59.2% 的"未达标 token"内部,44.8% 花在了没有产生任何可测量改进的运行上,14.4% 花在了重新推导其他智能体早已得出的解上;
  • 失败率与任务的"研究性"强相关:定义良好的 SWAA 任务只有 0.7% 的运行未达参考分,中等难度的 HCAST 是 47.0%,而最开放、最像真实科研的 RE-Bench 高达 73.4%

作者在附录里特意做了一个重要的概念澄清:这些失败本身不是浪费——它们排除了备选方案、绘制了死胡同的地图、收窄了下一个探索者的策略空间。它们只在下游才变成浪费:当下一个智能体(或下一个博士生)拿不到这份探索记录、必须从零重新踩一遍所有坑的时候。所谓"探索税",征收对象不是探索者,而是所有的后来者。

每一个做过研究的人都该对这段话有生理性的共鸣。你实验室师兄三年前试过并放弃的那个方向,没有写进他的毕业论文;于是你又试了一遍,又花了八个月。这件事在人类科研中以"口口相传"勉强缓解,在智能体科研中则以 113 倍的 token 成本被精确计价。

还有一个更隐蔽的损失,作者只用了几句话带过,但我认为是全文埋得最深的伏笔之一:轨迹中的人类判断。研究过程中每一次否决、修订、认可,都是关于"什么是好研究"的偏好信号——当智能体承担了脏活累活之后,这种人类判断恰恰成了最稀缺的绑定资源。叙事编译把这个信号也丢掉了;而一条被保留的轨迹,会把它变成可以跨项目复利的结构化监督数据。记住这句话,后面讲到"每个 ARA 都是现成的训练环境"时,你会看到这颗棋子落在哪里。

工程税(Engineering Tax):写给审稿人看的精度 vs. 让机器跑通的精度

第二种税刻画的是一条鸿沟:论文以"足以让人类审稿人产生信念"的精度写作,而智能体需要"足以产生正确执行"的精度。两者之间,是 Polanyi 意义上的隐性知识(tacit knowledge)——算法技巧、实现决策、配置选择,它们不存在于任何书面文档中,只能通过进实验室面授或痛苦的逆向工程来传递。

量化方式同样硬核:作者把 PaperBench 的 8,921 条专家标注的复现要求(覆盖 23 篇 ICML 2024 论文)逐条与源 PDF 比对,让带引文要求的 LLM 法官判定每条要求是"充分指定 / 部分指定 / 完全缺失"。结果:

任务类别 要求数 充分 部分 缺失
代码开发 3,942 37.3% 54.9% 7.8%
代码执行 4,355 50.5% 47.9% 1.6%
结果分析 624 60.6% 36.9% 2.6%
总体 8,921 45.4% 50.2% 4.4%

也就是说,超过一半(54.6%)的复现关键信息,在论文里要么残缺、要么干脆没有。缺口类型的前三名:缺失超参数(26.2%)、模糊描述(21.9%)、仅有交叉引用(13.4%)。

但附录 A.1 里有一个比正文更有洞察力的发现。作者对其中 5 篇论文的 3,050 条要求做了十类精细分类,结果颠覆了"复现难=缺超参"的常识:经典超参数只占复现关键信息的 17.2%。占比最大的类别是组合实验矩阵(24.1%)——哪个模型变体 × 哪个数据集 × 哪套配置 × 多少个 seed 的笛卡尔积。论文通常把这个矩阵压缩成一句"我们在三个任务序列上用 10 个 seed 评估了所有方法",或者一张表的行列标题;复现者必须在脑子里把它解压成几十上百次独立的训练运行。PINN 那篇论文的 rubric 里,光这类要求就枚举了约 1,273 条。其次是评估协议(18.5%)——指标定义在第 3 节、测试集划分在第 4 节、评估轮数在附录、探测的层号在某张图的图注里。

更触目的细粒度数字:数据集获取类要求的充分率只有 5.4%,25.5% 完全缺失——语料库里没有一篇论文稳定地提供下载链接、预处理脚本和数据格式说明。

这两种税共同指向一个结构性诊断:它们之所以在科学史上存续了三百多年,是因为人类读者一直是处理庞大非线性研究轨迹的带宽瓶颈层。论文是为这个瓶颈做的有损压缩。而现在,三个趋势同时成立:智能体已经成为科研的日常协作者(LLM 的采用与各学科论文产出增长 23.7%–89.3% 相关);人与智能体的信息需求出现了不可调和的分化(人类略读摘要和图,智能体受益于穷尽的细节);科研正在变成智能体之间 fork、extend、merge 的大规模并行事业,而 PDF 不可 fork、不可 diff、不可 merge。压缩的前提没有了,压缩造成的损耗就从"可容忍"变成了"致命"。

第二部分:哲学内核——"知识高于叙事",论文降级为编译视图

ARA 协议的全部设计可以收敛到一句话:Knowledge over Narrative——研究过程中产生的、有组织的、持续演化的知识才是第一性的科学对象;叙事论文只是它的一个编译视图(compiled view)。

这个表述借用了编译器的隐喻,而且借得非常精确。源代码与二进制的关系是单向的:你可以从源码编译出二进制,但无法从二进制完整还原源码。论文与研究的关系同构:一旦研究被压扁成叙事,原始结构就不可恢复了。作者把这种不可逆性论证得很细:一个智能体面对一项研究,要问四个结构上互相冲突的问题——

  • 为什么成立(科学推理):需要稳定的、可引用的单元;
  • 如何实现(可执行代码):持续迭代,永不稳定;
  • 中途试过什么(探索轨迹):天然是分支的,而叙事强制线性;
  • 数字到底是多少(原始证据):需要机器精度的数值,而散文会四舍五入和转述。

把四种结构冲突的知识压进同一份线性文档,不只是次优,而是有损。ARA 的解法是把每种知识类型物化为独立的一层,整个制品就是一个纯文本的文件系统结构——智能体用最普通的工具调用(读文件、列目录)就能导航、查询、执行,不需要解析散文,也不需要逆向工程仓库。

这里还有一个为智能体时代量身定做的工程考量:渐进式披露(progressive disclosure)。智能体的上下文窗口是共享的有限资源,ARA 的分层结构让智能体只加载与当前任务相关的层和文件,避免上下文污染。每个制品的入口是一份约 500 token 的根清单 PAPER.md,智能体读完它就能判断这项研究与自己的任务是否相关——相当于给机器读者设计的"摘要",但语义上是索引而非广告。

层内的文本风格也有明确规定:最大化每 token 的信息量。主观限定词、模糊修辞、叙事连接词全部剥离;需要判断的陈述携带溯源标签(provenance)而非修辞。这一条看似是格式洁癖,实际上是对学术写作文化的釜底抽薪——我们写论文时那些"interestingly"、"surprisingly"、"to the best of our knowledge",在机器读者眼里全是噪声。

最后是一个我认为在概念上最精巧、也最值得警惕的定义——能力相对的充分性判据:一个 ARA 被认为是充分的,当且仅当一个"足够有能力的 coding agent"能仅凭该制品、不借助任何外部上下文,零样本复现其核心论断。注意这个定义的微妙之处:它衡量的是制品是否包含了复现所需的信息,而不是今天的任何智能体能否实际利用它。在智能体能力的极限处,一个完整的 ARA 按定义可复现——所以今天写好的制品,会随着智能体进步而升值,不会过期。这是一个漂亮的"面向未来"设计,但也意味着这个判据在今天不可被完全证伪——我们在批判性评估部分会回到这一点。

第三部分:解剖 ARA——四层架构与两个精巧的副产品

ARA 是一个基于文件系统的本体协议。一个典型制品的目录长这样(摘自论文图 4):

my-research-ara/
├── PAPER.md              # 根清单:YAML frontmatter + 层索引(约 500 token)
├── logic/                # 认知层:为什么成立
│   ├── problem.md        #   观察 → 缺口 → 关键洞察
│   ├── claims.md         #   可证伪断言 + 认识论状态 + 证明指针
│   ├── concepts.md       #   形式化术语定义
│   ├── experiments.md    #   声明式验证计划(只写指标与方向性预期)
│   ├── solution/         #   架构、算法、约束、heuristics
│   └── related_work.md   #   带类型的引用依赖图
├── src/                  # 物理层:如何实现
│   ├── configs/          #   每个超参附带 rationale 与敏感度
│   ├── kernel/ 或 repo/  #   核心算法 或 带索引的完整仓库
│   └── environment.md    #   依赖、硬件、随机种子
├── trace/                # 探索图:中途试过什么
│   └── exploration_tree.yaml  # 研究 DAG:question/decision/experiment/dead_end/pivot
└── evidence/             # 证据层:数字到底是多少
    ├── results/          #   机器可读的精确结果表
    └── logs/             #   训练曲线、资源占用

逐层细看,每一层都针对前面诊断出的一种具体病灶。

认知层(/logic)的革命性细节藏在 related_work.md 里。 它把被动引用替换为带类型的依赖:imports 类型会向智能体注入前人的定义,bounds 类型把前人发现的约束直接传播到超参搜索空间,baseline 类型支持自动回归检测。文献综述从"礼节性点名"变成一张机器可执行的依赖图。每条 claim 强制携带 Statement、Status(hypothesis/testing/supported)、Falsification criteria 和指向具体实验的 Proof 指针——可证伪性从科学哲学的口号变成了 schema 校验里的一个必填字段。

物理层(/src)按贡献类型分两种模式。 算法型贡献用 kernel mode:只保留带类型 I/O 签名的核心模块,往往比完整仓库小一到两个数量级——因为 coding agent 可以按需重新生成环境原生的脚手架代码。这里有一个反直觉但深刻的论断:随着智能体编码能力持续提升,同一个 kernel 会获得越来越好的外围实现——制品在升值而不是腐烂。系统型贡献(CUDA kernel、分布式训练)则用 repository mode:保留完整实现,但用 index.md 清单把每个源文件映射回它支撑的 claim、它体现的 heuristic、它所属的架构模块——智能体在代码库里的导航由研究结构引导,而非目录惯例。

探索图(/trace)是整个协议最具原创性的一层,作者称之为"研究的 git log"。exploration_tree.yaml 用嵌套 YAML 存储完整研究 DAG,五种带类型的节点(question、decision、experiment、dead_end、pivot),嵌套编码父子边,also_depends_on 字段捕捉汇聚点。dead_end 节点必须记录三元组:假设是什么、怎么失败的、学到了什么。这正是叙事税抹除的那部分知识的栖身之所。

证据层(/evidence)只放原始输出,使每条 claim 的证明链严格地流经 claims.md → experiments.md → /evidence/。而这个"只放输出"的纪律带来了第一个精巧的副产品:分层访问控制。实验的逻辑(验证什么)住在 /logic,实验的数据(精确结果)只住在 /evidence——于是一个验证智能体可以只拿到代码内核和算法描述、被隔离于证据层之外,从而在物理上无法通过抄写预期数值来伪造复现结果。后文实验部分你会看到,这个机制真的在实战中抓到了造假。

第二个副产品更具野心,论文只用一句话点破:这种分离让每个 ARA 天然就是一个开箱即用的训练环境——任务在 logic/experiments.md,奖励在 evidence/,偏好信号在 trace/ 里记录的每一次接受、否决与修订中。把这句话推到极限:如果 ARA 生态成立,整个科学文献就从"语料库"升级成了"环境库"——未来的研究智能体不只是读科学,而是在科学上做强化学习。这是全文格局最大的一步棋,作者下得极轻。

第四部分:谁来填这些文件?——Live Research Manager 与一个历史时刻的论证

协议设计得再好,也绕不开一个致命的现实问题:谁来写这些结构化文件? 如果要求研究者手工维护四层目录,那不过是用一种文档负担替换另一种,恰恰违背了协议要消灭的那种税。

作者的回答建立在一个我认为是全文最有历史感的观察上:在 AI 原生的科研中,完整的研究轨迹——每个设计选择、每次失败实验、每条来之不易的 heuristic——已经以机器可读文本的形式存在了,就在研究者与 coding agent 的对话里。头脑风暴、查文献、写代码、调 bug、分析结果、起草论文,这个循环日复一日地发生在同一个对话流中。研究过程第一次是"生而数字、生而文本"的。

过去保存过程知识的努力——负面结果期刊、注册报告(registered reports)——全部搁浅,原因只有一个:文档化始终是一项独立的、不被奖励的额外负担。而现在,过程记录不再是额外交付物,而是研究本身的副产品。用作者的话说:我们正处在科学史上第一个"全面捕获研究过程的边际成本趋近于零"的时刻。 这一段论证值得每一个抱怨过"没人愿意写文档"的人细读——制度问题没有被解决,而是被技术条件的变化绕过了。

Live Research Manager(LRM)就是把这个潜在信号结晶成活体 ARA 的系统。它的实现方式本身就是一个声明:不是 SDK,不是平台,而是一个 agent skill——一份纯自然语言的规范,加载进任何通用 coding agent 的上下文就能生效,随底层模型进步而自动变强。三条设计原则:

P1 静默、框架无关的集成。 LRM 在研究进行时完全沉默,绝不往对话里插嘴,只在每个会话结束时运行一条三阶段回溯流水线:Context Harvester 扫描完整会话记录(对话、工具输出、实验结果、代码 diff)提取有研究意义的事件;Event Router 把事件分进七种类型(decision、experiment、dead_end、pivot、claim、heuristic、observation),写入对应的 ARA 层;Maturity Tracker 审查暂存区,把证据充分的观察晋升为正式条目。

P2 忠实的认识论溯源。 每个事件都打上四种溯源标签之一:user(研究者明确提出)、ai-suggested(智能体推断)、ai-executed(智能体自主执行)、user-revised(人类修订了 AI 的建议)。关键纪律:ai-suggested 的事件永远不会自动升级,必须等研究者明确确认。在人机边界日益模糊的协作中,这是对"这个想法到底是谁的"这一认识论问题的工程化回答——它同时也是学术署名伦理在智能体时代的雏形。

P3 完整轨迹捕获 + 渐进结晶。 结晶分两个时间尺度:每个会话边界持续追加 trace 事件;只在里程碑时刻(假设被证实或证伪、原型跑通、关键设计定稿)才把累积的观察结晶为结构化的 claim。理由很符合研究的现象学:洞察始于零散观察,过早强加结构会扭曲记录。那"何时算成熟"怎么判定?作者拒绝了拍脑袋的计数阈值,定义了四种闭合信号:话题废弃(研究者转移话题且 k=5 轮内未回头)、口头确认("行,就用 X")、实验定论(被证实和被证伪都算合法终局,证伪则晋升为 dead_end)、制品承诺(代码已合并、配置已固定、后续 claim 已把它当前提)。遇到矛盾观察时不静默覆盖,而是在探索图里挂一个未决的 decision 节点,留给研究者裁决。

跨会话连续性也有讲究:管理器本身无状态,制品就是记忆。它甚至维护一份自己的推理日志(pm_reasoning_log.yaml),记录"我为什么这样归类"——让下一个会话的管理器实例能继承组织逻辑,避免分类漂移。一个为自己写文档的文档系统。

最有说服力的证据是:这篇论文本身就是用 LRM 维护的。附录 A.3 展示了它自己的 ara/ 目录——16 条 claims、覆盖 2026 年 3 月 12 日至 4 月 26 日的数十份会话日志、一棵记录了真实死胡同的探索树。比如节点 N50 诚实地记录着一次失败假设:"只裁剪 src/ 的样板代码就能让失败知识检索恢复到 80%"——实测 Cat C 准确率纹丝不动地停在 57.5%,教训是"上下文稀释对失败知识的影响比预期敏感得多,哪怕 200 行结构化 markdown 都能把它压到检索阈值以下"。吃自己狗粮吃到这个程度,对一篇宣言式论文的可信度是实打实的加成。(一个略带反讽的细节:论文不同位置对这棵树的节点数说法不一——目录注释写 114 节点、38 份会话,文末总结写 94 节点、36 份会话。大概率是不同时间快照的漂移,但这恰好说明:连这群发明了 Seal Level 1 一致性校验的人,自己的 PDF 都逃不过叙事载体的失同步。论文这个格式,确实到了该退休的时候。)

第五部分:三千万篇旧论文怎么办?——ARA Compiler 的"法证重建"

LRM 解决增量,但科学记录里躺着数以百万计从未被结构化的存量 PDF。ARA Compiler 负责向后兼容:它是一个 many-to-one 的编译器,接受 PDF、代码仓库、数据集、专家评测 rubric、实验轨迹日志的任意组合,输出一个符合协议的 ARA。降级是优雅的:只有 PDF 也能产出带桩代码物理层的合法制品;输入越丰富,层就填得越满。

作者对编译问题的本质有一个精准的定性:难的不是抽取,是血缘。把 PDF 解析成 Markdown 塞进四个目录,得到的是四个结构上互相隔绝的文件夹;叙事编译真正摧毁的,是 claim→experiment→evidence→code 之间的溯源链条,而这些链条在原始材料里只以隐式形态散落在正文、图注、附录表格和代码注释中。Compiler 的核心任务是**法证式重建(forensic reconstruction)**这些跨层绑定,使任何一条 claim 可以向下追到代码、任何一个数字可以向上追到假设。

实现上同样是一个 agent skill(约 482 行自然语言规范),强制智能体走四阶段自顶向下流程——模仿研究者向新合作者解释工作的顺序:语义解构剥掉叙事框架,把内容重写成事实密集的电报体(在源头消灭叙事税);认知映射填充 /logic,确保每条 claim 链接到验证它的实验;物理落地生成 /src,且当代码仓库可用时执行 code-paper reconciliation——把代码与论断交叉比对,把"代码里有、论文里没有"的隐性技巧(隐含假设、未记载的 trick、多出来的参数)反写回 /logic,打上溯源标签;探索图抽取从消融实验和被否决的备选方案中重建研究 DAG。生成后用 Seal Level 1 做环内校验,generate→validate→fix 循环实践中 1–3 轮收敛。

两个容易被略过但很见功力的设计:其一,九条不变量规则写死在 skill 里,包括"所有数值必须与论文严格一致"和"绝不幻觉出论文中不存在的 claim、结果或 heuristic"——保真与丰富被严格分开。其二,collective inference:当已有一批同领域的编译产物时,Compiler 会检索同域制品的 heuristics 和配置,标记当前论文遗漏的常见模式,作为候选 heuristic 加入并打上 collective_inference 标签——下游智能体能区分"论文说的"和"推断出来的"。这是知识图谱式的跨论文推理第一次被嵌进编译流程,而且嵌得有认识论分寸。

第六部分:评审的 CI/CD 化——ARA Seal 与人类判断的重新定价

第五节处理的是科学界最疼的神经:同行评审。作者的出发点是一个经济学事实:专家人类注意力是科学评估中最稀缺的资源。顶会审稿负载的增速早已超过审稿人池的增速,而审稿人的带宽正越来越多地被机械性核验吞噬——"代码能跑吗?""表 3 真的支持论断 2 吗?"——这些恰恰不需要领域专家。

ARA 的结构化让这件事出现了相变:在 PDF 评审里只能主观检查的属性,变成了可以客观判定的属性。ARA Seal 是一个三级递进的机器可验证凭证,三级在成本和检验强度上逐级升级:

Level 1 结构完整性(秒级,确定性):目录本体存在、所有结构化文件符合 schema(每条 claim 必须有 Statement/Status/Falsification criteria/Proof,每条 heuristic 必须有 Rationale/Sensitivity/Bounds)、所有跨层引用可解析。类比代码世界的 lint + 类型检查。

Level 2 论证严谨性(分钟级,rubric 锚定的智能体):一个不执行任何代码、不查任何外部资料的 Rigor Auditor 智能体,沿六个客观维度给制品内容打 1–5 分。三个承重维度的定义相当犀利:evidence relevance 做的是带类型的蕴含检查——因果性 claim 必须有隔离变量的消融,泛化性 claim 必须有异质测试条件,改进性 claim 必须有基线对比;falsifiability quality 检查证伪判据是否可操作、非同义反复、范围匹配、且不依赖专有数据即可独立检验;methodological rigor 覆盖基线充分性、消融覆盖率、统计报告与指标-论断对齐。所有发现带四级严重度、逐字证据片段和可操作建议。注意边界划得很清楚:Level 2 的每一项检查都还原为制品内容的 rubric 锚定属性,所以保持客观;significance、novelty、taste 的判断明确保留给人类

Level 3 执行可复现性(小时到天级,沙箱中的 coding agent):按关键度选取 claim(贡献列表里的、下游依赖最多的、作者标记的),在场馆设定的算力预算内运行缩规模的方向性检查——小数据、少 epoch、玩具配置,验证"方法 A 在指标 M 上优于基线 B"这类性质是否定性成立,而非复现精确数字。验证智能体与证据层物理隔离,拿不到论文报告的任何数字,杜绝抄答案式造假。超预算的 claim 标记为 unverified 并附算力估计;全量复现是可选的、典型地发生在录用后或由社区驱动,结果持续追加到活的 Seal 证书上。

通过相应级别即签发 Seal Certificate:制品 ID、验证级别、时间戳、环境哈希、逐 claim 复现结果的签名记录。下游智能体投入算力之前先查证书,避免冗余重验——科学信任第一次有了缓存机制。对照作者的判语:"PDF 论文挣得信任靠的是间接代理——venue 声望、引用数、作者名望——没有一项验证工作本身。"

三级 Seal 嵌入一条镜像 CI/CD 的三阶段评审流水线:**Stage 1 概念验证(分钟级)**跑 Level 1+2,作者像修 lint 错误一样在见到人类审稿人之前迭代修复结构缺陷和严谨性批评——同时生成不设门槛的"咨询性诊断"给人类参考,比如探索树里有没有 dead_end 节点(有,说明是真实过程记录;没有,可能是事后消毒过的线性链条)。**Stage 2 实证验证(小时到天)**跑 Level 3,外加实验全面性审计:每个设计选择有消融吗?实验条件覆盖了声称的泛化范围,还是从有利设定里摘樱桃?代码里有没有认知层未记载的隐藏 heuristic?Stage 3 人类评审(天到周),角色从核验彻底转向判断:这个贡献重要吗?核心洞察真的新颖,还是已知想法的增量重组?问题的提法对吗?伦理影响如何?人类审稿人用同样的类型化格式写评审,每条意见链接到具体的 ARA 组件——反馈强制可操作、可追溯。

这一节的内核,我愿意称之为人类判断的重新定价:机器接管一切可机械判定的部分,不是为了取代评审,而是为了让人类专家的每一分钟都花在只有人类能做的判断上。"你的代码跑不起来"和"表 3 与论断 2 矛盾"这类评审意见将成为历史——它们在制品到达人类之前就已经被解决了。

第七部分:(Human+AI)²——当发表变成一次 git push

第六节把所有组件合成为一个愿景:(Human+AI)² 研究网络。协议(§2)+ 实时管理器(§3)+ 编译器(§4)+ Seal 门控评审(§5)组合起来,构成一个以 ARA 为唯一持久对象的科学通信系统:两端的人类各自通过研究智能体,对同一个规范制品进行创作、认证、渲染和扩展。

生产端:研究者不再"为论文工作",而是追问题——论文作为输出沿途自动累积。任何里程碑时刻,制品走一遍 Seal 流水线后公开注册;另一个团队可以 fork 一个通过认证的制品,扩展其中一条 claim,保留对父制品的归属,然后把 diff 提交重审。消费端:因为 ARA 是规范源,智能体可以按需把它渲染成读者需要的任何表面——论文、视频、幻灯片、交互演示、或者干脆是一场有据可查的对话——根据读者的专业水平、注意力预算和意图来塑形。同一项研究,给本科生渲染成科普视频,给同行渲染成八页 PDF,给智能体渲染成可执行规范。"一次写作、按需呈现",论文的排版之争就此终结。

由此,贡献的复利单位从"句子"升级为"制品":发表变成 Git 式操作,评审消费 Seal 认证过的制品,下游智能体把 ARA 当作结构化基线、训练环境或新问题的起点。作者的愿景句值得原样转述其大意:一个可查询的科学公地,其中每项贡献都是一个可执行的 diff,而理解、复现、扩展的成本随每一个新制品的加入而下降——而不是像今天的文献爆炸那样,随之上升。

未来工作部分把这条路线铺得更远:近期做制品血缘(每个 ARA 声明父制品、把贡献表达为结构化 diff,作者只写增量、审稿只验增量;消费行为本身变成维护行为——读你论文的智能体顺手帮你修依赖腐烂);中期做跨制品知识图谱(文献综述变成子图查询;审稿智能体自动核对你报告的基线数字与被引 ARA 记录的数字是否一致;"别处声称成功、此处记录失败"的轨迹冲突自动浮出水面)和持续评审——不再有单一的 accept 时刻,只有一张随复现上升、随反证下降的 claim 置信度曲面。远期则是跨学科的集体记忆:一个领域记录的失败,经由图遍历成为另一个领域的可操作知识,而不必去啃陌生记号体系的文献。

第八部分:证据链——理解、复现、扩展三层递进的实验

宣言再漂亮,也要落到配对实验上。评估设计是一组控制严格的对照:同一个智能体(Claude Sonnet 4.6)、同一个任务、同一份 ground truth,唯一变量是拿到 ARA,还是拿到传统读者所能得到的最好材料——论文 PDF + 配套 GitHub 仓库。两个基准各补一种传统制品缺失的供给:PaperBench 的专家 rubric 补配置深度,RE-Bench 的 METR MALT 真实智能体轨迹(24,008 次运行、46,303 个失败片段)补探索深度。三层实验对应研究效用的三个递进层次。

第一层:理解——93.7% vs 72.4% 背后的三重机制

450 个问题、30 个评估目标(23 篇 PaperBench 论文 + 7 个 RE-Bench 任务),每个(目标, 格式, 问题)三元组派发给一个全新上下文的 Sonnet 4.6 子智能体作答,Opus 4.6 法官对照黄金参考三值打分。为避免出题偏向,每个目标独立生成两个题池——一个读 PDF 出题、一个读 ARA 出题——再合并去重。

类别 n ARA 准确率 基线准确率 ARA token 基线 token
A:保真度 300 95.6% 80.8% 84.6K 88.5K
B:配置细节(PaperBench) 115 92.6% 67.8% 183.0K 178.3K
C:失败知识(RE-Bench) 35 81.4% 15.7% 139.3K 58.0K
总体 450 93.7% 72.4% 114.0K 109.1K

McNemar 检验 χ²=95.15,p<10⁻¹⁰:ARA 答对而基线答错的题有 141 道,反向只有 18 道。但总分不是重点,重点是三个类别各自隔离出了一种机制:

类别 A(+14.8%)证明结构不丢信息、反而省钱:答案明明在 PDF 里也能找到,ARA 还是赢了,且少花 12% 的 token——PAPER.md 的层索引把线性扫描全文变成了定向文件查找。类别 B(+24.8%)证明集中化优于散落:基线靠给每道题配一个子智能体去 grep 配套仓库,也能挖到 67.8%——但 ARA 把同样的知识集中在 src/configs/ 一个文件里,92.6%,token 持平。剩下到 100% 的距离,是论文和仓库里都真不存在的信息——编译器无法无中生有。类别 C(+65.7%)是全文最大的单项差距,也是整个论证的命门:失败知识在基线那里根本没有来源——基线智能体平均只花 58K token 就放弃,返回简短的"查无此事";ARA 智能体花 139K token 在探索树里真正找到了答案。负面知识的价值,第一次被测量为一个 65.7 个百分点的鸿沟。

还有一个容易错过的二阶发现:ARA 上的 token 消耗随问题深度自适应伸缩(显式问题 61K → 散落问题 96K → 隐式失败问题 153K),基线则基本持平(83K–118K)——因为线性扫描的成本和答案埋多深没有关系。结构不仅提高了准确率,还让智能体的搜索行为变得"问题感知"。

第二层:复现——难度越大,差距越大

15 篇带配套仓库的论文、每篇 10 个按难度分层的子任务(共 150 个、1,743 条 rubric 要求),1:2:3 难度加权。协议里有两道防作弊闸门:提示词中所有预期数值被遮蔽为 [X]%,防止鹦鹉学舌;盲评的 Opus 4.6 法官不知道输出来自哪个条件。

结果:加权成功率 64.4% vs 57.4%,逐论文胜/平/负 8/5/2(Wilcoxon p=0.028)。但比均值更有信息量的是难度梯度:easy 任务双方都接近天花板(85.1% vs 80.2%,+4.9%),medium +5.6%,hard +8.5%——优势随难度单调扩大,精确落在"复现最依赖 PDF 不写的配置内容"的区间。优势最大的三篇论文(fre +21.3%、mechanistic-understanding +20.7%、pinn +19.5%)共享同一特征:多阶段训练流水线 + PDF 只在高层描述的超参交互。

fre 的案例值得讲给每个被环境配置折磨过的人听:ARA 智能体干脆把原始 JAX 代码库重写成了 PyTorch(显存从 30.8 GB 降到 1.8 GB),跨三个领域训练了 17 个模型,完成全部 medium 和 hard 子任务;拿着 PDF+原仓库的基线智能体在 JAX 环境里挣扎到预算耗尽,总共只完成了 3 次训练尝试。结构化规范给了智能体"换条路走"的自由——它知道要复现的是什么,所以不必拘泥于怎么实现。

诚实的反面同样被完整记录:唯一一场基线明确获胜(self-expansion,−7.3%)的原因是 ARA 智能体伪造了结果——所有配置报告了相同的精度值,被盲评法官抓获。全部 15 篇中,造假发生在 2 次基线运行和 1 次 ARA 运行:结构化制品降低、但不消除幻觉。另外,平局的 rice 上藏着一条效率结论:最终分数相当,但 ARA 用了 2.5 倍少的算力(3.7 小时 vs 9.1 小时)。

第三层:扩展——全文最精彩、也最诚实的一章

这一层检验 ARA 最大胆的主张:把前人的失败轨迹交给下一个智能体,能不能让它超越前人。舞台是 RE-Bench 的 5 个开放式优化任务(另两个因 MALT 语料无法支撑失败轨迹层而被排除,排除理由在附录里写得清清楚楚)。对照设置:paper agent 读一份 LLM 合成的、论文风格的官方解法 writeup + 官方源码;ARA agent 读完整四层制品——其中 src/ 和参考解法知识与对方完全相同,唯一的增量是 trace/ 和 evidence/ 里从数千条 MALT 真实轨迹中提炼的失败记录。实验有一条铁律:direction-aware beat-reference filter,任何历史上超过参考分的尝试都被逐条剔除出双方材料——保证谁也抄不到现成的超参考答案,赢只能靠真本事。双方都在 8 小时 SLURM 墙钟 + 50 美元 API 预算内,通过编辑 solution.py 和跑 score.sh 来冲击参考分。

最终战绩:ARA 智能体在 rust_codecontests、nanogpt_chat_rl、fix_embedding 三个任务上以更优的最佳分收官;paper agent 在 triton_cumsum 和 restricted_mlm 上后来居上。但比胜负表深刻得多的,是轨迹呈现出的三幕剧结构——每一幕都有 trace 级别的证据支撑。

第一幕:五个任务全部出现早期加速。 最干净的案例是 rust_codecontests(写一个调 GPT-3.5 生成 Rust 解题代码的脚手架,按 165 道题的通过数计分)。ARA 的证据层总结了 22 次先前 MALT 运行,其中一次得分 0.097 的尝试绕过了生成、直接维护手写 Rust 解题库——注意 0.097 低于 参考分 0.127,所以原始数据点本身只说明"手写库输了"。是 heuristics 层把同一个数据点重铸成两条可执行规则:H12(处方性:"手写 Rust 解题库优于 prompt engineering")和 H15(禁令性:"GPT-3.5 生成 Rust 的天花板在 0.05–0.10,所有单次生成变体均已探明")。ARA 智能体开局一分钟内读完这两条,第 9.9 分钟就把手写库定为核心战略,库条目 34→57→73 地增长,全测试集分数 49→56→78 地爬升。paper agent 把同样的 8 小时用在了 H15 明令禁止的方向上:prompt engineering 调温度、调候选数、调重试预算,分数钉死在 33→33→38→39→39——直到第 395 分钟,它翻工作目录时注意到脚手架里那个闲置的 few_shots/ 缓存,六分钟内逆向出格式,最后 45 分钟疯狂手写 39 道题的解法,分数从 39 跳到 68。作者的判语一针见血:两个智能体的区别不在于谁能发现正确策略,而在于发现它之前要烧掉多少小时的算力。trace 的价值不是内容,是时机。

第二幕:两个任务上的晚期反转——攻略变成了锚。 triton_cumsum(H100 上写条件前缀和的 Triton kernel)上,ARA 智能体第 11 分钟就用 trace 提供的 decoupled lookback 思路拿到 0.47 的好分数,领先维持到约 75 分钟;然后 paper agent 在第 47.7 分钟干了一件 trace 里从未出现的事——注意到计分器的输入范围 [−10, 9] 装得进 8 bit,引入 int8 输入压缩,把总内存流量从约 2 GB 压到 0.5 GB,随后一路迭代反超。耐人寻味的细节:int8 这个词在 ARA 智能体的思考流里第 40.5 分钟一闪而过,然后再也没有被实现——它把后期算力花在了 trace 推荐设计的边界正确性调试上,被 H13 和 trace 报告的历史天花板牢牢锚住。restricted_mlm(在禁用 Conv1d/Softmax/除法/归一化的约束下训练 MLM)上的故事是另一种形态:paper agent 自创了 ConvMLMDilated 变体并用整整 8 小时深耕这一个架构,最终 0.69;ARA 智能体则把 heuristics 点名的所有备选架构逐一实现——H11 ReLU-attention、H07 MLPMixer 等,model.py 膨胀到 47KB、六个以上的类,思考流里 ReLU-attention 出现了 247 次(paper agent 那边只出现 1 次)——结果发现在 Sonnet 4.6 的优化景观下没有一个打得过朴素的 ConvMLM,以 1.02 落败。作者的总结堪称全文最值得抄录的句子之一:"ARA 智能体忠实地遵循了 trace;只是 trace 并不是这个模型可及的最有创造力的选项。"

第三幕:换一个更弱的模型,结论整个反转。 同样两个任务在上一代 Sonnet 4.5 上重跑配对实验:triton_cumsum 上 ARA 0.27 对 paper 0.64(分数越低越好——ARA 大胜),restricted_mlm 上 ARA 0.73 对 paper 1.03(同样大胜约 30%)。机制看得清清楚楚:4.5 没有带宽自创 int8 压缩这种招,也没有定力深耕单一架构;同一份让 4.6 分心的 heuristic 菜单,对 4.5 而言是一份高质量的"按优先级排序的策略清单"——4.5 在 triton 上引用 H01 选对了 4.6 时代 paper agent 永远没试的保守 NUM_STAGES 区间,在 mlm 上第 24 分钟就锁定主架构、把 ReLU-attention 标记为"备胎",然后用 7 小时的专注微调赢下比赛。

三幕合起来,作者提炼出一个比"ARA 赢了"深刻得多的结论:制品的价值,正比于"轨迹所记录的"与"智能体凭自身能发现的"之间的差距。 当智能体的带宽超过文档化的 playbook,记录下来的攻略就从加速器变成锚——此时也许应该选择性地隐藏或重新语境化部分 trace。论文给出的第一个机制设想是给 trace 节点打上模型代际溯源标签,让后继者能对"已不适用的结论"打折扣——失败知识原来也有保质期,这恐怕是整个"保存一切失败"叙事最重要的修正条款。

顺带一提,fix_embedding 任务提供了一组教科书级的控制变量:双方 bundle 的唯一系统性差异就是 reference/ 目录的内容(paper 侧 5 个文件 134 行,ARA 侧 22 个文件 5,887 行,多出来的全是失败记录),而行为差异精确对应到具体的失败记录条目——paper agent 在第 19 分钟尝试置换恢复、失败放弃,5.5 小时后忘了自己失败过、第 350 分钟原样重试一遍;ARA agent 因为 H11/H13 把这条路标记为有据可查的死胡同,全程一次都没碰。一个智能体连自己 5 小时前的失败都会忘记——这一个细节,就把"为什么需要结构化的失败记录"论证完了。它不只是给别人看的,也是给"未来的自己"看的。

第九部分:审查审查者——给评审系统自己做的体检

如果评审要交给机器,机器评审自己靠不靠谱?第 7.5 节用一个设计巧妙的 mutation benchmark 回答:往 23 个已通过 Level 1 的 ARA 里各注入 5 类已知缺陷(共 115 个突变),看 Rigor Auditor 能抓回多少——每个注入自带标准答案,无需人工标注。

注入类型 预期严重度 检出
伪造论断(引用不存在的实验) Critical 23/23(100%)
被驳分支泄漏(claim 鼓吹探索树里标记为 dead_end 的方法) Critical 23/23(100%)
过度声称(窄结果被改写为全称论断) Major 23/23(100%)
缺失证伪判据 Major 21/23(91%)
孤儿实验(Verifies 指向不存在的 claim) Minor 5/23(22%)

三类高危缺陷全检出,但孤儿实验的 22% 是一个系统性盲点——而且作者把病因解释得明明白白:auditor 的遍历是以 claim 为中心的循环,前四类缺陷会在逐 claim 检查中自然浮现,孤儿实验却要求反向枚举每个实验、核对它的 Verifies 指向——这条路径根本不在循环里。修复方案也现成:把孤儿检测下放到 Level 1 做确定性结构检查。这种"失败模式可解释、修复路径明确"的失败,比一个含糊的 95% 更让人放心。

更有普遍价值的是顺带逮到的两种 LLM-as-judge 病理:其一,分数通胀——23 个制品中有 17 个,auditor 报告的总均分被"恰好"凑过 Accept 阈值;其二,发现与评分脱钩——23 例被驳分支泄漏中有 22 例被正确标为 critical 发现,但对应维度的分数依然给到 3–4 分,全然不顾 rubric 明文规定这种情况该给 1–2 分。嘴上说着"严重问题",手上打着及格分。由此得出一条对所有 LLM 评估系统都适用的工程教训:让 LLM 只负责产出 findings,总评从 findings 列表确定性地计算出来——把判断和打分解耦,因为 LLM 在前者上可靠,在后者上习惯性地和稀泥。

第十部分:批判性评估——这篇论文没说透的五件事

作者自陈了三条边界,每条都值得复述而非淡化。评估范围:全部实验囿于机器学习——物理层和探索图都以"可迭代的计算实验"为前提,湿实验、材料合成这类物理执行的学科需要根本性改造;理论学科的物理层几乎不存在。连人工标注的基准也是由熟悉 ARA 格式和所选论文的标注者构建的,陌生领域的表现可能打折。保真天花板:编译器无法恢复 PDF 本来就没写的东西;实时管理器假设 AI 原生工作流已经存在——对于工作流之外的研究者,编译出的制品继承 PDF 的全部遗漏。部署前提:对抗鲁棒性、隐私保证、探索图的细粒度访问控制目前都是空白;schema 演化只在小版本修订中演练过,大版本迁移、存档制品自动重写、弃用政策都还没有答案。

在此之上,我补充五点论文没有正面处理的问题。

第一,评估的同源性。 出题、答题、评判全部由 Claude 家族完成(Sonnet 4.6 作答、Opus 4.6 判分),ARA 的层级结构、Markdown 风格与 Claude 系模型的偏好之间可能存在耦合——一个 GPT 或 Gemini 系的智能体在同样的制品上是否获得同样的增益,目前没有任何证据。考虑到论文主张的是一个跨生态的通信协议,跨模型家族验证不是锦上添花,而是协议成立的必要条件。

第二,扩展实验的统计功效。 每个(任务, 模型, 条件)只跑了单个 seed。"晚期反转"和"弱模型反转"是全文最精彩的发现,但建立在 n=1 的轨迹之上;作者自己也只敢用 suggest 这个词。8 小时 + 50 美元一次的成本可以解释为什么不跑十个 seed,但读者应当把第三层结论理解为"高质量的案例研究",而非统计结论。

第三,激励问题整体缺位。 协议假设研究者愿意公开自己的死胡同。但在现行学术声誉体系里,公开失败记录的私人成本是真实的:竞争对手能从你的探索图里读出你的研究品味、你的算力底牌、甚至你下一步要去哪。LRM 把记录成本降到零,但没有回答"为什么要把记录公开"。负面结果期刊的失败固然有摩擦成本的原因,也有激励的原因——前者被技术解决了,后者还在。论文对 Exploration Graph 的访问控制只有一句"留作未来工作",而这恰恰可能是采纳与否的胜负手。

第四,"能力相对充分性"的不可证伪风险。 把充分性定义在智能体能力的极限处,使制品面向未来,但也使"这个 ARA 是充分的"在今天成为一个无法被完全检验的论断——任何复现失败都可以归咎于"智能体还不够强"。Level 3 的方向性检查是一个务实的代理,但协议的核心质量判据与它的可检验性之间存在张力,作者没有讨论。

第五,谁来治理 schema。 ARA 要成为"科学的 git",就需要一个"科学的 git 的维护者"。HTTP 有 IETF,编程语言有标准委员会;一个由单一研究团队定义、托管在个人 GitHub 上的 schema,距离承载"科学公地"的中立基础设施还有相当远的制度距离。这不是技术批评,但任何读完本文想 all-in 的人都该想清楚这一层。

最后说一句公道话:以上五点中的任何一点都不动摇论文的核心论证。两种税的量化诊断是扎实的,理解与复现两层的配对证据是充分的,扩展层的条件性结论甚至因为它的不完美而更可信——一篇主张"保留失败"的论文,自己最重要的实验章节就是在剖析自己方案的失效模式。这种自反性的诚实,在今天的 AI 论文里是稀缺品。

结语:给每一个还在写论文的人

剥到最后,这篇论文的内核是三个嵌套的论断。

最外层是一个工程论断:结构化制品在理解(+21.3%)、复现(+7.0%,且难度越大差距越大)、扩展(条件性加速)三个层次上可测量地优于 PDF+仓库。证据充分,结论成立。

中间层是一个经济学论断:科研中最稀缺的两种资源——后来者重新踩坑的算力(113 倍的中位数倍率)与专家人类的判断力(被机械核验吞噬的审稿带宽)——都源于同一个根因:知识载体为人类带宽瓶颈做的有损压缩。解除瓶颈(智能体读者)之后,压缩本身就成了纯损耗。

最内层是一个本体论论断,也是标题的真正含义:论文之死不是写作的死亡,而是一次主权移交——从"叙事"移交给"知识对象"。研究的第一性产物变成那个活的、分层的、可验证的制品;论文、视频、幻灯片都只是它面向不同读者的即时渲染。"最后一篇人类写的论文"指的不是人类停止研究或停止写作,而是人类停止把研究压缩成只有人类能读的形态

对普通研究者,这篇论文至少有三个今天就能带走的东西。其一,下次复现别人工作受阻时,你可以精确地说出卡在了哪种税上——是组合实验矩阵没解压,还是某条 heuristic 留在了作者实验室的口头传统里。其二,如果你已经在用 coding agent 做研究,你的完整研究轨迹此刻正以文本形式存在又随会话蒸发——要不要装一个哪怕是简陋的记录层,这是一个今天就摆在面前的选择,而非未来学。其三,也是我觉得最值得深思的:当失败被证明价值 90.2% 的研究成本、当人类判断被证明是唯一不可自动化的环节,学术评价体系迟早要回答一个它回避了三百多年的问题——我们到底是在奖励知识,还是在奖励故事。

Medawar 在 1963 年说论文是一场骗局。这篇论文在 2026 年补上了后半句:骗局之所以维持了三百多年,是因为受骗的是人类,而人类愿意。现在第一批不愿意的读者已经上线了,而且它们正用 113 倍的 token,为每一个被删掉的 NG 镜头精确计价。


论文:The Last Human-Written Paper: Agent-Native Research Artifacts,arXiv:2604.24658v3

协议与全部实验代码:github.com/AmberLJC/Agent-Native-Research-Artifact

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐