AI 时代的统计学：去向何方？

arlionn

38人浏览 · 2026-05-27 12:38:12

arlionn · 2026-05-27 12:38:12 发布

温馨提示：若页面不能正常显示数学公式和代码，请阅读原文获得更好的阅读体验。

作者： 丁星星 (连享会)
邮箱： lianxhcn@163.com

分类：AI 专题
Title: AI 时代的统计学：去向何方？
Keywords: 数据科学, 数据库构建, Rebuilding Statistics in the Age of AI
提要：本文介绍了 Donoho 等 (2026) 的《"Rebuilding" Statistics in the Age of AI》，这篇文章记录了 2024 年 JSM 上一场关于「AI 时代统计学」的圆桌讨论。文章围绕统计文化、数据整理、现代经验建模、AI 时代人才培养，以及统计学如何与 AI 生态中各方合作展开，提出了许多重要的观点和启示。

原文：Donoho, D. L., Kang, J., Lin, X., Mukherjee, B., Nettleton, D., Nugent, R., Rodriguez, A., Xing, E. P., Zheng, T., & Zhu, H. (2026). "Rebuilding" Statistics in the Age of AI: A Town Hall Discussion on Culture, Infrastructure, and Training (Version 1). arXiv. Link, PDF, Google

Donoho 等 (2026) 的 arXiv 页面

「AI 会不会替代统计学？」很多人都有类似的疑问，但这篇文章给出的答案不是会或不会。它要讨论的是：当数据规模、模型结构、计算基础设施和知识生产方式都在变，统计学靠原来的课程体系、论文范式和学科边界，是否需要重建？如果需要重建，重建的内容是什么？重建的方式是什么？

2024 年 JSM（Joint Statistical Meetings）期间，统计学界和机器学习界的一批重要学者围坐在一起，开了一场圆桌讨论，话题是：AI 时代，统计学该怎么办？参与者包括 David Donoho、Xihong Lin、Bhramar Mukherjee、Eric Xing、Hongtu Zhu 等人，横跨统计学、生物统计和机器学习。大家没有回避分歧，也没有给出整齐划一的答案，而是把各自的判断和困惑都摆了出来。

Donoho 等 (2026) 的《"Rebuilding" Statistics in the Age of AI》是这次圆桌讨论的整理稿。文章有意保留了现场讨论和问答的语气，围绕统计文化、数据整理、现代经验建模、AI 时代人才培养，以及统计学如何与 AI 生态中各方合作展开。(arXiv)

本文介绍这篇文章的主要观点，为研究者和学生提供一些思考的视角。

AI 时代统计学重建的核心议题

图 1：AI 时代统计学重建的核心议题：文化、数据、模型、训练与基础设施。

1. 冲击不只来自技术层面

谈 AI 对统计学的冲击，很多人容易把问题理解成工具更新：是否熟悉 Transformer，是否会用大语言模型，是否掌握扩散模型。

但这篇文章提出的问题更深：统计学的工作方式是否仍停留在「提出方法、证明性质、跑几个例子、发表论文」这个相对封闭的循环里？如果是，工具学再多也填不上这个缺口。

Xihong Lin 在讨论中提出，统计学需要从单点方法转向端到端的数据科学生态系统，至少包括三部分：公平而多样的数据、统计机器学习和 AI 方法及基础设施、可解释的数据分析结果。她还特别强调，大数据环境下数据公平性往往比数据规模更重要，偏差问题可能比方差问题更关键。

这对实证研究者是直接的提醒。很多论文把大量精力放在回归表和稳健性检验上，却没有充分交代数据是如何生成的、样本为何会进入观察范围、缺失值如何产生、结果能否外推。AI 时代只是把这个老问题放大了——模型越复杂，数据生成机制越不能被忽略。

用企业年报文本研究数字化转型时，年报文本是否真的反映了企业能力？用招聘文本研究 AI 暴露度时，岗位描述由谁写、怎么写？用平台数据研究消费行为时，谁被系统性排除在数据之外？这些不是模型之后的细节，而是研究设计本身的一部分。

2. 数据工作不是脏活

文章中最值得重视的一点，是重新评价 data work。

这里的 data work 不只是清洗数据，而包括收集、标注、整理、索引、接口、管道、复用、部署和维护。很多人愿意做模型，不愿意做数据。但 AI 系统里，数据标注和数据整理决定了偏差、鲁棒性和可信度——这个链条绕不开。

Xihong Lin 提到，真正的端到端数据科学生态需要更深地进入数据工程，包括分析管道构建、自动化和云端部署。她以全基因组测序数据为例说明，当数据规模足够大时，「把数据下载到本地」已经行不通，新的模式是把研究者带到数据所在的平台上。

对中文实证研究来说，这一点尤其扎心。我们常见的倾向是：数据整理是论文前期的「脏活」，只有模型设定、识别策略和估计结果才算真正的学术贡献。但一个高质量的企业供应链数据库、政策文本库、地方财政数据库，往往比一个边际上更复杂的回归规格更有长期价值。

遗憾的是，现有评价体系更容易奖励方法包装，而不是奖励可复用的数据基础设施。AI 系统并不会自动消除数据偏差，反而会把偏差以更隐蔽、更大规模的方式扩散出去。统计学长期关心抽样、代表性、缺失、测量误差和混杂因素，这些优势是真实存在的——问题是，它们必须进入数据生产和系统构建过程，而不能只在审稿意见里才露面。

3. 不能只站在 AI 外面批评

文章并不主张放弃统计学传统。相反，它反复强调不确定性量化、偏差识别、抽样设计、因果推断、可解释性的独特价值。

但强调归强调，这些价值必须进入 AI 系统内部，而不是只停留在外部评论。

Abel Rodriguez 指出，统计学者的优势在于不只关心点预测，也关心区间预测、估计不确定性、数据收集过程和数据偏差。但统计学训练中还缺少「中等水平的计算素养」：Git、基本软件工程、API 数据访问，以及把大语言模型纳入统计工作流的能力。

这句话对经管类研究训练同样适用。学生可能能熟练解释固定效应和工具变量，但未必能规范管理一个项目文件夹，未必会用 Git 记录代码变化，也未必能把论文、代码、图表、日志和复现说明组织成一个可交付的研究项目。

Eric Xing 的观点更直接。他认为，现代 AI 系统并不总是从概率模型和似然函数出发，而是依赖海量数据、通用架构、工程优化、分布式计算、后训练、检索增强和用户反馈。大语言模型的成功迫使统计学重新回答：什么是理解？什么是严谨？什么样的证据足以说明一个系统有效？

这不是说理论不重要，而是说理论需要解释新的重要现象——大语言模型的不确定性如何度量？合成数据能否进入统计推断？没有传统抽样框的互联网数据如何定义总体？一个 AI 系统部署之后如何持续监测和校准？这些问题都需要统计学参与，但参与方式不能只是把旧公式套到新对象上。真正的问题是：统计学能否提出一套让 AI 系统更可靠、更可解释的知识框架和工作流程。

4. 课程改革不只是加课

文章对统计学教育的反思很具体，也很有意思。

Dan Nettleton 提出，统计学界不能把所有学生训练成同一种人。他用了一个比喻：随机森林之所以有效，恰恰是因为每棵树不完全相同；如果所有树都一样，随机森林就退化成一棵树。统计学界也是如此——如果所有学生都接受高度同质化的训练，整个学科的适应能力就会下降。

Bhramar Mukherjee 指出，统计学教育需要更强调三个 C：communication、collaboration 和 computation，同时要把 AI 数学基础、图与网络随机建模、Transformer 和自编码器纳入课程，而不是长期停留在选修课层面。

Eric Xing 的提法更直白：不应只是往学生身上继续堆工具，而要让他们面对真实问题，培养好奇心，并判断现有课程中哪些内容应该删掉。课程改革不只是「加课」，也包括「删课」——旧课程中有些内容已经很少服务于学生未来面对的问题，就必须重新评估它们的位置。

对经管类实证研究训练而言，这一点同样关键。学生光熟悉固定效应、断点回归和 DID 还不够，还需要知道如何组织一个可复现的研究项目：版本控制和协作写作、数据 API 与数据库访问、文本与网络数据处理、AI 辅助编程、模型评估与可视化、数据伦理和算法偏差分析。

这不是降低统计推断的重要性，恰恰相反——只有当学生能把统计推断放到完整数据流程中理解，他们才更能体会识别假设、样本选择和因果解释为什么重要。

温馨提示：若页面不能正常显示数学公式和代码，请阅读原文获得更好的阅读体验。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

一个GitHub Issue就能投毒Claude Code？我拆解了整条供应链攻击链

上周Claude Code刚被AMD AI负责人用23万次调用记录实锤"越更新越差"[1]，这周它的GitHub Actions又被安全研究者扒出了一个供应链级别的漏洞——一个恶意GitHub Issue，就能让Claude Code帮你把仓库Secret全偷走，甚至往你的代码里投毒[2]。这个漏洞有多严重？CVSS v4.0评分7.8，Anthropic为此支付了4800美元赏金。更可怕的是，A