AI 辅助学术写作（五）：模块化论文撰写与开源交付——从草稿到可复现研究包

Mr.Daozhi

37人浏览 · 2026-06-20 21:32:48

Mr.Daozhi · 2026-06-20 21:32:48 发布

系列终篇：前四篇完成了从铁律建立、文献综述、数据复现到扩展分析的全流程。本篇进入最后两个环节：如何让 AI 分模块起草论文正文，以及如何交付一个真正可以开源、可以被他人一键复现的研究包。

引言：为什么不能让 AI 一次性写完全文？

在所有步骤中，"让 AI 一键生成全文"是最诱人、也最危险的做法。

问题不在于 AI 写得不流畅——它能写出非常流畅的学术文字。问题在于：论文的每一段话都应该对应一个具体的数据结果或已核实的文献，而一次性生成的全文会不可避免地出现 AI 自行填补空白的情况——用你没有跑过的数字、你没有读过的文献、你没有讨论过的结论。

正确做法是模块化写作：每次只让 AI 写一个章节，而且每次都要把该章节对应的真实素材（数据、结果、文献矩阵）同时喂给它，让它只在你提供的素材范围内写作。

模块一：引言（Introduction）

引言是论文的"销售页面"，需要在四段话内完成：背景铺垫 → 研究问题 → 你的贡献 → 核心发现预告。

Prompt 模板

请帮我起草论文引言部分，约800-1000字。

【你拥有的素材】
研究背景：[2-3句描述研究的政策/社会背景]
研究问题：[你的核心研究问题，一句话]
数据与方法：[你用了什么数据、什么识别策略]
核心发现：[基准回归的主要系数，如"政策使人均GDP提高了13.8%"]
相对前人的贡献：[你比前人多做了什么，参考文献矩阵中的Gap分析]

【结构要求】
第一段（约200字）：从宏观政策背景切入，引出研究问题的重要性
第二段（约250字）：综述现有研究，指出文献空白（引用你文献矩阵中的真实文献）
第三段（约300字）：介绍本文的研究设计、数据来源、识别策略
第四段（约250字）："本文的主要发现是……" + "本文的边际贡献是……"

【约束】
1. 只引用我文献矩阵中提供的文献，不得引用其他文献
2. 核心发现的数字必须使用我提供的真实回归结果
3. 不要使用"首先、其次、再次"等中文流水账式的连接词
4. 最后一段预告文章结构（"本文其余部分安排如下……"）

【我的文献矩阵】：[粘贴文献矩阵]
【我的回归结果】：[粘贴核心系数]

🛑 引言检查点

[ ] 每一个文献引用是否都来自你的文献矩阵
[ ] 核心发现的数字是否与你实际跑出的结果一致
[ ] 研究贡献的描述是否真实、不夸大
[ ] 引言最后是否清楚预告了文章结构

模块二：数据与实证策略（Data & Empirical Strategy）

这一节的任务是把你的代码逻辑翻译成学术语言，同时解释因果识别的核心假设。

分两步走

第一步：数据描述

请根据以下描述性统计结果，撰写"数据"小节，约400字。

【素材】
数据来源：[数据库名称、时间范围、覆盖范围]
样本量：[观测值数量、县/个体数量、年份跨度]
描述性统计表（已运行代码生成）：[粘贴 CSV 内容]
变量定义表：[每个变量的名称、定义、来源]

【要求】
1. 介绍数据来源时说明其权威性和代表性
2. 描述核心变量时引用描述性统计表中的均值和标准差
3. 说明样本筛选条件及筛选理由
4. 如实反映数据的局限性（如时间跨度有限、缺乏某类信息）
5. 所有统计数字必须来自我提供的描述性统计表，不得估算

第二步：实证策略

请根据以下信息，撰写"实证策略"小节，约600字。

【模型设定】
核心回归方程：[粘贴你的数学公式或文字描述]
固定效应：[描述你使用的固定效应层级及理由]
标准误：[描述聚类方式及理由]

【识别假设】
请重点解释以下内容：
1. 平行趋势假设（Parallel Trends Assumption）：
   为什么在政策实施前，处理组和对照组的趋势是平行的？
   （参考我的事件研究图结果：政策前各期系数均不显著）
2. 排他性约束（Exclusion Restriction，若使用 IV）：
   工具变量如何影响因变量，且只通过处理变量这一渠道
3. SUTVA 假设：处理组和对照组之间不存在溢出效应的理由

【要求】
语言严谨，主动承认假设的局限性，
并说明你通过哪些稳健性检验来缓解这些担忧。

模块三：结果（Results）

这是全文最核心的部分，也是最需要防范 AI 过度解读的地方。

Prompt 模板

请根据以下回归结果，撰写"基准回归结果"小节，约500字。

【回归结果】（来自代码运行输出）
[粘贴 table1_baseline.csv 内容]

【写作要求】
1. 先描述表格的整体结构（几列，控制变量是否逐步加入）
2. 重点描述核心处理效应系数：
   - 数值（保留三位小数）
   - 统计显著性水平
   - 经济学含义（如"政策使因变量提高了X%"）
3. 描述主要控制变量的系数方向是否符合预期
4. 【重要约束】如果某个系数在统计上不显著（p > 0.1），
   必须严格表述为"无法拒绝系数为零的零假设"，
   绝不能写成"没有显著影响"或"影响不显著但为正"等模糊表述
5. 不得对结果进行超出数据范围的推断

【稳健性检验结果描述】
请另起一段，描述稳健性检验结果：
[粘贴稳健性检验的主要系数和显著性]
重点说明：基准结论是否在各类检验下保持稳健。

异质性分析结果描述

请根据以下异质性分析结果，撰写约300字的描述。

【异质性分析结果】
[粘贴分组回归的系数和置信区间]

【要求】
1. 描述不同子组的系数大小差异
2. 若两组系数之差在统计上显著，说明异质性存在
3. 结合理论或现实逻辑，提供一句话的初步解释
4. 不要过度阐发机制（机制留在下一小节讨论）
5. 引用对应的图表编号（如"如图2所示"）

模块四：摘要与结论（Abstract & Conclusion）

这两个部分放在最后写，因为它们是对全文的精炼，而不是提前预设的框架。

摘要 Prompt

请基于以下信息，撰写一个150-200字的学术摘要。

【摘要必须包含的五个要素】
1. 研究问题（一句话）：[你的核心研究问题]
2. 研究方法（一句话）：[数据来源 + 识别策略]
3. 核心发现（两句话）：[主要系数 + 经济含义]
4. 异质性/机制（一句话）：[最重要的一个扩展发现]
5. 政策含义（一句话）：[对政策制定的启示]

【格式要求】
- 单段落，不分点
- 不引用任何文献
- 不使用"本文"作为主语超过两次
- 结尾不用"本文的研究具有重要意义"这类空洞表述
- 所有数字来自真实回归结果

结论 Prompt

请基于以下全文内容摘要，撰写结论部分，约600字。

【全文核心内容】
研究问题：[一句话]
核心发现：[基准结果 + 主要扩展发现]
稳健性：[稳健性检验的主要结论]
异质性：[异质性分析的主要结论]

【结构要求】
第一段（约150字）：简要重申研究问题和方法
第二段（约200字）：总结核心发现，必须包含具体数字
第三段（约150字）：讨论研究的政策含义，要具体而非泛泛
第四段（约100字）：诚实指出研究的局限性（数据、方法、外部效度）

【约束】
1. 不得在结论中引入任何正文没有讨论过的新发现或新文献
2. 局限性部分必须真实指出方法的局限，不能只写"未来研究可以……"
3. 不使用"综上所述"、"总之"等过渡词开头

模块五：开源交付（Final Delivery）

这是整套工作流的最后一步，也是最容易被忽视的一步。

一个高质量的开源研究包，不仅能提升你在学术社区的声誉，也是期刊审稿越来越普遍的要求（如 AER、JPE 现在强制要求数据和代码开源）。

第一步：让 AI 为所有代码添加规范注释

请审查以下代码文件，为每个函数和关键代码块添加规范注释。

【注释要求】
1. 每个函数开头：说明函数的输入、输出、作用（三行以内）
2. 每个主要步骤前：一行注释说明该步骤做什么、为什么这么做
3. 所有魔法数字（如阈值 0.1、winsorize 比例）：注明来源（如"原文 p.12"）
4. 删除所有调试用的 print 语句，保留必要的进度提示

【格式】
Python 函数使用 Google Style docstring 格式，
其余注释用 # 单行注释。

[粘贴你的代码]

第二步：生成 README.md

请为我的研究项目生成一个完整的 README.md 文件。

【项目信息】
论文标题：[你的论文标题]
作者：[你的姓名和机构]
摘要：[粘贴已完成的摘要]
数据来源：[数据库名称和获取方式]

【README 必须包含以下章节】

1. 项目简介（2-3句）
2. 目录结构（树形图，解释每个目录的用途）
3. 环境配置
   - Python 版本
   - 安装依赖：pip install -r requirements.txt
4. 数据说明
   - 原始数据的获取方式（若不能公开，说明申请渠道）
   - 数据文件的放置位置
5. 复现步骤（按顺序编号）
   - Step 1: 运行数据清洗脚本
   - Step 2: 运行基准回归
   - Step 3: 运行扩展分析
   - Step 4: 生成所有图表
   - 每步预期运行时间和输出文件
6. 输出说明（每个输出文件对应论文中的哪张表/图）
7. 引用格式（BibTeX 格式）
8. 联系方式

语言：英文（如面向国际期刊）或中文（如面向国内期刊）

第三步：生成 requirements.txt

请根据我所有代码文件中的 import 语句，
生成标准的 requirements.txt 文件。

要求：
1. 锁定具体版本号（如 pandas==2.1.0，不要用 >=）
2. 按字母顺序排列
3. 区分核心依赖和开发工具（可选）
4. 添加注释说明每个包的用途

[粘贴你的所有代码文件中的 import 块]

第四步：最终文件清单核查

让 AI 帮你做交付前的最后检查：

以下是我的项目目录结构：
[粘贴 tree 命令的输出]

请帮我核查是否所有必要文件都已就位，
对照以下清单，标注"✅ 已完成"或"❌ 缺失"：

□ README.md（包含完整复现步骤）
□ requirements.txt（版本已锁定）
□ data/raw/（原始数据或数据获取说明）
□ code/01_clean.py（数据清洗，含注释）
□ code/02_baseline.py（基准回归，含注释）
□ code/03_robustness.py（稳健性检验，含注释）
□ code/04_heterogeneity.py（异质性分析，含注释）
□ code/05_event_study.py（事件研究法，含注释）
□ code/06_figures.py（图表生成，含注释）
□ output/tables/（所有结果 CSV）
□ output/figures/（所有图表 PDF + PNG）
□ paper/draft.pdf（论文最终版本）
□ .gitignore（排除数据文件和临时文件）

整套工作流的完整回顾

第一篇：建立三大铁律
   强制检查点 + 拒绝幻觉 + 完全可重复
         ↓
第二篇：文献综述
   人类找文献 → AI 生成矩阵 → 🛑 人工核查 → AI 起草
         ↓
第三篇：数据复现
   人类准备上下文 → AI 写代码 → 人类运行 → 🛑 误差对比
         ↓
第四篇：扩展分析
   AI 写安慰剂/异质性/事件研究代码 → 🛑 逐项审核 → AI 生成发表级图表
         ↓
第五篇：论文撰写与开源交付
   AI 分模块起草（引言→数据→结果→摘要结论）→ 🛑 逐章审核
   → AI 整理代码注释 → AI 生成 README → AI 锁定环境 → 开源发布

给研究生的最后建议

读完这五篇，你会发现一个规律：AI 做的所有事情，都是在你划定的边界内执行；所有关键判断，都由你来做。

这不是在贬低 AI 的能力，而是在正确理解 AI 的角色。AI 在这套工作流中真正节省的是什么？

编程时间：从"手写每一行代码"到"审核和修改 AI 生成的代码"
格式时间：从"手动整理表格和图表"到"让 AI 生成符合规范的输出"
结构时间：从"盯着空白文档发呆"到"在 AI 草稿上修改完善"

而 AI 节省不了的，也是最有价值的部分：
- 你对研究问题的洞察
- 你对识别策略合理性的判断
- 你对结果含义的解读
- 你对文献脉络的理解

一篇好的学术论文，最终靠的是研究者的智识诚实和学术判断。AI 是你的工具，不是你的替代品。用好它，你可以用更少的时间做更扎实的研究；用错它，你会在发表和声誉上付出沉重的代价。

祝你的论文顺利投稿。

系列文章索引

篇次	标题	核心内容
第一篇	三大铁律	检查点、拒绝幻觉、可重复性——AI辅助的底层认知
第二篇	文献综述	文献矩阵、扩展合理性、分主题起草——让AI整理而非发明
第三篇	数据复现	上下文准备、代码编写、误差对比、Debug流程
第四篇	扩展分析	安慰剂检验、异质性、事件研究法、发表级图表
第五篇	论文撰写与交付	模块化写作、开源研究包、README与环境锁定

本系列文章基于实际学术工作流整理，欢迎转发给正在写论文的朋友。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

2026深度实测｜终端VS可视化Vibe Coding：双工具两个月实战迭代全对比

用 Claude Code 做 vibe coding 半年，又用 TRAE Work 模式（原 SOLO 模式）做了两个月，最大的感受：终端式迭代和 IDE 式迭代是两种完全不同的编程体验。作为带3人后端研发小队的Tech Lead，我日常最频繁的需求就是口述生成数据库ORM模型、原生查询SQL，同时要求全队代码字段命名统一，避免前后端联调翻车。

AtomGit开源社区

DALI / UMAP / H5

这几个词通常出现在深度学习框架、数据处理库、AI训练平台或代码仓库的功能说明中，表示该系统支持相应的数据处理技术或文件格式。DALI 指的是 NVIDIA DALI（Data Loading Library）。它是 NVIDIA 开发的高性能数据加载与预处理框架，主要用于加速训练过程。例如 ImageNet 训练时，DALI 可以减少 CPU 成为瓶颈的问题。对于大规模视觉训练（ImageNet、