系列终篇:前四篇完成了从铁律建立、文献综述、数据复现到扩展分析的全流程。本篇进入最后两个环节:如何让 AI 分模块起草论文正文,以及如何交付一个真正可以开源、可以被他人一键复现的研究包。


引言:为什么不能让 AI 一次性写完全文?

在所有步骤中,"让 AI 一键生成全文"是最诱人、也最危险的做法。

问题不在于 AI 写得不流畅——它能写出非常流畅的学术文字。问题在于:论文的每一段话都应该对应一个具体的数据结果或已核实的文献,而一次性生成的全文会不可避免地出现 AI 自行填补空白的情况——用你没有跑过的数字、你没有读过的文献、你没有讨论过的结论。

正确做法是模块化写作:每次只让 AI 写一个章节,而且每次都要把该章节对应的真实素材(数据、结果、文献矩阵)同时喂给它,让它只在你提供的素材范围内写作。


模块一:引言(Introduction)

引言是论文的"销售页面",需要在四段话内完成:背景铺垫 → 研究问题 → 你的贡献 → 核心发现预告。

Prompt 模板

请帮我起草论文引言部分,约800-1000字。

【你拥有的素材】
研究背景:[2-3句描述研究的政策/社会背景]
研究问题:[你的核心研究问题,一句话]
数据与方法:[你用了什么数据、什么识别策略]
核心发现:[基准回归的主要系数,如"政策使人均GDP提高了13.8%"]
相对前人的贡献:[你比前人多做了什么,参考文献矩阵中的Gap分析]

【结构要求】
第一段(约200字):从宏观政策背景切入,引出研究问题的重要性
第二段(约250字):综述现有研究,指出文献空白(引用你文献矩阵中的真实文献)
第三段(约300字):介绍本文的研究设计、数据来源、识别策略
第四段(约250字):"本文的主要发现是……" + "本文的边际贡献是……"

【约束】
1. 只引用我文献矩阵中提供的文献,不得引用其他文献
2. 核心发现的数字必须使用我提供的真实回归结果
3. 不要使用"首先、其次、再次"等中文流水账式的连接词
4. 最后一段预告文章结构("本文其余部分安排如下……")

【我的文献矩阵】:[粘贴文献矩阵]
【我的回归结果】:[粘贴核心系数]

🛑 引言检查点

  • [ ] 每一个文献引用是否都来自你的文献矩阵
  • [ ] 核心发现的数字是否与你实际跑出的结果一致
  • [ ] 研究贡献的描述是否真实、不夸大
  • [ ] 引言最后是否清楚预告了文章结构

模块二:数据与实证策略(Data & Empirical Strategy)

这一节的任务是把你的代码逻辑翻译成学术语言,同时解释因果识别的核心假设。

分两步走

第一步:数据描述

请根据以下描述性统计结果,撰写"数据"小节,约400字。

【素材】
数据来源:[数据库名称、时间范围、覆盖范围]
样本量:[观测值数量、县/个体数量、年份跨度]
描述性统计表(已运行代码生成):[粘贴 CSV 内容]
变量定义表:[每个变量的名称、定义、来源]

【要求】
1. 介绍数据来源时说明其权威性和代表性
2. 描述核心变量时引用描述性统计表中的均值和标准差
3. 说明样本筛选条件及筛选理由
4. 如实反映数据的局限性(如时间跨度有限、缺乏某类信息)
5. 所有统计数字必须来自我提供的描述性统计表,不得估算

第二步:实证策略

请根据以下信息,撰写"实证策略"小节,约600字。

【模型设定】
核心回归方程:[粘贴你的数学公式或文字描述]
固定效应:[描述你使用的固定效应层级及理由]
标准误:[描述聚类方式及理由]

【识别假设】
请重点解释以下内容:
1. 平行趋势假设(Parallel Trends Assumption):
   为什么在政策实施前,处理组和对照组的趋势是平行的?
   (参考我的事件研究图结果:政策前各期系数均不显著)
2. 排他性约束(Exclusion Restriction,若使用 IV):
   工具变量如何影响因变量,且只通过处理变量这一渠道
3. SUTVA 假设:处理组和对照组之间不存在溢出效应的理由

【要求】
语言严谨,主动承认假设的局限性,
并说明你通过哪些稳健性检验来缓解这些担忧。

模块三:结果(Results)

这是全文最核心的部分,也是最需要防范 AI 过度解读的地方。

Prompt 模板

请根据以下回归结果,撰写"基准回归结果"小节,约500字。

【回归结果】(来自代码运行输出)
[粘贴 table1_baseline.csv 内容]

【写作要求】
1. 先描述表格的整体结构(几列,控制变量是否逐步加入)
2. 重点描述核心处理效应系数:
   - 数值(保留三位小数)
   - 统计显著性水平
   - 经济学含义(如"政策使因变量提高了X%")
3. 描述主要控制变量的系数方向是否符合预期
4. 【重要约束】如果某个系数在统计上不显著(p > 0.1),
   必须严格表述为"无法拒绝系数为零的零假设",
   绝不能写成"没有显著影响"或"影响不显著但为正"等模糊表述
5. 不得对结果进行超出数据范围的推断

【稳健性检验结果描述】
请另起一段,描述稳健性检验结果:
[粘贴稳健性检验的主要系数和显著性]
重点说明:基准结论是否在各类检验下保持稳健。

异质性分析结果描述

请根据以下异质性分析结果,撰写约300字的描述。

【异质性分析结果】
[粘贴分组回归的系数和置信区间]

【要求】
1. 描述不同子组的系数大小差异
2. 若两组系数之差在统计上显著,说明异质性存在
3. 结合理论或现实逻辑,提供一句话的初步解释
4. 不要过度阐发机制(机制留在下一小节讨论)
5. 引用对应的图表编号(如"如图2所示")

模块四:摘要与结论(Abstract & Conclusion)

这两个部分放在最后写,因为它们是对全文的精炼,而不是提前预设的框架。

摘要 Prompt

请基于以下信息,撰写一个150-200字的学术摘要。

【摘要必须包含的五个要素】
1. 研究问题(一句话):[你的核心研究问题]
2. 研究方法(一句话):[数据来源 + 识别策略]
3. 核心发现(两句话):[主要系数 + 经济含义]
4. 异质性/机制(一句话):[最重要的一个扩展发现]
5. 政策含义(一句话):[对政策制定的启示]

【格式要求】
- 单段落,不分点
- 不引用任何文献
- 不使用"本文"作为主语超过两次
- 结尾不用"本文的研究具有重要意义"这类空洞表述
- 所有数字来自真实回归结果

结论 Prompt

请基于以下全文内容摘要,撰写结论部分,约600字。

【全文核心内容】
研究问题:[一句话]
核心发现:[基准结果 + 主要扩展发现]
稳健性:[稳健性检验的主要结论]
异质性:[异质性分析的主要结论]

【结构要求】
第一段(约150字):简要重申研究问题和方法
第二段(约200字):总结核心发现,必须包含具体数字
第三段(约150字):讨论研究的政策含义,要具体而非泛泛
第四段(约100字):诚实指出研究的局限性(数据、方法、外部效度)

【约束】
1. 不得在结论中引入任何正文没有讨论过的新发现或新文献
2. 局限性部分必须真实指出方法的局限,不能只写"未来研究可以……"
3. 不使用"综上所述"、"总之"等过渡词开头

模块五:开源交付(Final Delivery)

这是整套工作流的最后一步,也是最容易被忽视的一步。

一个高质量的开源研究包,不仅能提升你在学术社区的声誉,也是期刊审稿越来越普遍的要求(如 AER、JPE 现在强制要求数据和代码开源)。

第一步:让 AI 为所有代码添加规范注释

请审查以下代码文件,为每个函数和关键代码块添加规范注释。

【注释要求】
1. 每个函数开头:说明函数的输入、输出、作用(三行以内)
2. 每个主要步骤前:一行注释说明该步骤做什么、为什么这么做
3. 所有魔法数字(如阈值 0.1、winsorize 比例):注明来源(如"原文 p.12")
4. 删除所有调试用的 print 语句,保留必要的进度提示

【格式】
Python 函数使用 Google Style docstring 格式,
其余注释用 # 单行注释。

[粘贴你的代码]

第二步:生成 README.md

请为我的研究项目生成一个完整的 README.md 文件。

【项目信息】
论文标题:[你的论文标题]
作者:[你的姓名和机构]
摘要:[粘贴已完成的摘要]
数据来源:[数据库名称和获取方式]

【README 必须包含以下章节】

1. 项目简介(2-3句)
2. 目录结构(树形图,解释每个目录的用途)
3. 环境配置
   - Python 版本
   - 安装依赖:pip install -r requirements.txt
4. 数据说明
   - 原始数据的获取方式(若不能公开,说明申请渠道)
   - 数据文件的放置位置
5. 复现步骤(按顺序编号)
   - Step 1: 运行数据清洗脚本
   - Step 2: 运行基准回归
   - Step 3: 运行扩展分析
   - Step 4: 生成所有图表
   - 每步预期运行时间和输出文件
6. 输出说明(每个输出文件对应论文中的哪张表/图)
7. 引用格式(BibTeX 格式)
8. 联系方式

语言:英文(如面向国际期刊)或中文(如面向国内期刊)

第三步:生成 requirements.txt

请根据我所有代码文件中的 import 语句,
生成标准的 requirements.txt 文件。

要求:
1. 锁定具体版本号(如 pandas==2.1.0,不要用 >=)
2. 按字母顺序排列
3. 区分核心依赖和开发工具(可选)
4. 添加注释说明每个包的用途

[粘贴你的所有代码文件中的 import 块]

第四步:最终文件清单核查

让 AI 帮你做交付前的最后检查:

以下是我的项目目录结构:
[粘贴 tree 命令的输出]

请帮我核查是否所有必要文件都已就位,
对照以下清单,标注"✅ 已完成"或"❌ 缺失":

□ README.md(包含完整复现步骤)
□ requirements.txt(版本已锁定)
□ data/raw/(原始数据或数据获取说明)
□ code/01_clean.py(数据清洗,含注释)
□ code/02_baseline.py(基准回归,含注释)
□ code/03_robustness.py(稳健性检验,含注释)
□ code/04_heterogeneity.py(异质性分析,含注释)
□ code/05_event_study.py(事件研究法,含注释)
□ code/06_figures.py(图表生成,含注释)
□ output/tables/(所有结果 CSV)
□ output/figures/(所有图表 PDF + PNG)
□ paper/draft.pdf(论文最终版本)
□ .gitignore(排除数据文件和临时文件)

整套工作流的完整回顾

第一篇:建立三大铁律
   强制检查点 + 拒绝幻觉 + 完全可重复
         ↓
第二篇:文献综述
   人类找文献 → AI 生成矩阵 → 🛑 人工核查 → AI 起草
         ↓
第三篇:数据复现
   人类准备上下文 → AI 写代码 → 人类运行 → 🛑 误差对比
         ↓
第四篇:扩展分析
   AI 写安慰剂/异质性/事件研究代码 → 🛑 逐项审核 → AI 生成发表级图表
         ↓
第五篇:论文撰写与开源交付
   AI 分模块起草(引言→数据→结果→摘要结论)→ 🛑 逐章审核
   → AI 整理代码注释 → AI 生成 README → AI 锁定环境 → 开源发布

给研究生的最后建议

读完这五篇,你会发现一个规律:AI 做的所有事情,都是在你划定的边界内执行;所有关键判断,都由你来做。

这不是在贬低 AI 的能力,而是在正确理解 AI 的角色。AI 在这套工作流中真正节省的是什么?

  • 编程时间:从"手写每一行代码"到"审核和修改 AI 生成的代码"
  • 格式时间:从"手动整理表格和图表"到"让 AI 生成符合规范的输出"
  • 结构时间:从"盯着空白文档发呆"到"在 AI 草稿上修改完善"

而 AI 节省不了的,也是最有价值的部分:
- 你对研究问题的洞察
- 你对识别策略合理性的判断
- 你对结果含义的解读
- 你对文献脉络的理解

一篇好的学术论文,最终靠的是研究者的智识诚实和学术判断。AI 是你的工具,不是你的替代品。用好它,你可以用更少的时间做更扎实的研究;用错它,你会在发表和声誉上付出沉重的代价。

祝你的论文顺利投稿。


系列文章索引

篇次 标题 核心内容
第一篇 三大铁律 检查点、拒绝幻觉、可重复性——AI辅助的底层认知
第二篇 文献综述 文献矩阵、扩展合理性、分主题起草——让AI整理而非发明
第三篇 数据复现 上下文准备、代码编写、误差对比、Debug流程
第四篇 扩展分析 安慰剂检验、异质性、事件研究法、发表级图表
第五篇 论文撰写与交付 模块化写作、开源研究包、README与环境锁定

本系列文章基于实际学术工作流整理,欢迎转发给正在写论文的朋友。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐