可以,CSDN 文章里就不要出现你的论文题目、研究方向、具体医学/脑电/多模态内容,也不要出现你的真实路径和真实数据。可以写成一篇通用型教程


推荐标题

使用 Codex 批量整理综述论文参考文献:从文献导出、去重到自动插入引用

或者:

综述论文参考文献太多怎么办?Codex + BibTeX + Pandoc 批量整理流程

CSDN 通用版正文

你可以直接复制下面这版发 CSDN。里面不会出现你的研究内容。


# 使用 Codex 批量整理综述论文参考文献:从文献导出、去重到自动插入引用

## 1. 背景

写综述论文时,参考文献整理通常是最耗时的部分之一。

尤其是当综述文章需要引用 100 篇、200 篇甚至更多文献时,手动完成以下工作非常容易出错:

- 从数据库中检索文献;
- 批量导出 BibTeX / RIS;
- 去除重复文献;
- 删除不相关或低质量记录;
- 判断每篇文献应该支撑哪一段正文;
- 在正文中插入引用;
- 生成最终参考文献列表;
- 检查是否存在无效 citation key 或未引用文献。

这篇文章记录一种基于 **Codex + Web of Science / Google Scholar + BibTeX + Pandoc** 的参考文献批量整理流程。

需要强调的是:**Codex 不应该用于编造参考文献**。它更适合做的是整理、匹配、去重、审查和自动化插入引用。所有参考文献都应该来自真实数据库导出的文件。

---

## 2. 整体流程

整个流程可以概括为:

```text
综述正文
  ↓
Codex 分析正文引用需求
  ↓
人工从数据库导出真实文献
  ↓
Codex 合并、去重、清洗文献池
  ↓
Codex 将文献匹配到正文论点
  ↓
Codex 插入 Pandoc 引用格式
  ↓
生成 cited-only BibTeX
  ↓
Pandoc 生成最终 Word
  ↓
最终引用审查

这个流程的目标是:

1. 批量整理真实参考文献;
2. 避免重复引用和无效引用;
3. 保证正文论点和参考文献匹配;
4. 生成只包含正文实际引用文献的参考文献列表;
5. 降低手动整理参考文献的工作量。

3. 项目目录结构

建议先建立一个独立项目文件夹:

review_reference_project/
├─ manuscript.docx
├─ manuscript.md
├─ refs/
│  ├─ wos_01_topic_a.bib
│  ├─ wos_02_topic_b.bib
│  ├─ wos_03_topic_c.bib
│  └─ scholar_supplement.bib
├─ output/
│  ├─ citation_needs.csv
│  ├─ reference_inventory.csv
│  ├─ final_refs.bib
│  ├─ citation_map.csv
│  ├─ citation_map_pruned.csv
│  ├─ manuscript_cited.md
│  ├─ final_refs_cited_only.bib
│  └─ manuscript_cited_final.docx
├─ scripts/
└─ backup/

各文件夹含义:

路径 用途
manuscript.docx 原始 Word 综述
manuscript.md 转换后的 Markdown 正文
refs/ 存放数据库导出的 BibTeX / RIS 文件
output/ 存放 Codex 输出的中间文件和最终文件
scripts/ 存放 Codex 生成的 Python 脚本
backup/ 存放备份文件

4. Word 转 Markdown

为了方便自动插入引用,建议先将 Word 转为 Markdown。

pandoc manuscript.docx -o manuscript.md --extract-media=media

如果没有图片,也可以使用:

pandoc manuscript.docx -o manuscript.md

转换后需要简单检查:

1. 标题是否正常;
2. 段落顺序是否正确;
3. 表格是否明显错乱;
4. 图题和表题是否保留;
5. 是否存在乱码。

5. 第一步:让 Codex 分析正文引用需求

这一步不要找文献,也不要插入引用,只分析正文中哪些句子需要参考文献支撑。

可以给 Codex 输入:

请读取 manuscript.md。

任务:生成综述正文的引用需求表。

要求:
1. 按章节和段落解析全文。
2. 为每一段生成 paragraph_id。
3. 找出每一段中需要参考文献支撑的句子或核心论点。
4. 判断每个论点需要的文献类型:
   - Review
   - Article
   - Clinical study
   - Method paper
   - Systematic review
   - Meta-analysis
   - Guideline / consensus
5. 判断每个论点所属主题。
6. 判断重要程度:
   - high:必须引用
   - medium:建议引用
   - low:可选引用
7. 输出 output/citation_needs.csv。

字段包括:
section,
paragraph_id,
source_line,
claim,
required_reference_type,
topic,
importance,
suggested_min_citations,
suggested_max_citations,
notes。

注意:
1. 不要插入引用。
2. 不要新增参考文献。
3. 不要编造 citation key。
4. 只分析正文需要哪些引用。

输出文件:

output/citation_needs.csv

这个文件可以理解为“正文引用需求清单”。


6. 第二步:从数据库导出真实文献

根据 citation_needs.csv 中的主题,去 Web of Science、Scopus、PubMed、Google Scholar 或 Zotero 检索真实文献。

每个主题建议单独导出一个 BibTeX 文件,例如:

refs/wos_01_topic_a.bib
refs/wos_02_topic_b.bib
refs/wos_03_topic_c.bib
refs/scholar_supplement.bib

建议导出格式:

BibTeX 或 RIS

建议记录内容:

Full Record

建议保留文献类型:

Article
Review
Early Access
必要的 Conference Paper

不建议保留:

Editorial
Correction
Book Review
News
Meeting Abstract
明显无关记录

注意:不要把所有导出文件都命名为 savedrecs.bib,否则后续很难区分主题。


7. 第三步:让 Codex 合并和清洗文献池

将所有文献导出文件放入 refs/ 后,让 Codex 执行合并、去重和清洗。

Codex 指令:

请读取 refs/ 文件夹中的所有 BibTeX / RIS / CSV 文献文件。

任务:合并和清洗文献池。

要求:
1. 合并所有文献记录。
2. 按 DOI 去重。
3. DOI 缺失时,按 title + first_author + year 模糊去重。
4. 删除明显不相关、低质量、新闻、书评、会议摘要、editorial、correction。
5. 保留 Article、Review、Early Access、必要的 Conference Paper。
6. 不要补造 DOI、作者、年份、期刊、卷期页码。
7. 所有字段只能来自原始导出文件。
8. 生成稳定 citation key,不要频繁变化。

输出:
1. output/reference_inventory.csv
2. output/duplicates_removed.csv
3. output/low_quality_removed.csv
4. output/final_refs.bib

请汇报:
1. 输入记录总数。
2. DOI 去重删除数量。
3. 低质量/不相关删除数量。
4. 最终保留文献数量。
5. DOI 缺失数量。

得到的核心文件是:

output/final_refs.bib

这是候选参考文献池。


8. 第四步:分析文献池质量

清洗后,需要检查文献池是否合理,例如年份分布、文献类型、主题覆盖等。

Codex 指令:

请读取 output/final_refs.bib 和 output/reference_inventory.csv。

任务:生成文献池质量分析报告。

要求:
1. 按年份统计文献数量。
2. 按文献类型统计 Article、Review、Early Access。
3. 按主题自动聚类文献。
4. 标记每篇文献适合用于哪些章节:
   - Introduction
   - Methods / Technology
   - Applications
   - Challenges / Future Directions
5. 输出:
   - output/year_distribution.csv
   - output/type_distribution.csv
   - output/topic_distribution.csv
   - output/reference_quality_report.csv

注意:
1. 不新增文献。
2. 不补造任何元数据。
3. 只基于 final_refs.bib 和 reference_inventory.csv 判断。

输出文件包括:

output/year_distribution.csv
output/type_distribution.csv
output/topic_distribution.csv
output/reference_quality_report.csv

9. 第五步:将文献匹配到正文论点

现在已有:

manuscript.md
output/citation_needs.csv
output/final_refs.bib
output/reference_quality_report.csv

接下来让 Codex 为正文论点匹配文献。

Codex 指令:

请读取:
1. manuscript.md
2. output/citation_needs.csv
3. output/final_refs.bib
4. output/reference_quality_report.csv

任务:为每条 citation need 匹配合适参考文献。

要求:
1. 只能使用 output/final_refs.bib 中已有文献。
2. 不允许新增文献。
3. 不允许编造 citation key。
4. high importance 匹配 2–5 篇。
5. medium importance 匹配 1–3 篇。
6. low importance 最多 1 篇。
7. 综述性陈述优先匹配 Review。
8. 技术性陈述优先匹配方法论文或高相关 Article。
9. 应用类陈述优先匹配应用研究或综述文献。
10. 不允许使用弱相关文献凑数量。
11. 每句话后最多 5 篇引用。
12. 避免同一篇文献过度重复使用。

输出:
1. output/citation_map.csv
2. output/missing_evidence_report.csv
3. output/overused_references.csv
4. output/cited_reference_count.csv
5. output/unused_high_quality_references.csv

citation_map.csv 字段包括:
section,
paragraph_id,
source_line,
claim,
topic,
importance,
matched_citation_keys,
matched_reference_titles,
matched_reference_years,
matched_reference_types,
matching_reason,
confidence_score。

这一步会生成最重要的匹配表:

output/citation_map.csv

10. 第六步:处理缺证据论点

如果存在无法匹配的 claim,不要硬塞弱相关文献。应该先分类处理。

Codex 指令:

请读取 output/missing_evidence_report.csv。

任务:分析缺证据 claim。

要求:
1. 按 importance 统计 high、medium、low。
2. 按 topic 统计缺证据数量。
3. 按 section 统计缺证据数量。
4. 判断每条缺证据 claim 属于:
   - must_support:必须补文献
   - already_supported_nearby:同段已有相近引用,可合并
   - can_rewrite:可弱化表述
   - can_remove:可删除或合并
5. 输出 output/missing_evidence_priority.csv。

字段包括:
section,
paragraph_id,
claim,
topic,
importance,
priority_class,
suggested_action,
suggested_wos_query,
suggested_scholar_query。

处理原则:

must_support:回到数据库补文献
already_supported_nearby:合并同段已有引用
can_rewrite:弱化表述
can_remove:删除或合并该句

11. 第七步:精简引用数量

如果匹配后引用数量过多,可以让 Codex 精简。

Codex 指令:

请读取 output/citation_map.csv。

任务:精简引用数量。

目标:
将实际引用不同文献数量控制在合理范围内,同时保证核心论点证据充分。

要求:
1. high importance claim 至少保留 2–4 篇。
2. medium importance claim 保留 1–2 篇。
3. low importance claim 最多保留 1 篇。
4. 综述性陈述优先保留 Review。
5. 技术性陈述优先保留方法论文或高相关 Article。
6. 应用类陈述优先保留高度相关文献。
7. 删除弱相关、重复支撑、同主题过密、置信度低的引用。
8. 不增加 high importance 缺证据数量。
9. 不让同一篇文献过度使用。
10. 每句话后最多 5 篇引用。

输出:
1. output/citation_map_pruned.csv
2. output/citation_pruning_log.csv
3. output/cited_reference_count_pruned.csv

12. 第八步:插入引用

确认 citation_map_pruned.csv 没问题后,再插入引用。

Codex 指令:

请根据 output/citation_map_pruned.csv 将引用插入 manuscript.md。

要求:
1. 输出 output/manuscript_cited.md。
2. 使用 Pandoc citation 格式,例如 [@smith2024; @wang2025]。
3. 只能使用 output/final_refs.bib 中存在的 citation key。
4. 不允许新增 citation key。
5. 不允许修改正文原意。
6. 不大幅重写正文,只在需要文献支撑的位置插入引用。
7. 每句话后最多 5 篇引用。
8. 不要在标题、摘要、关键词、Abbreviations、References 中插入引用。
9. 不要对仍缺证据的 claim 强行插入弱相关引用。

同时输出:
1. output/manuscript_cited.md
2. output/cited_keys.txt
3. output/uncited_references.csv
4. output/final_citation_audit.csv

插入后重点检查:

无效 citation key 是否为 0
单句是否超过 5 篇引用
是否在摘要、关键词、Abbreviations、References 中误插引用

13. 第九步:生成 cited-only BibTeX

这一步非常关键。

final_refs.bib 是候选文献池,里面可能包含很多未被正文实际引用的文献。最终生成 Word 时,最好使用只包含正文实际引用文献的 BibTeX。

Codex 指令:

请读取:
1. output/manuscript_cited.md
2. output/cited_keys.txt
3. output/final_refs.bib

任务:生成只包含正文实际引用文献的 BibTeX。

要求:
1. 从 output/final_refs.bib 中提取 cited_keys.txt 对应条目。
2. 输出 output/final_refs_cited_only.bib。
3. 不修改任何文献信息字段。
4. 检查 cited_keys 是否全部存在。
5. 检查 cited-only bib 是否没有多余未引用条目。
6. 输出 output/cited_only_bib_audit.csv。

理想结果:

cited_keys 数量 = final_refs_cited_only.bib 条目数量
缺失 key = 0
多余条目 = 0

14. 第十步:用 Pandoc 生成最终 Word

最后使用 Pandoc 生成 Word 文件。

pandoc output/manuscript_cited.md --citeproc --bibliography=output/final_refs_cited_only.bib --reference-doc=manuscript.docx -o output/manuscript_cited_final.docx

如果需要 Vancouver 格式:

pandoc output/manuscript_cited.md --citeproc --bibliography=output/final_refs_cited_only.bib --csl=vancouver.csl --reference-doc=manuscript.docx -o output/manuscript_cited_final_vancouver.docx

如果需要 IEEE 格式:

pandoc output/manuscript_cited.md --citeproc --bibliography=output/final_refs_cited_only.bib --csl=ieee.csl --reference-doc=manuscript.docx -o output/manuscript_cited_final_ieee.docx

15. 最终审查

生成 Word 后,再做一次最终检查。

Codex 指令:

请检查:
1. output/manuscript_cited_final.docx
2. output/manuscript_cited.md
3. output/final_refs_cited_only.bib

任务:
1. 检查 Word 是否成功生成 References。
2. 检查正文引用是否已经渲染,不再是 [@xxx]。
3. 检查最终参考文献数量。
4. 检查是否存在无效 citation key。
5. 检查是否存在同一句话超过 5 篇引用。
6. 检查是否存在过度引用。
7. 检查是否有未引用文献进入参考文献列表。
8. 检查摘要、关键词、Abbreviations、References 中是否错误插入引用。
9. 检查图表、标题、表格是否明显错乱。
10. 输出 output/final_docx_quality_check.md。

16. 最终建议保留的文件

建议保留:

output/manuscript_cited_final.docx
output/manuscript_cited.md
output/final_refs_cited_only.bib
output/final_citation_audit.csv
output/final_summary_report.md
output/cited_only_bib_audit.csv
output/citation_map_pruned.csv
output/missing_evidence_report.csv

其中最重要的是:

manuscript_cited_final.docx
final_refs_cited_only.bib
final_citation_audit.csv

17. 注意事项

17.1 不要让 AI 编造参考文献

Codex 只能整理真实文献,不能编造 DOI、作者、期刊、年份、页码。

17.2 不要为了凑数量乱插引用

参考文献数量不是越多越好。更重要的是引用和正文论点匹配。

17.3 缺证据句子要处理

如果某个句子没有合适文献支撑,可以:

补充检索
弱化表述
合并到更宽泛论点
删除具体例子

17.4 最终使用 cited-only BibTeX

最终生成 Word 时,建议使用:

output/final_refs_cited_only.bib

不要直接使用完整候选池:

output/final_refs.bib

否则可能导致未引用文献混入最终参考文献列表。

17.5 最后一定要做 citation audit

至少检查:

1. 正文实际引用数量
2. 无效 citation key
3. 未引用文献是否进入 References
4. 单句引用是否过多
5. 是否存在过度引用
6. 核心论点是否有证据支撑

18. 总结

这个流程的核心不是让 AI 代替研究者判断文献价值,而是把大量重复性的参考文献整理工作工程化。

可以理解为:

人工负责:
确定主题、检索真实文献、判断关键论点、最终审查。

Codex 负责:
批量去重、清洗、匹配、插入引用、生成审查报告。

只要严格保证文献来源真实,并且最终进行人工审查,Codex 可以显著提高综述论文参考文献整理效率。


---

# CSDN 标签建议

```text
Codex
ChatGPT
参考文献管理
综述论文
BibTeX
Pandoc
Zotero
Web of Science
论文写作
科研工具

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐