综述论文参考文献太多怎么办？基于 Codex + Web of Science + Pandoc 的批量整理流程

发际线的忧伤

633人浏览 · 2026-05-23 19:09:28

发际线的忧伤 · 2026-05-23 19:09:28 发布

可以，CSDN 文章里就不要出现你的论文题目、研究方向、具体医学/脑电/多模态内容，也不要出现你的真实路径和真实数据。可以写成一篇通用型教程：

CSDN 通用版正文

你可以直接复制下面这版发 CSDN。里面不会出现你的研究内容。

# 使用 Codex 批量整理综述论文参考文献：从文献导出、去重到自动插入引用

## 1. 背景

写综述论文时，参考文献整理通常是最耗时的部分之一。

尤其是当综述文章需要引用 100 篇、200 篇甚至更多文献时，手动完成以下工作非常容易出错：

- 从数据库中检索文献；
- 批量导出 BibTeX / RIS；
- 去除重复文献；
- 删除不相关或低质量记录；
- 判断每篇文献应该支撑哪一段正文；
- 在正文中插入引用；
- 生成最终参考文献列表；
- 检查是否存在无效 citation key 或未引用文献。

这篇文章记录一种基于 **Codex + Web of Science / Google Scholar + BibTeX + Pandoc** 的参考文献批量整理流程。

需要强调的是：**Codex 不应该用于编造参考文献**。它更适合做的是整理、匹配、去重、审查和自动化插入引用。所有参考文献都应该来自真实数据库导出的文件。

---

## 2. 整体流程

整个流程可以概括为：

```text
综述正文
  ↓
Codex 分析正文引用需求
  ↓
人工从数据库导出真实文献
  ↓
Codex 合并、去重、清洗文献池
  ↓
Codex 将文献匹配到正文论点
  ↓
Codex 插入 Pandoc 引用格式
  ↓
生成 cited-only BibTeX
  ↓
Pandoc 生成最终 Word
  ↓
最终引用审查

这个流程的目标是：

1. 批量整理真实参考文献；
2. 避免重复引用和无效引用；
3. 保证正文论点和参考文献匹配；
4. 生成只包含正文实际引用文献的参考文献列表；
5. 降低手动整理参考文献的工作量。

3. 项目目录结构

建议先建立一个独立项目文件夹：

review_reference_project/
├─ manuscript.docx
├─ manuscript.md
├─ refs/
│  ├─ wos_01_topic_a.bib
│  ├─ wos_02_topic_b.bib
│  ├─ wos_03_topic_c.bib
│  └─ scholar_supplement.bib
├─ output/
│  ├─ citation_needs.csv
│  ├─ reference_inventory.csv
│  ├─ final_refs.bib
│  ├─ citation_map.csv
│  ├─ citation_map_pruned.csv
│  ├─ manuscript_cited.md
│  ├─ final_refs_cited_only.bib
│  └─ manuscript_cited_final.docx
├─ scripts/
└─ backup/

各文件夹含义：

路径	用途
`manuscript.docx`	原始 Word 综述
`manuscript.md`	转换后的 Markdown 正文
`refs/`	存放数据库导出的 BibTeX / RIS 文件
`output/`	存放 Codex 输出的中间文件和最终文件
`scripts/`	存放 Codex 生成的 Python 脚本
`backup/`	存放备份文件

4. Word 转 Markdown

为了方便自动插入引用，建议先将 Word 转为 Markdown。

pandoc manuscript.docx -o manuscript.md --extract-media=media

如果没有图片，也可以使用：

pandoc manuscript.docx -o manuscript.md

转换后需要简单检查：

1. 标题是否正常；
2. 段落顺序是否正确；
3. 表格是否明显错乱；
4. 图题和表题是否保留；
5. 是否存在乱码。

5. 第一步：让 Codex 分析正文引用需求

这一步不要找文献，也不要插入引用，只分析正文中哪些句子需要参考文献支撑。

可以给 Codex 输入：

请读取 manuscript.md。

任务：生成综述正文的引用需求表。

要求：
1. 按章节和段落解析全文。
2. 为每一段生成 paragraph_id。
3. 找出每一段中需要参考文献支撑的句子或核心论点。
4. 判断每个论点需要的文献类型：
   - Review
   - Article
   - Clinical study
   - Method paper
   - Systematic review
   - Meta-analysis
   - Guideline / consensus
5. 判断每个论点所属主题。
6. 判断重要程度：
   - high：必须引用
   - medium：建议引用
   - low：可选引用
7. 输出 output/citation_needs.csv。

字段包括：
section,
paragraph_id,
source_line,
claim,
required_reference_type,
topic,
importance,
suggested_min_citations,
suggested_max_citations,
notes。

注意：
1. 不要插入引用。
2. 不要新增参考文献。
3. 不要编造 citation key。
4. 只分析正文需要哪些引用。

输出文件：

output/citation_needs.csv

这个文件可以理解为“正文引用需求清单”。

6. 第二步：从数据库导出真实文献

根据 citation_needs.csv 中的主题，去 Web of Science、Scopus、PubMed、Google Scholar 或 Zotero 检索真实文献。

每个主题建议单独导出一个 BibTeX 文件，例如：

refs/wos_01_topic_a.bib
refs/wos_02_topic_b.bib
refs/wos_03_topic_c.bib
refs/scholar_supplement.bib

建议导出格式：

BibTeX 或 RIS

建议记录内容：

Full Record

建议保留文献类型：

Article
Review
Early Access
必要的 Conference Paper

不建议保留：

Editorial
Correction
Book Review
News
Meeting Abstract
明显无关记录

注意：不要把所有导出文件都命名为 savedrecs.bib，否则后续很难区分主题。

7. 第三步：让 Codex 合并和清洗文献池

将所有文献导出文件放入 refs/ 后，让 Codex 执行合并、去重和清洗。

Codex 指令：

请读取 refs/ 文件夹中的所有 BibTeX / RIS / CSV 文献文件。

任务：合并和清洗文献池。

要求：
1. 合并所有文献记录。
2. 按 DOI 去重。
3. DOI 缺失时，按 title + first_author + year 模糊去重。
4. 删除明显不相关、低质量、新闻、书评、会议摘要、editorial、correction。
5. 保留 Article、Review、Early Access、必要的 Conference Paper。
6. 不要补造 DOI、作者、年份、期刊、卷期页码。
7. 所有字段只能来自原始导出文件。
8. 生成稳定 citation key，不要频繁变化。

输出：
1. output/reference_inventory.csv
2. output/duplicates_removed.csv
3. output/low_quality_removed.csv
4. output/final_refs.bib

请汇报：
1. 输入记录总数。
2. DOI 去重删除数量。
3. 低质量/不相关删除数量。
4. 最终保留文献数量。
5. DOI 缺失数量。

得到的核心文件是：

output/final_refs.bib

这是候选参考文献池。

8. 第四步：分析文献池质量

清洗后，需要检查文献池是否合理，例如年份分布、文献类型、主题覆盖等。

Codex 指令：

请读取 output/final_refs.bib 和 output/reference_inventory.csv。

任务：生成文献池质量分析报告。

要求：
1. 按年份统计文献数量。
2. 按文献类型统计 Article、Review、Early Access。
3. 按主题自动聚类文献。
4. 标记每篇文献适合用于哪些章节：
   - Introduction
   - Methods / Technology
   - Applications
   - Challenges / Future Directions
5. 输出：
   - output/year_distribution.csv
   - output/type_distribution.csv
   - output/topic_distribution.csv
   - output/reference_quality_report.csv

注意：
1. 不新增文献。
2. 不补造任何元数据。
3. 只基于 final_refs.bib 和 reference_inventory.csv 判断。

输出文件包括：

output/year_distribution.csv
output/type_distribution.csv
output/topic_distribution.csv
output/reference_quality_report.csv

9. 第五步：将文献匹配到正文论点

现在已有：

manuscript.md
output/citation_needs.csv
output/final_refs.bib
output/reference_quality_report.csv

接下来让 Codex 为正文论点匹配文献。

Codex 指令：

请读取：
1. manuscript.md
2. output/citation_needs.csv
3. output/final_refs.bib
4. output/reference_quality_report.csv

任务：为每条 citation need 匹配合适参考文献。

要求：
1. 只能使用 output/final_refs.bib 中已有文献。
2. 不允许新增文献。
3. 不允许编造 citation key。
4. high importance 匹配 2–5 篇。
5. medium importance 匹配 1–3 篇。
6. low importance 最多 1 篇。
7. 综述性陈述优先匹配 Review。
8. 技术性陈述优先匹配方法论文或高相关 Article。
9. 应用类陈述优先匹配应用研究或综述文献。
10. 不允许使用弱相关文献凑数量。
11. 每句话后最多 5 篇引用。
12. 避免同一篇文献过度重复使用。

输出：
1. output/citation_map.csv
2. output/missing_evidence_report.csv
3. output/overused_references.csv
4. output/cited_reference_count.csv
5. output/unused_high_quality_references.csv

citation_map.csv 字段包括：
section,
paragraph_id,
source_line,
claim,
topic,
importance,
matched_citation_keys,
matched_reference_titles,
matched_reference_years,
matched_reference_types,
matching_reason,
confidence_score。

这一步会生成最重要的匹配表：

output/citation_map.csv

10. 第六步：处理缺证据论点

如果存在无法匹配的 claim，不要硬塞弱相关文献。应该先分类处理。

Codex 指令：

请读取 output/missing_evidence_report.csv。

任务：分析缺证据 claim。

要求：
1. 按 importance 统计 high、medium、low。
2. 按 topic 统计缺证据数量。
3. 按 section 统计缺证据数量。
4. 判断每条缺证据 claim 属于：
   - must_support：必须补文献
   - already_supported_nearby：同段已有相近引用，可合并
   - can_rewrite：可弱化表述
   - can_remove：可删除或合并
5. 输出 output/missing_evidence_priority.csv。

字段包括：
section,
paragraph_id,
claim,
topic,
importance,
priority_class,
suggested_action,
suggested_wos_query,
suggested_scholar_query。

处理原则：

must_support：回到数据库补文献
already_supported_nearby：合并同段已有引用
can_rewrite：弱化表述
can_remove：删除或合并该句

11. 第七步：精简引用数量

如果匹配后引用数量过多，可以让 Codex 精简。

Codex 指令：

请读取 output/citation_map.csv。

任务：精简引用数量。

目标：
将实际引用不同文献数量控制在合理范围内，同时保证核心论点证据充分。

要求：
1. high importance claim 至少保留 2–4 篇。
2. medium importance claim 保留 1–2 篇。
3. low importance claim 最多保留 1 篇。
4. 综述性陈述优先保留 Review。
5. 技术性陈述优先保留方法论文或高相关 Article。
6. 应用类陈述优先保留高度相关文献。
7. 删除弱相关、重复支撑、同主题过密、置信度低的引用。
8. 不增加 high importance 缺证据数量。
9. 不让同一篇文献过度使用。
10. 每句话后最多 5 篇引用。

输出：
1. output/citation_map_pruned.csv
2. output/citation_pruning_log.csv
3. output/cited_reference_count_pruned.csv

12. 第八步：插入引用

确认 citation_map_pruned.csv 没问题后，再插入引用。

Codex 指令：

请根据 output/citation_map_pruned.csv 将引用插入 manuscript.md。

要求：
1. 输出 output/manuscript_cited.md。
2. 使用 Pandoc citation 格式，例如 [@smith2024; @wang2025]。
3. 只能使用 output/final_refs.bib 中存在的 citation key。
4. 不允许新增 citation key。
5. 不允许修改正文原意。
6. 不大幅重写正文，只在需要文献支撑的位置插入引用。
7. 每句话后最多 5 篇引用。
8. 不要在标题、摘要、关键词、Abbreviations、References 中插入引用。
9. 不要对仍缺证据的 claim 强行插入弱相关引用。

同时输出：
1. output/manuscript_cited.md
2. output/cited_keys.txt
3. output/uncited_references.csv
4. output/final_citation_audit.csv

插入后重点检查：

无效 citation key 是否为 0
单句是否超过 5 篇引用
是否在摘要、关键词、Abbreviations、References 中误插引用

13. 第九步：生成 cited-only BibTeX

这一步非常关键。

final_refs.bib 是候选文献池，里面可能包含很多未被正文实际引用的文献。最终生成 Word 时，最好使用只包含正文实际引用文献的 BibTeX。

Codex 指令：

请读取：
1. output/manuscript_cited.md
2. output/cited_keys.txt
3. output/final_refs.bib

任务：生成只包含正文实际引用文献的 BibTeX。

要求：
1. 从 output/final_refs.bib 中提取 cited_keys.txt 对应条目。
2. 输出 output/final_refs_cited_only.bib。
3. 不修改任何文献信息字段。
4. 检查 cited_keys 是否全部存在。
5. 检查 cited-only bib 是否没有多余未引用条目。
6. 输出 output/cited_only_bib_audit.csv。

理想结果：

cited_keys 数量 = final_refs_cited_only.bib 条目数量
缺失 key = 0
多余条目 = 0

14. 第十步：用 Pandoc 生成最终 Word

最后使用 Pandoc 生成 Word 文件。

pandoc output/manuscript_cited.md --citeproc --bibliography=output/final_refs_cited_only.bib --reference-doc=manuscript.docx -o output/manuscript_cited_final.docx

如果需要 Vancouver 格式：

pandoc output/manuscript_cited.md --citeproc --bibliography=output/final_refs_cited_only.bib --csl=vancouver.csl --reference-doc=manuscript.docx -o output/manuscript_cited_final_vancouver.docx

如果需要 IEEE 格式：

pandoc output/manuscript_cited.md --citeproc --bibliography=output/final_refs_cited_only.bib --csl=ieee.csl --reference-doc=manuscript.docx -o output/manuscript_cited_final_ieee.docx

15. 最终审查

生成 Word 后，再做一次最终检查。

Codex 指令：

请检查：
1. output/manuscript_cited_final.docx
2. output/manuscript_cited.md
3. output/final_refs_cited_only.bib

任务：
1. 检查 Word 是否成功生成 References。
2. 检查正文引用是否已经渲染，不再是 [@xxx]。
3. 检查最终参考文献数量。
4. 检查是否存在无效 citation key。
5. 检查是否存在同一句话超过 5 篇引用。
6. 检查是否存在过度引用。
7. 检查是否有未引用文献进入参考文献列表。
8. 检查摘要、关键词、Abbreviations、References 中是否错误插入引用。
9. 检查图表、标题、表格是否明显错乱。
10. 输出 output/final_docx_quality_check.md。

16. 最终建议保留的文件

建议保留：

output/manuscript_cited_final.docx
output/manuscript_cited.md
output/final_refs_cited_only.bib
output/final_citation_audit.csv
output/final_summary_report.md
output/cited_only_bib_audit.csv
output/citation_map_pruned.csv
output/missing_evidence_report.csv

其中最重要的是：

manuscript_cited_final.docx
final_refs_cited_only.bib
final_citation_audit.csv

17. 注意事项

17.1 不要让 AI 编造参考文献

Codex 只能整理真实文献，不能编造 DOI、作者、期刊、年份、页码。

17.2 不要为了凑数量乱插引用

参考文献数量不是越多越好。更重要的是引用和正文论点匹配。

17.3 缺证据句子要处理

如果某个句子没有合适文献支撑，可以：

补充检索
弱化表述
合并到更宽泛论点
删除具体例子

17.4 最终使用 cited-only BibTeX

最终生成 Word 时，建议使用：

output/final_refs_cited_only.bib

不要直接使用完整候选池：

output/final_refs.bib

否则可能导致未引用文献混入最终参考文献列表。

17.5 最后一定要做 citation audit

至少检查：

1. 正文实际引用数量
2. 无效 citation key
3. 未引用文献是否进入 References
4. 单句引用是否过多
5. 是否存在过度引用
6. 核心论点是否有证据支撑

18. 总结

这个流程的核心不是让 AI 代替研究者判断文献价值，而是把大量重复性的参考文献整理工作工程化。

可以理解为：

人工负责：
确定主题、检索真实文献、判断关键论点、最终审查。

Codex 负责：
批量去重、清洗、匹配、插入引用、生成审查报告。

只要严格保证文献来源真实，并且最终进行人工审查，Codex 可以显著提高综述论文参考文献整理效率。


---

# CSDN 标签建议

```text
Codex
ChatGPT
参考文献管理
综述论文
BibTeX
Pandoc
Zotero
Web of Science
论文写作
科研工具

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

直播预约｜鸿蒙 PC AI 编译框架实战：高效搞定开源库迁移适配

AtomGit开源社区

基于《人工智能智能体互联》国标的 AIP 开源项目在 AtomGit 正式开源

AtomGit开源社区

G-Star 精选开源项目推荐｜第十九期

BuildAdmin 是一个基于 Vue 3、ThinkPHP 6、TypeScript、Vite、Pinia 和 Element Plus 的后台管理系统，面向中后台业务系统快速开发场景。项目提供可视化 CRUD 代码生成、权限管理、Web 终端、数据回收站、字段级修改保护等能力，帮助开发者减少重复后台开发工作。对于需要快速搭建管理后台、业务配置台或二开系统的团队来说，它提供了一套相对完整的工程