综述论文参考文献太多怎么办?基于 Codex + Web of Science + Pandoc 的批量整理流程
可以,CSDN 文章里就不要出现你的论文题目、研究方向、具体医学/脑电/多模态内容,也不要出现你的真实路径和真实数据。可以写成一篇通用型教程:
推荐标题
使用 Codex 批量整理综述论文参考文献:从文献导出、去重到自动插入引用
或者:
综述论文参考文献太多怎么办?Codex + BibTeX + Pandoc 批量整理流程
CSDN 通用版正文
你可以直接复制下面这版发 CSDN。里面不会出现你的研究内容。
# 使用 Codex 批量整理综述论文参考文献:从文献导出、去重到自动插入引用
## 1. 背景
写综述论文时,参考文献整理通常是最耗时的部分之一。
尤其是当综述文章需要引用 100 篇、200 篇甚至更多文献时,手动完成以下工作非常容易出错:
- 从数据库中检索文献;
- 批量导出 BibTeX / RIS;
- 去除重复文献;
- 删除不相关或低质量记录;
- 判断每篇文献应该支撑哪一段正文;
- 在正文中插入引用;
- 生成最终参考文献列表;
- 检查是否存在无效 citation key 或未引用文献。
这篇文章记录一种基于 **Codex + Web of Science / Google Scholar + BibTeX + Pandoc** 的参考文献批量整理流程。
需要强调的是:**Codex 不应该用于编造参考文献**。它更适合做的是整理、匹配、去重、审查和自动化插入引用。所有参考文献都应该来自真实数据库导出的文件。
---
## 2. 整体流程
整个流程可以概括为:
```text
综述正文
↓
Codex 分析正文引用需求
↓
人工从数据库导出真实文献
↓
Codex 合并、去重、清洗文献池
↓
Codex 将文献匹配到正文论点
↓
Codex 插入 Pandoc 引用格式
↓
生成 cited-only BibTeX
↓
Pandoc 生成最终 Word
↓
最终引用审查
这个流程的目标是:
1. 批量整理真实参考文献;
2. 避免重复引用和无效引用;
3. 保证正文论点和参考文献匹配;
4. 生成只包含正文实际引用文献的参考文献列表;
5. 降低手动整理参考文献的工作量。
3. 项目目录结构
建议先建立一个独立项目文件夹:
review_reference_project/
├─ manuscript.docx
├─ manuscript.md
├─ refs/
│ ├─ wos_01_topic_a.bib
│ ├─ wos_02_topic_b.bib
│ ├─ wos_03_topic_c.bib
│ └─ scholar_supplement.bib
├─ output/
│ ├─ citation_needs.csv
│ ├─ reference_inventory.csv
│ ├─ final_refs.bib
│ ├─ citation_map.csv
│ ├─ citation_map_pruned.csv
│ ├─ manuscript_cited.md
│ ├─ final_refs_cited_only.bib
│ └─ manuscript_cited_final.docx
├─ scripts/
└─ backup/
各文件夹含义:
| 路径 | 用途 |
|---|---|
manuscript.docx |
原始 Word 综述 |
manuscript.md |
转换后的 Markdown 正文 |
refs/ |
存放数据库导出的 BibTeX / RIS 文件 |
output/ |
存放 Codex 输出的中间文件和最终文件 |
scripts/ |
存放 Codex 生成的 Python 脚本 |
backup/ |
存放备份文件 |
4. Word 转 Markdown
为了方便自动插入引用,建议先将 Word 转为 Markdown。
pandoc manuscript.docx -o manuscript.md --extract-media=media
如果没有图片,也可以使用:
pandoc manuscript.docx -o manuscript.md
转换后需要简单检查:
1. 标题是否正常;
2. 段落顺序是否正确;
3. 表格是否明显错乱;
4. 图题和表题是否保留;
5. 是否存在乱码。
5. 第一步:让 Codex 分析正文引用需求
这一步不要找文献,也不要插入引用,只分析正文中哪些句子需要参考文献支撑。
可以给 Codex 输入:
请读取 manuscript.md。
任务:生成综述正文的引用需求表。
要求:
1. 按章节和段落解析全文。
2. 为每一段生成 paragraph_id。
3. 找出每一段中需要参考文献支撑的句子或核心论点。
4. 判断每个论点需要的文献类型:
- Review
- Article
- Clinical study
- Method paper
- Systematic review
- Meta-analysis
- Guideline / consensus
5. 判断每个论点所属主题。
6. 判断重要程度:
- high:必须引用
- medium:建议引用
- low:可选引用
7. 输出 output/citation_needs.csv。
字段包括:
section,
paragraph_id,
source_line,
claim,
required_reference_type,
topic,
importance,
suggested_min_citations,
suggested_max_citations,
notes。
注意:
1. 不要插入引用。
2. 不要新增参考文献。
3. 不要编造 citation key。
4. 只分析正文需要哪些引用。
输出文件:
output/citation_needs.csv
这个文件可以理解为“正文引用需求清单”。
6. 第二步:从数据库导出真实文献
根据 citation_needs.csv 中的主题,去 Web of Science、Scopus、PubMed、Google Scholar 或 Zotero 检索真实文献。
每个主题建议单独导出一个 BibTeX 文件,例如:
refs/wos_01_topic_a.bib
refs/wos_02_topic_b.bib
refs/wos_03_topic_c.bib
refs/scholar_supplement.bib
建议导出格式:
BibTeX 或 RIS
建议记录内容:
Full Record
建议保留文献类型:
Article
Review
Early Access
必要的 Conference Paper
不建议保留:
Editorial
Correction
Book Review
News
Meeting Abstract
明显无关记录
注意:不要把所有导出文件都命名为 savedrecs.bib,否则后续很难区分主题。
7. 第三步:让 Codex 合并和清洗文献池
将所有文献导出文件放入 refs/ 后,让 Codex 执行合并、去重和清洗。
Codex 指令:
请读取 refs/ 文件夹中的所有 BibTeX / RIS / CSV 文献文件。
任务:合并和清洗文献池。
要求:
1. 合并所有文献记录。
2. 按 DOI 去重。
3. DOI 缺失时,按 title + first_author + year 模糊去重。
4. 删除明显不相关、低质量、新闻、书评、会议摘要、editorial、correction。
5. 保留 Article、Review、Early Access、必要的 Conference Paper。
6. 不要补造 DOI、作者、年份、期刊、卷期页码。
7. 所有字段只能来自原始导出文件。
8. 生成稳定 citation key,不要频繁变化。
输出:
1. output/reference_inventory.csv
2. output/duplicates_removed.csv
3. output/low_quality_removed.csv
4. output/final_refs.bib
请汇报:
1. 输入记录总数。
2. DOI 去重删除数量。
3. 低质量/不相关删除数量。
4. 最终保留文献数量。
5. DOI 缺失数量。
得到的核心文件是:
output/final_refs.bib
这是候选参考文献池。
8. 第四步:分析文献池质量
清洗后,需要检查文献池是否合理,例如年份分布、文献类型、主题覆盖等。
Codex 指令:
请读取 output/final_refs.bib 和 output/reference_inventory.csv。
任务:生成文献池质量分析报告。
要求:
1. 按年份统计文献数量。
2. 按文献类型统计 Article、Review、Early Access。
3. 按主题自动聚类文献。
4. 标记每篇文献适合用于哪些章节:
- Introduction
- Methods / Technology
- Applications
- Challenges / Future Directions
5. 输出:
- output/year_distribution.csv
- output/type_distribution.csv
- output/topic_distribution.csv
- output/reference_quality_report.csv
注意:
1. 不新增文献。
2. 不补造任何元数据。
3. 只基于 final_refs.bib 和 reference_inventory.csv 判断。
输出文件包括:
output/year_distribution.csv
output/type_distribution.csv
output/topic_distribution.csv
output/reference_quality_report.csv
9. 第五步:将文献匹配到正文论点
现在已有:
manuscript.md
output/citation_needs.csv
output/final_refs.bib
output/reference_quality_report.csv
接下来让 Codex 为正文论点匹配文献。
Codex 指令:
请读取:
1. manuscript.md
2. output/citation_needs.csv
3. output/final_refs.bib
4. output/reference_quality_report.csv
任务:为每条 citation need 匹配合适参考文献。
要求:
1. 只能使用 output/final_refs.bib 中已有文献。
2. 不允许新增文献。
3. 不允许编造 citation key。
4. high importance 匹配 2–5 篇。
5. medium importance 匹配 1–3 篇。
6. low importance 最多 1 篇。
7. 综述性陈述优先匹配 Review。
8. 技术性陈述优先匹配方法论文或高相关 Article。
9. 应用类陈述优先匹配应用研究或综述文献。
10. 不允许使用弱相关文献凑数量。
11. 每句话后最多 5 篇引用。
12. 避免同一篇文献过度重复使用。
输出:
1. output/citation_map.csv
2. output/missing_evidence_report.csv
3. output/overused_references.csv
4. output/cited_reference_count.csv
5. output/unused_high_quality_references.csv
citation_map.csv 字段包括:
section,
paragraph_id,
source_line,
claim,
topic,
importance,
matched_citation_keys,
matched_reference_titles,
matched_reference_years,
matched_reference_types,
matching_reason,
confidence_score。
这一步会生成最重要的匹配表:
output/citation_map.csv
10. 第六步:处理缺证据论点
如果存在无法匹配的 claim,不要硬塞弱相关文献。应该先分类处理。
Codex 指令:
请读取 output/missing_evidence_report.csv。
任务:分析缺证据 claim。
要求:
1. 按 importance 统计 high、medium、low。
2. 按 topic 统计缺证据数量。
3. 按 section 统计缺证据数量。
4. 判断每条缺证据 claim 属于:
- must_support:必须补文献
- already_supported_nearby:同段已有相近引用,可合并
- can_rewrite:可弱化表述
- can_remove:可删除或合并
5. 输出 output/missing_evidence_priority.csv。
字段包括:
section,
paragraph_id,
claim,
topic,
importance,
priority_class,
suggested_action,
suggested_wos_query,
suggested_scholar_query。
处理原则:
must_support:回到数据库补文献
already_supported_nearby:合并同段已有引用
can_rewrite:弱化表述
can_remove:删除或合并该句
11. 第七步:精简引用数量
如果匹配后引用数量过多,可以让 Codex 精简。
Codex 指令:
请读取 output/citation_map.csv。
任务:精简引用数量。
目标:
将实际引用不同文献数量控制在合理范围内,同时保证核心论点证据充分。
要求:
1. high importance claim 至少保留 2–4 篇。
2. medium importance claim 保留 1–2 篇。
3. low importance claim 最多保留 1 篇。
4. 综述性陈述优先保留 Review。
5. 技术性陈述优先保留方法论文或高相关 Article。
6. 应用类陈述优先保留高度相关文献。
7. 删除弱相关、重复支撑、同主题过密、置信度低的引用。
8. 不增加 high importance 缺证据数量。
9. 不让同一篇文献过度使用。
10. 每句话后最多 5 篇引用。
输出:
1. output/citation_map_pruned.csv
2. output/citation_pruning_log.csv
3. output/cited_reference_count_pruned.csv
12. 第八步:插入引用
确认 citation_map_pruned.csv 没问题后,再插入引用。
Codex 指令:
请根据 output/citation_map_pruned.csv 将引用插入 manuscript.md。
要求:
1. 输出 output/manuscript_cited.md。
2. 使用 Pandoc citation 格式,例如 [@smith2024; @wang2025]。
3. 只能使用 output/final_refs.bib 中存在的 citation key。
4. 不允许新增 citation key。
5. 不允许修改正文原意。
6. 不大幅重写正文,只在需要文献支撑的位置插入引用。
7. 每句话后最多 5 篇引用。
8. 不要在标题、摘要、关键词、Abbreviations、References 中插入引用。
9. 不要对仍缺证据的 claim 强行插入弱相关引用。
同时输出:
1. output/manuscript_cited.md
2. output/cited_keys.txt
3. output/uncited_references.csv
4. output/final_citation_audit.csv
插入后重点检查:
无效 citation key 是否为 0
单句是否超过 5 篇引用
是否在摘要、关键词、Abbreviations、References 中误插引用
13. 第九步:生成 cited-only BibTeX
这一步非常关键。
final_refs.bib 是候选文献池,里面可能包含很多未被正文实际引用的文献。最终生成 Word 时,最好使用只包含正文实际引用文献的 BibTeX。
Codex 指令:
请读取:
1. output/manuscript_cited.md
2. output/cited_keys.txt
3. output/final_refs.bib
任务:生成只包含正文实际引用文献的 BibTeX。
要求:
1. 从 output/final_refs.bib 中提取 cited_keys.txt 对应条目。
2. 输出 output/final_refs_cited_only.bib。
3. 不修改任何文献信息字段。
4. 检查 cited_keys 是否全部存在。
5. 检查 cited-only bib 是否没有多余未引用条目。
6. 输出 output/cited_only_bib_audit.csv。
理想结果:
cited_keys 数量 = final_refs_cited_only.bib 条目数量
缺失 key = 0
多余条目 = 0
14. 第十步:用 Pandoc 生成最终 Word
最后使用 Pandoc 生成 Word 文件。
pandoc output/manuscript_cited.md --citeproc --bibliography=output/final_refs_cited_only.bib --reference-doc=manuscript.docx -o output/manuscript_cited_final.docx
如果需要 Vancouver 格式:
pandoc output/manuscript_cited.md --citeproc --bibliography=output/final_refs_cited_only.bib --csl=vancouver.csl --reference-doc=manuscript.docx -o output/manuscript_cited_final_vancouver.docx
如果需要 IEEE 格式:
pandoc output/manuscript_cited.md --citeproc --bibliography=output/final_refs_cited_only.bib --csl=ieee.csl --reference-doc=manuscript.docx -o output/manuscript_cited_final_ieee.docx
15. 最终审查
生成 Word 后,再做一次最终检查。
Codex 指令:
请检查:
1. output/manuscript_cited_final.docx
2. output/manuscript_cited.md
3. output/final_refs_cited_only.bib
任务:
1. 检查 Word 是否成功生成 References。
2. 检查正文引用是否已经渲染,不再是 [@xxx]。
3. 检查最终参考文献数量。
4. 检查是否存在无效 citation key。
5. 检查是否存在同一句话超过 5 篇引用。
6. 检查是否存在过度引用。
7. 检查是否有未引用文献进入参考文献列表。
8. 检查摘要、关键词、Abbreviations、References 中是否错误插入引用。
9. 检查图表、标题、表格是否明显错乱。
10. 输出 output/final_docx_quality_check.md。
16. 最终建议保留的文件
建议保留:
output/manuscript_cited_final.docx
output/manuscript_cited.md
output/final_refs_cited_only.bib
output/final_citation_audit.csv
output/final_summary_report.md
output/cited_only_bib_audit.csv
output/citation_map_pruned.csv
output/missing_evidence_report.csv
其中最重要的是:
manuscript_cited_final.docx
final_refs_cited_only.bib
final_citation_audit.csv
17. 注意事项
17.1 不要让 AI 编造参考文献
Codex 只能整理真实文献,不能编造 DOI、作者、期刊、年份、页码。
17.2 不要为了凑数量乱插引用
参考文献数量不是越多越好。更重要的是引用和正文论点匹配。
17.3 缺证据句子要处理
如果某个句子没有合适文献支撑,可以:
补充检索
弱化表述
合并到更宽泛论点
删除具体例子
17.4 最终使用 cited-only BibTeX
最终生成 Word 时,建议使用:
output/final_refs_cited_only.bib
不要直接使用完整候选池:
output/final_refs.bib
否则可能导致未引用文献混入最终参考文献列表。
17.5 最后一定要做 citation audit
至少检查:
1. 正文实际引用数量
2. 无效 citation key
3. 未引用文献是否进入 References
4. 单句引用是否过多
5. 是否存在过度引用
6. 核心论点是否有证据支撑
18. 总结
这个流程的核心不是让 AI 代替研究者判断文献价值,而是把大量重复性的参考文献整理工作工程化。
可以理解为:
人工负责:
确定主题、检索真实文献、判断关键论点、最终审查。
Codex 负责:
批量去重、清洗、匹配、插入引用、生成审查报告。
只要严格保证文献来源真实,并且最终进行人工审查,Codex 可以显著提高综述论文参考文献整理效率。
---
# CSDN 标签建议
```text
Codex
ChatGPT
参考文献管理
综述论文
BibTeX
Pandoc
Zotero
Web of Science
论文写作
科研工具
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)