一、引言:当AI开始“编文献”

随着大语言模型(如 GPT-4、DeepSeek、Claude 等)在学术写作、文献综述、技术调研中的普及,一个隐蔽但危险的问题逐渐暴露出来——文献幻觉(Citation Hallucination)

你可能有过这样的经历:让AI帮你写一篇文献综述或罗列相关参考文献,它给出的列表看起来格式标准、作者权威、期刊知名,甚至配有 DOI。但当你按图索骥去 Google Scholar 或知网检索时,却发现:这些文献根本不存在,标题是拼接的、作者是虚构的、DOI 也是随机生成的。

在学术场景下,这种“幽灵文献”不仅是效率问题,更可能涉及学术不端风险。

二、为什么大模型会杜撰参考文献?

要解决问题,先理解根源。大模型本质上不是“数据库检索器”,而是概率预测引擎

  1. 训练目标偏向流畅而非事实:模型在生成文本时,优先保证语法通顺、逻辑连贯,而非实时核验事实准确性。当缺乏确定信息时,它会用“统计上合理”的内容填补空白。

  2. 闭卷考试模式:通用大模型在生成时无法直接联入知网、PubMed、IEEE Xplore 等封闭学术库,只能依赖训练数据中的模糊分布,“模仿”出一篇像真的参考文献。

  3. 讨好型生成:在 RLHF(人类反馈强化学习)训练中,模型往往被鼓励给出完整答案。面对“请列出10篇相关文献”的指令,即便内部检索不到,也可能为了完整性而编造。

  4. 数据污染闭环:AI 生成的含幻觉内容若流入互联网,再被后续模型抓取训练,会导致错误被放大,形成“模型崩溃”风险。

简单来说:它不是“查资料”,而是“编得像是查过”。

三、解决思路:先检索真实文献,再让AI总结(RAG思想)

目前业界和技术圈主流的应对方案,是引入 RAG(Retrieval-Augmented Generation,检索增强生成) 思路:

把“闭卷考试”变成“开卷考试”。

具体落地到文献写作场景,可行的工作流是:

  1. 先手动/自动检索真实文献:通过学术搜索引擎(知网、Google Scholar、arXiv 等)或文献管理工具,定位与你主题相关的真实存在的论文

  2. 提取核心信息作为上下文:将真实文献的标题、摘要、关键词、结论整理成文本片段。

  3. 大模型基于这些真实文本进行总结/综述:在 Prompt 中明确限制模型“仅基于提供的文献内容生成,禁止编造引用”。

  4. 人工核对引用条目:确保输出的参考文献列表与检索到的真实文献一一对应。

这种“真实语料约束生成”的方式,能大幅降低幻觉概率。

四、提升效率且规避风险:从“纯生成”走向“真实文献驱动”

在学术写作中,合规的辅助工具可大幅提升文献整理与综述生成效率,核心原则是工具仅作 “辅助”,真实文献与学术判断仍需人工把控。在上述思路下,一些面向科研/论文场景的工具,开始提供“基于真实文献辅助写作”的能力。例如:以专注学术规范的快降重科研小助手为例,其核心功能聚焦真实文献与合规综述生成,快降重能根据主题搜索知网、Google Scholar、arXiv 等的真实文献,并进行总结。

五、实践建议

如果你在用 AI 辅助任何带文献引用的写作,建议遵循几条纪律:

  1. 不盲信 AI 给出的参考文献:默认所有 AI 生成的引用都“可疑”,必须逐条核验。

  2. 优先提供真实文献材料:给模型投喂 PDF/摘要,比让它“自由发挥”更安全。

  3. 要求输出带溯源:让模型在总结时标注“观点来自哪篇文献”,便于你回头查验。

  4. 用学术库交叉验证:知网、万方、Google Scholar、DOI.org 是最后一道防线。

大模型的“写作能力”远强于“查证能力”。在涉及参考文献、数据、法条等强事实场景时,生成前先检索、生成时受限域、生成后人工核验,才是可持续的工作流。

文献幻觉不是个别模型的 bug,而是当前生成式 AI 的系统性挑战。作为使用者,理解机制、调整流程,比期待模型“自己变诚实”更现实。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐