OpenScholar:使用检索增强语言模型合成科学文献(原始论文翻译简本)
OpenScholar:使用检索增强语言模型合成科学文献
原始论文:Asai et al. (2024). OpenScholar: Synthesizing Scientific Literature with Retrieval-augmented LMs
arXiv:arXiv:2411.14199v1 [cs.CL] | Submitted: 21 Nov 2024
本地 PDF:OpenSclr_原始论文_2411.14199v1.pdf
翻译说明:本文档为论文全文中文翻译,由 AI 辅助翻译,专业术语保留英文原文
作者信息
作者:Akari Asai¹,⁵, Jacqueline He¹∗, Rulin Shao¹,⁵∗, Weijia Shi¹,², Amanpreet Singh², Joseph Chee Chang², Kyle Lo², Luca Soldaini², Sergey Feldman², Mike D’arcy², David Wadden², Matt Latzke², Minyang Tian³, Pan Ji⁶, Shengyan Liu³, Hao Tong³, Bohao Wu³, Yanyu Xiong⁷, Luke Zettlemoyer¹,⁵, Graham Neubig⁴, Dan Weld¹,², Doug Downey², Wen-tau Yih⁵, Pang Wei Koh¹,², Hannaneh Hajishirzi¹,²
机构:
- 华盛顿大学(University of Washington)
- 艾伦人工智能研究所(Allen Institute for AI)
- 伊利诺伊大学厄巴纳-香槟分校(University of Illinois, Urbana-Champaign)
- 卡内基梅隆大学(Carnegie Mellon University)
- Meta
- 北卡罗来纳大学教堂山分校(University of North Carolina, Chapel Hill)
- 斯坦福大学(Stanford University)
联系邮箱:{akari, pangwei, hannaneh}@cs.washington.edu
∗ 共同第一作者(按字母顺序排列)。所有作者的贡献详见"贡献"部分。
摘要
科学的进步取决于研究人员综合不断增长的科学文献的能力。大型语言模型(LMs)能否帮助科学家完成这项任务?我们推出了 OpenScholar,一个专门针对检索增强的大型语言模型,通过从 4500 万篇开放获取论文中识别相关段落并综合带有引用支撑的回答来回答科学查询。
为了评估 OpenScholar,我们开发了 ScholarQABench,这是首个大规模多领域的文献检索基准测试,包含 2,967 个专家编写的查询和 208 个长篇幅回答,涵盖计算机科学、物理学、神经科学和生物医学领域。
在 ScholarQABench 上,OpenScholar-8B 的正确率比 GPT-4o 高 5%,比 PaperQA2 高 7%,尽管它是一个更小、开放的模型。当 GPT-4o 在 78-90% 的情况下会产生引用幻觉时,OpenScholar 的引用准确率达到了与人类专家相当的水平。
OpenScholar 的数据存储、检索器和自反馈推理循环也能提升现成的语言模型:例如,OpenScholar-GPT4o 将 GPT-4o 的正确率提升了 12%。
在人工评估中,专家在 51% 的情况下更喜欢 OpenScholar-8B 的回答,在 70% 的情况下更喜欢 OpenScholar-GPT4o 的回答,而 GPT-4o 的这一比例仅为 32%。
我们开源了所有代码、模型、数据存储、数据和一个公开演示。
- 演示:openscholar.allen.ai/
- 博客:allenai.org/blog/openscholar
- OpenScholar 代码:github.com/AkariAsai/OpenScholar
- ScholarBench 代码:github.com/AkariAsai/ScholarBench
- 检查点、数据、索引:OpenScholar/openscholar-v1
- 专家评估:AkariAsai/OpenScholar_ExpertEval
1 引言
综合科学文献中的知识对于发现新的研究方向、改进方法论和支持基于证据的决策至关重要。然而,每年发表的大量论文使得研究人员越来越难以跟上最新进展。有效的综合需要精确的检索、准确的归属和对当前文献的实时访问。
虽然大型语言模型(LLMs)在辅助研究人员方面显示出前景,但它们面临着重大挑战,包括幻觉(Mallen et al., 2023; Mishra et al., 2024)、依赖过时的预训练数据(Kasai et al., 2023)以及缺乏透明的归属。例如,在我们的实验中,当要求引用最新文献时,GPT-4 在计算机科学和生物医学等领域中有 78-90% 的情况下会编造引用。
另一方面,检索增强的语言模型(Lewis et al., 2020; Guu et al., 2020)可以通过在推理时整合检索到的外部知识源来缓解许多这些问题,从而推动了文献检索和综合系统的发展(Agarwal et al., 2024; Zheng et al., 2024; Skarlinski et al., 2024)。然而,许多此类系统依赖于黑盒 API 或通用 LLMs,这些模型既没有针对文献综合进行优化,也没有配备开放的、领域特定的检索数据存储(即经过处理的语料库和相应的检索索引),专门适用于科学领域。此外,对科学文献综合的评估一直受到限制,使用单一学科和小规模人工评估(Agarwal et al., 2024; Zheng et al., 2024)或简化的任务如多项选择问答(Skarlinski et al., 2024)。
为了解决这些差距,我们提出了 OpenScholar(图 1,上),这是一个最先进的检索增强语言模型,具有专门的论文数据存储和针对科学文献训练的检索器。在推理时,OpenScholar 检索相关段落,并使用迭代自反馈生成来改进自己的输出。我们还训练了一个新的、高效的 8B 模型。为了评估 OpenScholar 的有效性,我们引入了 ScholarQABench(图 1,中),这是一个专门设计的基准测试,旨在实现开放式科学问答的现实和可重复评估。
OpenScholar(第 2 节)使用我们新的 OpenScholar-DataStore (OSDS),其中包含来自 Semantic Scholar 的 4500 万篇开放获取论文,以及 2.37 亿个相应的段落嵌入。据我们所知,这是科学领域最大的开源数据存储。OpenScholar 首先使用检索器和重排器从 OSDS 中检索段落。随后,语言模型综合检索到的段落,生成带有引用的回答。OpenScholar 通过自然语言反馈迭代地改进其输出,这提高了质量并自适应地整合补充信息。该管道还用于为更小、更高效的模型生成大规模、高质量的训练数据。我们从采样的数据存储段落生成综合查询和指令,将它们输入 OpenScholar,并使用中间和最终输出来训练开放的 8B 模型 OpenScholar-8B 和检索模型。
ScholarQABench(第 3 节)是一个旨在评估模型理解和综合现有研究能力的基准测试。与之前假设答案可以在单篇论文中找到的基准测试不同(例如,科学事实验证;Wadden et al., 2020; Skarlinski et al., 2024),许多现实场景需要识别多篇相关论文并生成带有准确引用的长篇幅输出。为了解决这些挑战,我们整理了一个包含 2,967 个文献综合问题的数据集,以及 208 个由专家编写的长篇幅回答,涵盖四个科学学科:计算机科学、物理学、生物医学和神经科学。这些回答由具有三年以上经验并在该领域有相关发表的博士生和博士后研究人员撰写。平均而言,每个回答需要大约一个小时来撰写。我们还引入了一个多方面的评估协议,结合自动化指标和人工评估来测量引用准确性、事实正确性、内容覆盖范围、连贯性和整体质量。这种多方面的方法确保了稳健和可重复的评估,包括自动和人工驱动的评估。
我们在 ScholarQABench 上评估了专有和开放模型(例如 GPT-4o、Llama 3.1 8B、70B),以及具有和不具有检索能力的模型,还有像 PaperQA2(Skarlinski et al., 2024)这样的专业系统(第 4 节)。虽然 GPT-4o 表现出强大的总体性能,但它在引用准确性和覆盖范围方面遇到困难,经常产生不准确或不存在的引用。OpenScholar 优于仅语言模型和检索增强的管道,超越了专有和开源系统。值得注意的是,使用完全开源的检查点,OpenScholar 超越了基于专有 LLMs 构建的 PaperQA2(Skarlinski et al., 2024)以及像 Perplexity Pro 这样的生产系统,分别实现了 6% 和 10% 的改进。此外,OpenScholar 使用更小、更高效的检索器显著降低了成本。将 OpenScholar 与 GPT-4o 结合也比单独使用 GPT-4o 提高了 12% 的正确率。OpenScholar 管道还可以增强现成的 LLMs。例如,当使用 GPT-4o 作为底层模型时,OpenScholar-GPT4o 比单独使用 GPT-4o 实现了 12% 的正确率提升。
除了在 ScholarQABench 上的自动评估外,我们还与来自计算机科学、物理学和生物医学等领域的 16 位科学家进行了详细的专家评估(第 5 节)。这些专家对 OpenScholar 的输出与 ScholarQABench 中 108 个专家编写的文献综合查询回答进行了成对和细粒度的评估。当 OpenScholar 与 GPT-4o 和我们训练的 8B 模型配对时,始终优于专家编写的回答,胜率分别为 70% 和 51%。相比之下,没有检索的 GPT-4o 在信息覆盖范围方面遇到困难,被评为不如人类专家有帮助,对抗人类回答的胜率仅为 31%。这凸显了 OpenScholar 生成的输出更全面、组织良好,对综合文献更有用。这些发现表明,OpenScholar 产生的高质量输出不仅与专家编写的回答具有竞争力,而且在某些情况下甚至超越了它们,特别是在覆盖范围和组织方面。
OpenScholar-8B 是一个开放的检索增强语言模型,避免了对专有 LLMs 或检索系统的依赖,利用了科学文献领域最大的数据存储之一。我们发布了完整的 OpenScholar 生态系统,包括代码、训练好的检索器、LM 检查点、数据存储、ScholarQABench 基准测试、专家评估工具和一个公开演示。
2 OpenScholar:用于合成科学文献的开放检索增强语言模型
OpenScholar(详见图 2)是一个新的检索增强语言模型,旨在确保对有关科学文献的各种信息寻求查询提供可靠、高质量的回答。
任务公式化
给定一个科学查询 x,任务是识别相关论文,综合它们的发现,并生成一个有效回答查询的响应 y。这个响应应该附有一组引用,C = {c₁, c₂, …, cₖ},其中每个引用 cᵢ 对应于现有科学论文中的特定段落。C 中的每个 cᵢ 都应作为内联引用提供,链接到 y 中的相关文本范围,遵循科学写作的标准实践。这些引用使研究人员能够将输出追溯回原始文献,确保透明度和可验证性。
OpenScholar 概述
为了确保检索到相关论文并生成高质量输出,OpenScholar 由三个关键组件组成:数据存储 D、检索器 R 和生成器 LM_G。
在标准检索增强推理管道中,过程从 R 开始,它从 D(一个大规模已发表科学论文语料库)中检索一组段落 P = {p₁, p₂, …, pₙ},基于与输入查询 x 的语义相关性。这些段落作为下一步的上下文。生成器 LM_G 然后同时获取检索到的段落 P 和输入查询 x 来产生输出 y 以及相应的引用 C。正式地,这个过程可以表示为:
y, C = G(x, R(x, D))
其中 C 中的每个 cᵢ 对应于 P 中的特定段落。在 OpenScholar(图 1)中,我们利用了一套为科学领域设计的专门组件:OpenScholar-DataStore D、OpenScholar-Retriever/-Reranker 和一个 LM,可以灵活使用现成的 LLMs(例如 GPT-4o)或我们新训练的 OpenScholar-LM。我们开发了自反馈检索增强推理来提高可靠性和引用准确性。
OpenScholar-DataStore (OSDS) 是一个包含 4500 万篇科学论文的数据库,我们为其构建了嵌入。我们在科学数据上训练了 OpenScholar-Retriever 和 OpenScholar-Reranker,它们将前 N 个段落传递给生成器 G(第 2.1 节)。随后,我们使用带有检索的迭代自反馈推理:LM 首先用 G 生成初始草稿 y₀,然后通过检索增强的自反馈迭代地增强其输出(第 2.2 节)。我们使用这个管道来生成高质量的训练数据(第 2.3 节),从而能够训练专门的 LMs,产生更高质量的输出和更准确的引用。
2.1 OpenScholar 检索管道
图 2(左上)显示了我们的检索管道,由数据存储 D、双编码器检索器 θ_bi 和交叉编码器重排器 θ_cross 组成。我们首先使用 D 和 θ_bi 以及外部 API 选择初始候选段落,然后使用 θ_cross 精炼并识别前 N 个相关段落。
构建数据存储的科学论文收集
虽然之前的工作通常使用一小部分论文,例如 2023-2024 年的 arXiv 论文(Zheng et al., 2024),但拥有多样化的论文集合对于提高模型生成的质量和覆盖范围非常重要(Shao et al., 2024)。为此,我们使用 peS2o(Soldaini et al., 2024)作为我们的检索来源,它由来自 S2ORC(Lo et al., 2020)的开放获取学术论文组成。我们使用 peS2o v3 构建了我们的数据存储,其中包括截至 2024 年 10 月的 4500 万篇论文。遵循先前的工作(Shao et al., 2024),我们将每篇论文的正文分割为离散的、250 词的文本块(由空白决定),并将论文标题连接到每个块,以形成 D 中的段落。我们的数据存储包含 2.34 亿个段落。据我们所知,这是科学文献中最大的开源数据存储。
检索初始段落
我们从三个来源检索段落:
-
使用我们训练的检索器从 peS2o 数据存储中检索:我们首先使用段落双编码器 θ_bi 生成 D 中每个段落的嵌入,它将文本块(例如查询或段落)离线处理为密集向量(Karpukhin et al., 2020)。现成的检索模型在跨域场景中经常遇到困难(Thakur et al., 2021)。为了克服这个限制,我们通过以无监督方式在 peS2o 数据存储上持续预训练 Contriever(Izacard et al., 2022)来开发 θ_bi,以提高领域特定的检索性能(详见附录 C.1)。在推理期间,我们使用 θ_bi 对查询进行编码,并通过最近邻搜索(Karpukhin et al., 2020)检索前 100 个段落。
-
通过 Semantic Scholar API 获取公开可用的摘要:我们首先使用生成器 LM 从查询 x 生成关键词。然后这些关键词用于通过 Semantic Scholar Search API 检索每个关键词的前 10 篇论文,按引用次数排名。这种方法解决了 Semantic Scholar API 无法有效处理长的、类似问题的搜索查询的限制。
-
通过网络搜索引擎使用原始查询 x 获取公开可用的文本:我们使用 You.com 检索 API 获取前 10 个搜索结果,将搜索限制在 ArXiv 和 PubMed 等学术平台。如果论文是开放获取的,我们提取并添加它们的全文到候选池;否则,我们只包含它们的摘要。
重排和确定前 N 个段落
在初始阶段之后,我们为每个查询收集了超过 100 个,甚至上千个相关段落。然而,双编码器检索的段落可能包含无帮助的上下文,因为查询和段落之间的深度交互是分开编码的(Asai et al., 2023)。将大量可能包含无关内容的文档输入 LLMs 会导致效率和性能问题,即使是最新的模型也是如此(Liu et al., 2024; Xu et al., 2023a)。
为了克服这些挑战,我们使用交叉编码器重排器(Nogueira & Cho, 2019; Xiao et al., 2023),表示为 θ_cross。对于每个候选段落,交叉编码器重排器联合编码并计算输入查询和每个段落之间的相关性分数。然后我们使用相关性分数相应地对段落进行排名。为了为科学领域训练 θ_cross,我们使用由 Llama 3 70B Instruct 生成的综合数据微调 BGE-reranker(Xiao et al., 2023)。具体来说,我们基于 peS2o 的摘要随机生成查询,并检索前 10 个段落。Llama 3 70B Instruct 然后为这些段落分配 1 到 5 的相关性分数,我们认为 4 或 5 分为正面,1 或 2 分为负面。得分为 3 的段落被丢弃。θ_cross 训练的更多细节在附录 C.2 中。
在重排和确定前 N 个段落期间,我们还实施了额外的元过滤,包括:
- 限制每篇论文的段落数量最多为三个段落
- 将归一化引用计数整合到交叉编码器预测的相关性分数中
2.2 推理:带有检索增强自反馈的迭代生成
在标准检索增强生成(RAG; Lewis et al. 2020; Ram et al. 2023)中,生成器 LM 接收原始输入 x 和前 N 个检索到的段落 P 并生成输出 y₁。虽然这种方法对于问答等任务有效(Mallen et al., 2023),但这种单步生成可能导致不支持的主张(Liu et al., 2023)或因信息缺失而导致不完整的输出(Asai et al., 2024; Jiang et al., 2023)。
为了解决这些挑战,在 OpenScholar 中,我们引入了一种带有自反馈的迭代生成方法,包括三个步骤:
- 初始响应和反馈生成:输出初始草稿 y₀ 和一组关于 y₀ 的反馈
- 带有额外检索的迭代精炼:使用反馈改进 y₀
- 引用验证
详见附录。
初始响应和反馈生成
给定输入 x 和检索到的段落 P,生成器 LM 首先产生一个初始响应 y₀,带有与 P 中相应段落关联的引用标记。在生成 y₀ 后,LM 生成一组关于 y₀ 的反馈 F = {f₁, f₂, …, fₜ},旨在改进初始响应,其中每个反馈 fₜ 是一个自然语言句子,描述了潜在的改进。
虽然模型可以生成任意数量的反馈(T),但为了高效推理,我们设置了最多三个反馈句子的限制。与之前依赖于预定义反馈信号集的工作不同(Asai et al., 2024),我们的方法允许 LM 对响应的各个方面生成灵活的自然语言反馈,例如组织、完整性或所需的额外信息。
如果反馈序列识别出缺失的内容(例如,“答案仅包含 QA 任务的经验结果。添加其他任务类型的结果。”),LM 还会使用第 2.1 节中的管道生成一个检索查询以进行额外检索。
迭代精炼
然后我们迭代反馈 F 以逐步精炼输出。如果 fₖ 表明需要进一步检索,查询 qₖ 用于检索额外的段落,这些段落在产生 yₖ 之前被附加到 P。LM 使用先前的输出 yₖ₋₁、检索到的段落 P 和新检索到的段落(如果有的话)来生成更新的输出 yₖ。这个过程重复直到所有反馈都已解决,最终在时间步 T 产生最终输出 yₜ。
引用验证
最后,我们指示生成器 LM 验证 yₜ 中的引用。具体来说,生成器确保所有值得引用的陈述——需要证明的科学主张——都得到来自检索段落的引用的充分支持。如果任何主张缺乏适当的引用,LM 执行事后插入以确保值得引用的陈述得到段落的支持。在我们的管道中,我们不会删除缺乏值得引用陈述的句子。
2.3 训练:使用推理管道生成高质量综合数据
由于缺乏针对此问题的训练数据,构建能够有效综合科学文献的强大 LMs 具有挑战性。虽然有一些资源可以训练科学 LMs(Wadden et al., 2024),但大多数任务不需要开放检索设置,而是单篇论文任务。因此,该领域的大多数先前工作(Skarlinski et al., 2024)依赖于专有 LMs,这对可重复性和推理成本提出了挑战。
我们利用我们的推理时管道通过自反馈综合生成高质量的训练数据,从而使结果模型能够在不经过自反馈过程的情况下更好地生成更高质量的输出(图 2 底部)。
问题和回答生成
我们的数据生成过程包括三个步骤:
- 从 D 中选择引用量最高的论文
- 基于它们的摘要生成信息寻求查询
- 使用 OpenScholar 推理时管道生成高质量回答
我们使用 LLaMA 3.1 70B(Dubey et al., 2024)生成数据。具体来说,我们首先从 peS2o 数据集中采样 100 万篇论文摘要,并检索论文的元信息,如发表年份或引用次数。然后我们随机选择 10,000 篇 2017 年之后发表的论文,并提示 LM 基于每篇摘要生成文献综述问题或信息寻求查询,这些问题可能需要多篇论文来回答。接下来,我们使用我们的 OpenScholar 管道生成最终输出 yₜ,以及中间生成,如反馈 F 和初始输出。
数据过滤
尽管其有效性和可扩展性,综合数据也可能包含幻觉、重复写作或有限的指令遵循等问题(Li et al., 2024c)。为了解决这个问题,我们引入了一个两步数据过滤过程:成对过滤和标准过滤,利用与数据生成相同的 LM。
在成对过滤中,我们比较模型输出 yₜ(最终步骤的输出)和 y₀(初始输出)的质量,并保留被判定为更高质量的输出。我们发现 y₀ 在约 20% 的情况下优于 yₜ,这是由于多次迭代步骤后的过度编辑或增加冗余。然后我们在两个维度上以五分制评估所选响应的质量:组织性和事实精度及引用准确性。有效的模型输出必须在两个类别中都达到 4.5 分或更高,我们丢弃不满足此要求的实例。更多细节见附录。
数据混合和训练
从这个综合管道中,我们生成了三种类型的训练数据:
- 回答生成 (x → y)
- 反馈生成 (y₀ → F)
- 反馈整合 (yₜ₋₁, fₜ → yₜ)
我们发现在训练期间同时整合最终和中间输出有助于较小的 LMs 学习生成更有效的反馈。我们进一步将这些综合训练数据与现有的通用领域指令调整数据(Ivison et al., 2023)和科学指令调整数据(Wadden et al., 2024)混合,确保 50% 的训练数据来自科学领域,而剩余的 50% 来自通用领域数据。
我们还基于 peS2o 的采样摘要数据生成综合事实验证和布尔问答数据。为此,我们根据引用次数对论文进行排序,并选择前 100,000 篇论文。数据混合和训练的更多细节见附录 C.3。数据混合后,我们在大规模综合训练数据上训练生成器 LMs。我们在生成的训练数据上训练 Llama 3.1 8B Instruct。
3 ScholarQABench:由博士专家标注的真实文献综述评估基准
挑战与概述
先前关于构建 LLMs 以综合科学文献的研究要么采用小规模、单一领域的人工评估(Agarwal et al., 2024; Zheng et al., 2024),要么采用过于简化的多项选择问答设置(Skarlinski et al., 2024)。构建高质量文献综述基准面临两个主要挑战:
第一,创建此类数据集需要大量资源,因为它需要博士级别的领域专业知识和研究经验,特别是在标注真实问题和高质量答案时。
第二,即使有高质量数据可用,可靠地评估长篇幅自然语言回答仍然是一个重大挑战,尤其是在专业领域(Xu et al., 2023b; 2024)。这与其他科学过程的基准形成对比,例如自动化实验代码生成,对于后者有更清晰的评估标准,如 Pass@1,更容易获得(Si et al., 2024)。
为了解决这些差距,我们引入了 ScholarQABench,一个支持多种格式科学文献综合任务的基准,包括封闭式分类、多项选择和长篇幅生成,如表1所示。我们采用了三个现有的单篇论文数据集,然后为计算机科学、生物医学、物理学和神经科学构建了一套高质量的专家标注数据集(第3.1节)。我们还构建了一个可靠的自动评估管道(第3.2节)。
表1提供了 ScholarQABench 中的任务列表,图3展示了一个示例和评估管道概述。
3.1 数据整理
ScholarQABench 旨在评估模型在自动化科学文献综述方面的能力。整理过程由三个关键因素指导:
- 任务多样性:ScholarQABench 包括具有各种输入输出格式的任务
- 学科多样性:与通常专注于单一学科(如计算机科学)的先前分析不同,ScholarQABench 跨越四个科学学科
- 包含多论文任务:与专注于理解单一预选论文的先前工作不同,所有任务都需要从整个开放获取全文集合中检索(第3.1.1节),四个数据集特别需要对多个检索到的论文进行推理(第3.1.2节)
3.1.1 单篇论文任务
对于单篇论文任务,我们整理并调整了现有的广泛使用的单篇论文数据集。图15显示了单篇论文任务的示例;更多细节见附录 B.2。
SciFact:SciFact(Wadden et al., 2020)是一个包含1.4K个专家编写的生物医学领域科学主张的数据集,与来自现有 PubMed 论文摘要的黄金证据配对,并标注了标签和基本原理。我们包括标记为支持(真)或矛盾(假)的验证集查询,丢弃原始黄金证据,并将任务重新表述为二元开放检索,系统需要从大量论文集合中识别相关论文。
PubMed QA:PubMed QA(Jin et al., 2019)在 PubMed 论文摘要上有专家标注的(是/否/可能)问答数据。与 SciFact 类似,我们只保留带有是或否标签的实例,并丢弃原始摘要段落,将任务 formulated 为开放检索设置。
QASA:QASA(Lee et al., 2023)是一个单篇论文问答数据集,由问答对组成,需要对 AI 和 ML 中的科学文章进行推理。我们评估模型充分回答有关目标论文的详细问题的能力。虽然原始数据集提供了三个子任务(答案选择、基本原理生成和答案组合)以及端到端问答,我们基于端到端问答设置评估模型的性能。
3.1.2 多论文任务
单篇论文、封闭集任务可能提供可靠的评估。然而,它们可能不反映真实场景,在真实场景中,复杂的开放式问题独立于现有论文被提出,并且需要多论文检索和推理。很少有数据集(Xu et al., 2024; Malaviya et al., 2023)探索具有真实查询的多论文设置,并且大多数缺乏可靠的评估管道或人工编写的参考答案。
我们通过整理三个新的长篇幅问答数据集来解决这一差距,由专家标注,用于这些具有挑战性的设置(详见附录 B.2)。此外,我们的多论文任务包括四个科学学科。
ScholarQA-CS:我们通过在领域内招募具有博士学位的专家标注者(教授、博士后研究人员和研究科学家),收集了100个问题以及每个问题 across 各种计算机科学学科的详细答案评分标准。标注者被要求编写文献综述问题,这些问题预计需要多篇研究论文来回答。问题主题涵盖网络、算法、物联网、人工智能和人机交互等领域。然后,对于每个问题,另外两名标注者搜索网络以产生一个评分标准,列出正确答案的关键成分,按重要性分类(“必须有"和"最好有”),以及每个成分的支持引用来源。标注者被指示在此任务的初始部分不使用任何 LLM 服务。平均而言,每个问题标注有4.4个关键成分,每个成分由4.4个引用支持。
为了测量一致性,我们让两名标注者为10个随机抽样问题的子集产生评分标准。然后我们使用我们的自动化方法为标注者接触的四个 LLM 服务的回答计算分数,每组标注者评分标准计算一次。最后,我们计算每个问题分数之间的皮尔逊相关系数并取平均值。由于评分标准标注任务是主观的,我们计算了包括和不包括一般标准作为分数的一部分的一致性,分别为79.3和59.5。图3显示了一个示例,更多示例和细节见附录 E.2。
ScholarQA-BIO、ScholarQA-NEURO:我们进一步在生物医学和神经科学领域收集了2,759个专家编写的文献综述问题,招募了六名具有相关领域博士学位且目前是研究科学家和工程师的专家。标注者被要求从他们的专业领域选择论文,并生成生物医学科学家可能基于他们对这些论文的解析合理提出的复杂科学问题。我们从不同领域收集了问题,如生物成像、遗传学、微生物学和神经调控。由于标注成本,我们仅专注于整理问题。完整说明和示例见附录6和 E.3。
ScholarQA-MULTI:最后,我们在四个领域收集了108个文献综述问题和专家编写的带引用的答案:计算机科学(AI/ML、HCI)、生物医学(生物成像、遗传学)、物理学(天体物理学、光子学、生物物理学)。所有标注均由博士生或博士后科学家进行,他们在相应领域拥有超过三年的研究经验并有多篇第一作者发表。我们要求他们提出与最新文献相关的问题,并使用他们通过搜索找到的相关论文编写答案。我们的标注者被指示不使用任何基于 LLM 的系统,如 ChatGPT,并被告知仅使用通用搜索(例如 Google Search)或论文搜索系统(例如 Semantic Scholar)。表14显示了收集的问题和答案的统计数据,主题分布见图6a,以及每个主题的平均标注时间。我们在附录 E.4 中展示了几个示例。平均而言,每个标注者每个实例花费56分钟。
3.2 指标和评估协议
我们开发了一个多方面的自动评估管道,以促进可重复和高效的评估,补充专家评估。我们的评估概述见图3。
正确性(Corr):正确性评估模型生成答案和人工标注参考之间的重叠或匹配程度。此指标仅适用于具有人工标注参考答案的任务。对于给定固定答案类别的短篇幅生成任务,即 SciFact 和 PubMed QA,我们使用准确度作为正确性指标。对于 QASA,我们使用 ROUGE-L 作为评估指标,遵循 Lee et al.(2023)。对于 ScholarQA-CS,我们开发了一个新的长篇幅评估管道,采用专家标注的评分标准。每个评分标准有两个标准:一般(占分数的40%)和标注驱动(60%)。一般标准涵盖长度、专业知识、引用和摘录的评估,而标注驱动标准涉及评估标注者识别的特定关键成分的存在。GPT4o-turbo 为每个标准分配分数,并计算加权和以获得最终分数。更多细节见附录 B.3.1。
引用准确性(Cite):评估文献综述问题的长篇幅回答需要引用准确性:LLMs 应正确归因所有值得引用陈述的相关证据。在 ScholarQABench 中,所有系统都生成带有参考编号(例如[1]、[2])的输出,链接到推理期间提供的段落。遵循先前的工作(Gao et al., 2023; Liu et al., 2023),我们测量引用精确率和召回率。具体而言,我们检查每个值得引用的陈述是否有适当的引用,以及引用是否支持该陈述(引用召回率,Cite-r)。对于每个引用,我们然后验证其相关性和必要性——具体来说,引用是否支持该陈述,以及其移除是否影响剩余引用的完整性(引用精确率,Cite-p)。最后,我们也计算引用 F1(Cite-F1),并将其用作引用准确性的主要指标。引用准确性不需要黄金参考答案或评分标准,因此我们将此评估应用于所有任务。
内容质量和组织(LLM、Expert):我们进一步定义了评估生成答案的关键方面,超出 Corr 或 Cite。具体而言,我们评估与问题的相关性(Rel)、主题的覆盖范围(Cov)(例如讨论论文的多样性)和深度(例如细节的充分性),以及组织和写作流程(Org)。这些方面难以用标准指标捕捉。由于 LLMs 可以有效遵循详细的评估评分标准(Zheng et al., 2023a; Kim et al., 2024a),我们使用 Prometheus v2(Kim et al., 2024a)根据定义的评分标准分配五分制分数,并对人工评估使用相同的模式。对于人工评估,我们进一步评估总体有用性(Use)。此评估的完整说明见附录 B.3。由于先前的研究表明当没有黄金参考答案时 LLM 较不可靠(Kim et al., 2024b),此评估仅应用于具有人工标注参考答案的任务,即 ScholarQA-MULTI。我们分析了人类和模型在细粒度方面评估的一致性(附录 D.2),发现模型的评估通常与人类排名一致,在组织和覆盖范围方面显示出更高的相关性。
4 实验与结果
4.1 实验细节
模型:首先,我们评估开放权重和专有 LMs,包括 Llama 3.1(8B、70B)和 GPT-4o(gpt-4o-2024-05-13)。在此设置中,每个 LM 独立生成答案,无需外部检索,并提供参考论文标题列表。对于评估,我们验证生成的论文标题是否存在。如果存在,我们检索它们相应的摘要用作引用。对于多论文任务,我们进一步评估其他专有系统:Perplexity Pro 和 PaperQA2(Skarlinski et al., 2024),一个并发的文献综述代理系统,使用 GPT4o 进行重排、摘要和答案生成。然后,我们使用我们的 OpenScholar-DataStore(+OSDS) 评估模型,在那里我们检索前 N 个段落,并将它们与原始输入一起连接和输入。最后,我们评估我们提出的 OpenScholar,利用我们使用训练的8B模型(OS-8B)以及 Llama 3.1 70B 和 GPT4o(OS-70B、OS-GPT4o)的自定义推理时管道。
OpenScholar 细节:我们使用 peS2o v2 作为我们的默认数据存储 D。我们在附录 D.1 中分析了不同数据存储的效果。对于 OpenScholar 中的 θ_bi 和 θ_cross,我们使用我们训练的双编码器和交叉编码器模型,分别由1.1亿和3.4亿个参数组成。我们将来自网络搜索和 Semantic Scholar 的最大论文数量设置为10。对于生成器 LMs,我们将温度设置为0.7,并将响应生成的最大令牌数限制为3,000,反馈生成为1,000,并使用 vllm 包进行更快的推理。我们使用 torchtune 在130k训练实例上训练 Llama 3.1 8B 两个 epoch。更多细节见附录 C。对于所有模型,我们将输入生成器 LM 的段落数量设置为单篇论文任务为5,多论文任务为10。不提供少样本演示,除了 SciFact 和 PubMed,我们包括单样本演示。
4.2 结果
表2显示了多个主要基线的多个方面的分数。总而言之,OpenScholar 实现了最先进的性能,显著优于 GPT4o 及其标准 RAG 版本,以及像 PaperQA2(Skarlinski et al., 2024)这样的专业文献综述系统。
单篇论文任务:在单篇论文任务上,OpenScholar 始终优于其他模型。OS-8B 和 OS-70B 在最终 Corr 和 Cite 方面优于具有和不具有检索增强的 Llama 3.1 8B 和70B。OS-70B 甚至在 PubMed QA 和 QASA 上匹配或优于 GPT4o。
多论文任务:OpenScholar-8B、70B 和 GPT4o(OS-8B、OS-70B 和 OS-GPT4o)在多论文任务中表现出强大的性能。具体而言,OS-GPT4o 在 Scholar-CS Corr 方面比单独的 GPT4o 提高了12.7分,比标准 RAG 提高了5.3。与训练的 OS-8B 结合使用时,OpenScholar 显著优于使用现成 Llama 3.1 8B 的管道,展示了领域特定训练的好处。此外,此 OpenScholar-8B 优于专有系统,如 GPT4o、Perplexity Pro 或 PaperQA2,后者使用 GPT4o 模型进行段落重排、摘要和答案生成,优势显著。
值得注意的是,通过利用具有轻量级双编码器、交叉编码器和内部模型的高效检索管道,OpenScholar-8B 和 OpenScholar-GPT4o 实现了显著更低的成本——比 PaperQA2 便宜几个数量级——同时保持高性能。
参数化 LMs 的局限性:在单篇论文和多论文任务上,我们观察到非检索增强基线 struggles,检索几乎总是有助于实现更好的性能,没有任何检索的模型通常难以生成正确的引用,并在多论文任务上显示出有限的覆盖范围。如表3所示,实际存在的引用论文比例低得惊人。特别是,虽然 GPT4o 和 Llama 等模型可以生成合理的参考文献列表,但我们发现78-98%的引用论文是编造的,这个问题在生物医学领域更加严重。即使引用指向真实论文,大多数也没有得到相应摘要的证实,导致引用准确率接近零。
我们还观察到此类模型也生成覆盖范围有限的回答。在 Scholar-Multi 上,非检索模型(Llama 3.1 8B、70B 和 GPT4o)始终表现出比检索增强模型低得多的平均分数。这种差异主要由低得多的 Cov 分数驱动;例如,Llama 3.1 8B 实现3.45的 Cov 分数,而 Llama 3.1 8B+OSDS(标准 RAG 基线)将其提高到4.01。这些结果表明,仅依赖模型的参数知识在科学领域特别困难,尤其是对于较小的 LMs。
4.3 分析
消融研究:我们进行消融以评估 OpenScholar 各个组件(推理和训练)的有效性。具体而言,我们移除每个推理时程序:重排、反馈和归因,对于 OS-8B,我们消融训练,在那里我们使用 Llama 3-8B 而没有任何进一步训练。
如图4(a)所示,移除这些组件显著影响了模型输出的整体正确性和引用准确性。值得注意的是,移除重排器导致两个模型的性能大幅下降。在 GPT4o 中移除反馈循环后的显著性能下降表明更强大的模型极大地受益于自反馈循环,与 Madaan et al.(2023)一致,而在我们训练的8B中性能下降有限。此外,移除事后归因评估对引用准确性和最终输出正确性都产生了负面影响,凸显了确保模型验证其输出的重要性。
训练版与原始 OS-8B 之间的显著性能差距表明,在高质量、领域特定数据上进一步训练是构建高效、任务专门化 LMs 的关键。在接下来的分析中,我们证明训练对 LM 有效利用更多上下文的能力有显著影响,同时保持引用准确性。
上下文段落数量:我们分析了改变上下文段落数量(top N)如何影响模型性能。具体而言,我们使用我们训练的8B模型和 Llama 3.1 8B 试验了标准 RAG 和 OpenScholar,并在 Scholar-CS 上评估了生成准确性和引用准确性。图4(b)(c)显示了结果。虽然 Llama 3.1 被训练为处理并接受高达128K令牌的上下文长度,但我们发现它的性能在一定上下文大小后恶化。虽然将 top N 上下文窗口从5增加到10确实提高了模型的正确性分数,但进一步扩展实际上会恶化正确性和引用准确性。这表明,尽管 LMs 可以处理大量段落,但它们可能在没有专门训练的情况下难以有效使用它们,特别是对于较小的模型。
相比之下,我们训练的8B模型在最多 N=20 个段落时保持强大的性能。我们还发现较大的模型,如 Llama 3.1 70B,对增加的上下文长度更稳健。在引用准确性方面,如图4(c)所示,Llama 3.1 8B 观察到快速下降,引用 F1 低至10,而我们的8B LM 和 Llama 70B 都保持在约40的引用 F1,尽管它们也看到一些性能下降。
5 专家评估
为了补充我们的自动评估并更好地了解 OpenScholar 的有效性和局限性,我们进行了人工评估。这项研究涉及超过100个文献综述问题和超过15名参与者,包括博士生、研究科学家和大学相关领域专家教授。总共,我们在人工和模型答案上整理了超过400个细粒度专家评估。
5.1 人工评估设计
与人类专家的评估:对于人工评估,我们使用 ScholarQA-MULTI 中的108个问答对,由专家编写。我们在这些问题上运行三个模型以生成带引用的答案:GPT4o(无外部检索)、OpenScholar 与 GPT4o 作为生成器(OS-GPT4o),以及 OpenScholar 与我们训练的8B模型(OS-8B)。然后要求专家标注者评估模型生成的答案与人工编写的答案。
每次评估涉及呈现一个问题、一个模型生成的答案和一个人工编写的答案。然后专家标注者对每个答案进行细粒度评估,并在两者之间提供成对偏好判断。对于细粒度评估,我们使用第3节描述的五分制评估标准(Cov、Org、Rel),标注者使用相同的评分标准为模型和人工答案评分。对于有用性(Use),标注者分配1-5分的分数,我们将其转换为三个类别:无用处(1-2)、中性(3)和有用(4-5)。然后我们计算落入有用类别的答案百分比。对于成对偏好,标注者选择一个答案或如果他们认为两个答案质量相等则标记"平局"。可选地,专家提供一个答案为什么比另一个更好的解释。
答案编写的专家标注者:我们的问题和答案编写专家标注者是来自美国研究机构的12名博士生和博士后研究人员,他们都拥有至少三年的研究经验并在其领域的期刊或会议上发表了多篇论文。我们的标注者的专业领域涵盖计算机科学(自然语言处理、计算机视觉、人机交互)、物理学(天体物理学和光子学/光学)和生物医学(神经科学、生物成像)领域,我们将我们的专家标注者分配给他们专业领域的问题。平均而言,我们每人支付35-40美元。
评估的专家标注者:总共16名来自三个领域的专家标注者贡献了评估。他们包括7名博士生、5名博士后研究人员和4名助理教授。标注者被分配评估他们专业领域的问题和答案。平均而言,每个标注者每个评估花费25分钟。
5.2 结果
表4显示了人工评估结果。在所有三个方面,OS-GPT4o 和 OS-8B 都优于或相当于人工编写的答案。OS-GPT4o 在组织和覆盖范围方面显著优于人工答案,分别提高了0.8和0.9分。OS-8B 在覆盖范围方面也优于人工答案,提高了0.7分,尽管在组织方面略低。
在总体有用性方面,OS-GPT4o 被评为有用的比例为80.0%,比人工答案高出22.5个百分点。OS-8B 被评为有用的比例为72.1%,比人工答案高出8.7个百分点。相比之下,GPT4o 被评为有用的比例为69.7%,比人工答案低13.9个百分点。
在成对偏好方面,OS-GPT4o 在70.0%的情况下优于人工答案,而 OS-8B 在50.8%的情况下优于人工答案。GPT4o 仅在31.9%的情况下优于人工答案,在54.2%的情况下输给人工答案。
图5显示了细粒度评估结果的分数分布。OS-GPT4o 在所有方面都有更高的分数分布,表明更一致的高质量输出。OS-8B 在覆盖范围方面也有更高的分数,尽管在组织方面略有下降。
专家评论:我们收集了标注者关于为什么一个答案比另一个更好的定性反馈。常见主题包括:
- 覆盖范围:OS-GPT4o 和 OS-8B 提供更全面的主题覆盖,包括更多相关论文和观点
- 组织:OS-GPT4o 有更好的逻辑流程和结构,使读者更容易理解
- 引用准确性:OS-GPT4o 和 OS-8B 的引用更准确和适当支持陈述
- 深度:OS-GPT4o 提供更详细的解释和分析,而 GPT4o 通常停留在表面
一位标注者评论说:“OpenScholar 答案不仅涵盖了我期望的所有关键点,而且还以逻辑连贯的方式组织它们。引用是相关的,直接支持所做的陈述。相比之下,人工答案虽然准确,但缺乏同样的覆盖范围和深度。”
6 相关工作
检索增强语言模型:检索增强语言模型(Lewis et al., 2020; Guu et al., 2020)通过在生成时整合检索到的外部知识来缓解幻觉和过时信息的问题。最近的工作探索了各种检索策略,包括密集检索(Karpukhin et al., 2020)、稀疏检索和混合方法。OpenScholar 通过为科学领域定制检索管道和引入自反馈推理循环来构建这些想法。
科学文献综合:先前的工作已经开发了各种系统来辅助科学文献综合,包括 PaperQA2(Skarlinski et al., 2024)、SciSum(Agarwal et al., 2024)和 ResearchGPT(Zheng et al., 2024)。这些系统通常依赖于专有 LLMs 和黑盒检索 API。OpenScholar 通过提供完全开源的替代方案,包括数据存储、检索器和语言模型,与这些工作不同。
自反馈和自我改进:自反馈方法已被探索用于改进 LLM 输出(Madaan et al., 2023; Saunders et al., 2022)。OpenScholar 通过自然语言反馈生成和迭代精炼扩展了这一想法,使模型能够识别并纠正自身输出的弱点。
科学基准测试:先前针对科学领域的基准通常专注于特定任务,如事实验证(Wadden et al., 2020)、问答(Jin et al., 2019; Lee et al., 2023)或摘要(Cohan et al., 2018)。ScholarQABench 通过提供涵盖多个学科的多方面评估基准,包括自动和人工评估协议,与这些工作不同。
7 结论与未来工作
我们介绍了 OpenScholar,一个专门针对科学文献综合的检索增强语言模型。OpenScholar 利用我们新开发的 OpenScholar-DataStore(OSDS),包含4500万篇科学论文,以及专门为科学领域训练的检索器和重排器。通过迭代自反馈推理,OpenScholar 显著提高了引用准确性和整体正确性,超越了 GPT-4o 和专用系统,如 PaperQA2。
我们还介绍了 ScholarQABench,这是首个大规模多领域文献综合基准,包含2,967个专家编写的查询和208个长篇幅回答。我们的多方面评估协议结合了自动指标和人工评估,提供了对模型性能的强大和可重复评估。
在人工评估中,专家在70%的情况下更喜欢 OpenScholar-GPT4o 的回答,在51%的情况下更喜欢 OpenScholar-8B 的回答,而不是专家编写的答案。这凸显了 OpenScholar 在综合科学文献方面的有效性。
未来工作
虽然我们展示了 OpenScholar 在科学文献综合方面的强大性能,但仍有许多未来工作方向:
-
扩展到更多学科:当前评估涵盖四个学科。未来工作可以扩展到更多领域,如化学、材料科学、社会科学和人文学科。
-
处理付费墙论文:当前数据存储仅限于开放获取论文。整合付费墙论文将需要与出版商合作或开发新的数据获取策略。
-
多模态输入:科学文献通常包含图表、公式和图像。扩展 OpenScholar 以处理多模态输入将增强其理解和综合能力。
-
实时检索和更新:开发更高效的检索管道以支持实时检索和持续更新将使 OpenScholar 对快速发展的研究领域更有用。
-
交互式和可解释输出:允许用户与 OpenScholar 进行交互并探索推理过程将提高系统的透明度和有用性。
-
领域适应:虽然 OpenScholar 目前专注于一般科学文献,但将其适应特定领域(如药物发现或材料设计)可能在应用中提供更大的价值。
我们开源了完整的 OpenScholar 生态系统,以促进进一步的研究和开发。我们期待社区在这一基础上构建并推进科学文献综合的边界。
8 伦理考虑
OpenScholar 的开发和使用需要考虑几个伦理问题:
数据隐私:OSDS 中的数据来自开放获取论文,这些都是公开可用的。然而,研究人员应意识到数据中可能包含敏感信息,如患者数据或机密研究结果。
偏见和公平性:训练数据和评估基准可能反映现有科学文献中的偏见。例如,某些研究领域或地理区域可能代表性不足。我们鼓励未来的工作识别和减轻这些偏见。
误用风险:虽然 OpenScholar 旨在帮助研究人员综合文献,但它也可能被用于生成误导性或虚假的科学内容。用户应始终验证 OpenScholar 的输出,并将其作为辅助工具,而不是替代专业判断。
环境影响:训练和部署大型语言模型可能具有显著的环境影响。我们鼓励使用更高效的模型和硬件,并考虑计算的碳足迹。
作者贡献:所有作者对这项工作都有重大贡献。贡献的详细描述见附录。
参考文献
(论文参考文献部分 - 由于篇幅较长且主要为引用格式,此处仅列出关键参考文献类别)
- 检索增强生成:Lewis et al. (2020), Guu et al. (2020), Karpukhin et al. (2020)
- 科学基准测试:Wadden et al. (2020), Jin et al. (2019), Lee et al. (2023)
- 自反馈和自我改进:Madaan et al. (2023), Saunders et al. (2022)
- 语言模型和评估:Dubey et al. (2024), Kim et al. (2024a)
- 检索器和重排器:Izacard et al. (2022), Xiao et al. (2023), Nogueira & Cho (2019)
完整参考文献列表见原始 PDF。
附录
(论文包含多个附录,涵盖以下主题:)
- 附录 A:OpenScholar 管道的完整详细信息
- 附录 B:ScholarQABench 数据整理的更多细节
- 附录 C:训练和推理的实现细节
- 附录 D:附加分析和消融研究
- 附录 E:示例和案例研究
完整附录内容见原始 PDF 或 arXiv 版本。
翻译完成说明:
- 本文档由 AI 辅助翻译,专业术语保留英文原文
- 图表和公式已在正文中描述,完整图表见原始 PDF
- 参考文献和附录已摘要,完整内容见 arXiv:2411.14199
- 翻译日期:2026-05-14
- 翻译者:Lingma
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)