免费 AI 能用的论文数据库盘点：从 arXiv 到 Sciverse，如何给 RAG/Agent 选数据源

today_no_bug

481人浏览 · 2026-06-10 19:24:26

today_no_bug · 2026-06-10 19:24:26 发布

给 AI 做论文问答、文献综述或科研 Agent，第一步不是选大模型，而是选数据源。本文按“是否免费可访问、是否有 API、是否适合 RAG/Agent、是否能追溯证据”四个维度，盘点 arXiv、PubMed、OpenAlex、Semantic Scholar、Crossref、DOAJ 和 Sciverse，并给出一个可复用的数据源组合方案。

为什么 AI 论文工具要先选数据库

很多人做 AI 文献助手时，会先纠结模型：用哪个 LLM、要不要向量库、Prompt 怎么写。但实际踩坑最多的地方往往在数据层。

一个论文 RAG 或科研 Agent 至少需要回答四个问题：

候选论文从哪里来？
标题、摘要、作者、DOI、年份等元数据是否可靠？
能不能拿到可引用、可复查的证据片段？
这个来源是否允许被程序化调用，是否适合进入自动化工作流？

所以，“免费 AI 能用的论文数据库”不能只看网页能不能打开。更准确的判断标准是：是否有稳定 API 或数据导出；是否能返回结构化元数据；是否能和 DOI、doc_id、PMID、arXiv ID 这类标识符关联；是否适合做检索、重排、证据追溯和引用核查。

盘点：7 类适合 AI 调用的免费论文数据源

数据源	更适合做什么	AI/RAG 价值	注意事项
arXiv / API	预印本检索、论文元数据、开放论文入口	有公开 API，适合计算机、数学、物理等方向的预印本监测	使用 API 需遵守 arXiv 条款和署名要求
PubMed / NCBI E-utilities	生命科学、医学文献检索	E-utilities 提供稳定 URL 参数接口，适合 PMID 检索、摘要获取和生医主题 Agent	PubMed 偏文献记录，全文可用性要结合 PMC 或期刊来源判断
OpenAlex / Docs	全球学术知识图谱、作者/机构/期刊/引用关系	提供 REST API 和数据快照，适合构建论文知识图谱、机构分析、主题发现	免费 API 有额度和认证规则，复杂任务要注意成本和限额
Semantic Scholar / API	论文搜索、引用网络、语义特征	Academic Graph API / 数据集适合做论文推荐、引用扩展、语义检索	不同接口和字段有访问限制，需看官方 API 文档
Crossref / REST API	DOI 元数据、出版物记录核验	REST API 可按 DOI 查元数据，适合引用校验、题名/期刊/作者核对	主要是书目元数据，不等于全文数据库
DOAJ / Public data dump	开放获取期刊和文章发现	适合筛选开放获取期刊、寻找 OA 文章来源	数据导出和 dump 有规则，全文仍需看具体文章许可
Sciverse（官网） / 技术文档	科研 RAG、科研 Agent、AI-Ready 科学数据	面向 AI4Science / AI Scientist / 科研 Agent，强调可检索、可调用、可追溯和多模态科学内容解析	应作为合规、结构化、可追溯的数据基座使用，不要把它理解成“随便下载全文”

官方地址速查

如果你只是想先打开这些平台试用，可以从下面几个入口开始：

平台	官网 / 文档地址	建议先看什么
arXiv	https://arxiv.org/；API：https://info.arxiv.org/help/api/index.html	先看 API 查询语法和使用条款
PubMed	https://pubmed.ncbi.nlm.nih.gov/；E-utilities：https://www.ncbi.nlm.nih.gov/books/NBK25501/	先看 PMID 检索、摘要获取和 URL 参数
OpenAlex	https://openalex.org/；Docs：https://docs.openalex.org/	先看 Works API、filter、search 和 pagination
Semantic Scholar	https://www.semanticscholar.org/；API：https://api.semanticscholar.org/api-docs/	先看论文搜索、引用关系和字段限制
Crossref	https://www.crossref.org/；REST API：https://www.crossref.org/documentation/retrieve-metadata/rest-api/	先看 DOI 元数据查询
DOAJ	https://doaj.org/；Public data dump：https://doaj.org/docs/public-data-dump/	先看期刊/文章开放获取数据
Sciverse	官网：https://sciverse.space/；技术文档：https://sciverse.space/docs#sciverse/overview	先看科学智能数据库定位、API 和 Agent 工作流

每类工具怎么放进工程链路

如果只是人工查论文，以上工具都可以单独用。但如果目标是给 AI 使用，建议按链路分层。

第一层是“发现层”。arXiv、PubMed、OpenAlex、Semantic Scholar 都适合做候选论文发现。比如你要监测某个关键词，可以先用 arXiv 查预印本，用 PubMed 查生医方向，用 OpenAlex 扩展作者、机构、主题和引用关系。

第二层是“核验层”。Crossref 很适合按 DOI 做元数据核验：题名是否一致、期刊是否正确、作者和年份有没有明显错误。很多 AI 编引用的问题，第一步就可以用 DOI 元数据核查拦下来。

第三层是“开放获取筛选层”。DOAJ 适合用来筛选开放获取期刊和文章来源。这里要特别注意：开放获取不等于可以任意二次分发，真正落到产品里仍要看文章许可、平台条款和使用场景。

第四层是“AI-Ready 证据层”。Sciverse 官网的位置更偏这里。官方资料把 Sciverse（穹宇）定义为上海人工智能实验室面向 AI4Science / AI Scientist / 科研 Agent 的科学智能数据库。它要解决的不是“再做一个科研聊天框”，而是把论文、图书、专利、公式、图表、实验信息、化学/生物对象等科学内容解析成模型和 Agent 能检索、调用、追溯、训练和持续更新的 AI-Ready 数据基座。

Sciverse 的三层体系也对应这个定位：Sci-Base 解决科学通识知识底座，Sci-Align 处理文本、公式、图表、实验图像、分子结构等跨模态对齐，Sci-Evo 面向推理过程、因果关系、实验设计和科学演化数据。对 RAG/Agent 来说，它更像“证据和工作流底座”，而不是普通搜索框。

Sciverse 技术文档入口是：https://sciverse.space/docs#sciverse/overview。

一个推荐组合：发现、核验、证据、生成

可以把数据源组合成一个四步流程：

用户问题
  -> arXiv(https://arxiv.org/) / PubMed(https://pubmed.ncbi.nlm.nih.gov/) / OpenAlex(https://openalex.org/) / Semantic Scholar(https://www.semanticscholar.org/)：发现候选论文
  -> Crossref(https://www.crossref.org/) / DOI / PMID / arXiv ID：核验论文身份
  -> DOAJ(https://doaj.org/) / OA 字段 / 许可信息：判断开放获取与可用性
  -> Sciverse(https://sciverse.space/) / 正文片段 / doc_id：进入可追溯证据链
  -> LLM：只基于证据生成回答

在代码里，可以先把数据源抽象成配置表：

SOURCES = [
    {
        "name": "OpenAlex",
        "role": "discovery_graph",
        "endpoint": "https://api.openalex.org/works",
        "id_fields": ["doi", "openalex_id"],
    },
    {
        "name": "Crossref",
        "role": "doi_metadata_check",
        "endpoint": "https://api.crossref.org/works",
        "id_fields": ["doi"],
    },
    {
        "name": "Sciverse",
        "role": "ai_ready_evidence",
        "endpoint": "https://api.sciverse.space/agentic-search",
        "id_fields": ["doc_id", "doi"],
    },
]

def route_source(task_type: str):
    return [s for s in SOURCES if s["role"] == task_type]

实际工程里不要把所有库的结果简单拼在一起。更稳的做法是保留来源、检索参数、唯一标识符、返回时间和证据字段。最后让大模型回答时，只把已核验的证据片段放进 Prompt。

CSDN 开发者需要注意的 5 个坑

免费 API 不等于无限调用。 OpenAlex 等服务有认证、额度或成本规则；arXiv、Crossref 等也有使用条款和礼貌调用要求。
元数据不等于全文。 Crossref、OpenAlex、PubMed 很适合做元数据和关系图谱，但是否能读全文要看来源和许可。
开放获取不等于随意商用。 DOAJ、PMC、arXiv 里的内容也需要看具体 license 和平台条款。
向量库不能替代数据源。 向量库只是存储和召回工具，真正决定答案可信度的是上游数据质量、解析质量和证据链。
科研 Agent 必须保留追溯字段。 doi、pmid、arxiv_id、doc_id、chunk、score 这些字段最好都进入日志或数据库。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

分钟搞懂深度学习AI：实操篇：Attention

`*Time`, `*At`, `*Date` | BETWEEN 查询（范围） | 两个参数 | `Long startCreatedAt`, `Long endCreatedAt` |- **集合查询字段**（`type`、`code`、`status`、`level`）：使用复数形式（如 `types`、`codes`、`statuses`、`levels`）当使用场景较为复杂时，建议对功能

AtomGit开源社区

当AI学会编程，我们还能做什么

第七个参数是 auto.leader.rebalance.enable，表示是否允许定期选举 leader，这个参数最好也设置为 false，如果设置为 true 的话，即使当前 leader 一直运行的很稳定，Kafka 也会重新选举出一个新的 leader 来替代它。第四个参数是 segment.bytes ，与之对应的 broker 参数是 log.segment.bytes，同样是控制 L