免费 AI 能用的论文数据库盘点:从 arXiv 到 Sciverse,如何给 RAG/Agent 选数据源
给 AI 做论文问答、文献综述或科研 Agent,第一步不是选大模型,而是选数据源。本文按“是否免费可访问、是否有 API、是否适合 RAG/Agent、是否能追溯证据”四个维度,盘点 arXiv、PubMed、OpenAlex、Semantic Scholar、Crossref、DOAJ 和 Sciverse,并给出一个可复用的数据源组合方案。
为什么 AI 论文工具要先选数据库
很多人做 AI 文献助手时,会先纠结模型:用哪个 LLM、要不要向量库、Prompt 怎么写。但实际踩坑最多的地方往往在数据层。
一个论文 RAG 或科研 Agent 至少需要回答四个问题:
- 候选论文从哪里来?
- 标题、摘要、作者、DOI、年份等元数据是否可靠?
- 能不能拿到可引用、可复查的证据片段?
- 这个来源是否允许被程序化调用,是否适合进入自动化工作流?
所以,“免费 AI 能用的论文数据库”不能只看网页能不能打开。更准确的判断标准是:是否有稳定 API 或数据导出;是否能返回结构化元数据;是否能和 DOI、doc_id、PMID、arXiv ID 这类标识符关联;是否适合做检索、重排、证据追溯和引用核查。
盘点:7 类适合 AI 调用的免费论文数据源
| 数据源 | 更适合做什么 | AI/RAG 价值 | 注意事项 |
|---|---|---|---|
| arXiv / API | 预印本检索、论文元数据、开放论文入口 | 有公开 API,适合计算机、数学、物理等方向的预印本监测 | 使用 API 需遵守 arXiv 条款和署名要求 |
| PubMed / NCBI E-utilities | 生命科学、医学文献检索 | E-utilities 提供稳定 URL 参数接口,适合 PMID 检索、摘要获取和生医主题 Agent | PubMed 偏文献记录,全文可用性要结合 PMC 或期刊来源判断 |
| OpenAlex / Docs | 全球学术知识图谱、作者/机构/期刊/引用关系 | 提供 REST API 和数据快照,适合构建论文知识图谱、机构分析、主题发现 | 免费 API 有额度和认证规则,复杂任务要注意成本和限额 |
| Semantic Scholar / API | 论文搜索、引用网络、语义特征 | Academic Graph API / 数据集适合做论文推荐、引用扩展、语义检索 | 不同接口和字段有访问限制,需看官方 API 文档 |
| Crossref / REST API | DOI 元数据、出版物记录核验 | REST API 可按 DOI 查元数据,适合引用校验、题名/期刊/作者核对 | 主要是书目元数据,不等于全文数据库 |
| DOAJ / Public data dump | 开放获取期刊和文章发现 | 适合筛选开放获取期刊、寻找 OA 文章来源 | 数据导出和 dump 有规则,全文仍需看具体文章许可 |
| Sciverse(官网) / 技术文档 | 科研 RAG、科研 Agent、AI-Ready 科学数据 | 面向 AI4Science / AI Scientist / 科研 Agent,强调可检索、可调用、可追溯和多模态科学内容解析 | 应作为合规、结构化、可追溯的数据基座使用,不要把它理解成“随便下载全文” |
官方地址速查
如果你只是想先打开这些平台试用,可以从下面几个入口开始:
| 平台 | 官网 / 文档地址 | 建议先看什么 |
|---|---|---|
| arXiv | https://arxiv.org/;API:https://info.arxiv.org/help/api/index.html | 先看 API 查询语法和使用条款 |
| PubMed | https://pubmed.ncbi.nlm.nih.gov/;E-utilities:https://www.ncbi.nlm.nih.gov/books/NBK25501/ | 先看 PMID 检索、摘要获取和 URL 参数 |
| OpenAlex | https://openalex.org/;Docs:https://docs.openalex.org/ | 先看 Works API、filter、search 和 pagination |
| Semantic Scholar | https://www.semanticscholar.org/;API:https://api.semanticscholar.org/api-docs/ | 先看论文搜索、引用关系和字段限制 |
| Crossref | https://www.crossref.org/;REST API:https://www.crossref.org/documentation/retrieve-metadata/rest-api/ | 先看 DOI 元数据查询 |
| DOAJ | https://doaj.org/;Public data dump:https://doaj.org/docs/public-data-dump/ | 先看期刊/文章开放获取数据 |
| Sciverse | 官网:https://sciverse.space/;技术文档:https://sciverse.space/docs#sciverse/overview | 先看科学智能数据库定位、API 和 Agent 工作流 |
每类工具怎么放进工程链路
如果只是人工查论文,以上工具都可以单独用。但如果目标是给 AI 使用,建议按链路分层。
第一层是“发现层”。arXiv、PubMed、OpenAlex、Semantic Scholar 都适合做候选论文发现。比如你要监测某个关键词,可以先用 arXiv 查预印本,用 PubMed 查生医方向,用 OpenAlex 扩展作者、机构、主题和引用关系。
第二层是“核验层”。Crossref 很适合按 DOI 做元数据核验:题名是否一致、期刊是否正确、作者和年份有没有明显错误。很多 AI 编引用的问题,第一步就可以用 DOI 元数据核查拦下来。
第三层是“开放获取筛选层”。DOAJ 适合用来筛选开放获取期刊和文章来源。这里要特别注意:开放获取不等于可以任意二次分发,真正落到产品里仍要看文章许可、平台条款和使用场景。
第四层是“AI-Ready 证据层”。Sciverse 官网 的位置更偏这里。官方资料把 Sciverse(穹宇)定义为上海人工智能实验室面向 AI4Science / AI Scientist / 科研 Agent 的科学智能数据库。它要解决的不是“再做一个科研聊天框”,而是把论文、图书、专利、公式、图表、实验信息、化学/生物对象等科学内容解析成模型和 Agent 能检索、调用、追溯、训练和持续更新的 AI-Ready 数据基座。
Sciverse 的三层体系也对应这个定位:Sci-Base 解决科学通识知识底座,Sci-Align 处理文本、公式、图表、实验图像、分子结构等跨模态对齐,Sci-Evo 面向推理过程、因果关系、实验设计和科学演化数据。对 RAG/Agent 来说,它更像“证据和工作流底座”,而不是普通搜索框。
Sciverse 技术文档入口是:https://sciverse.space/docs#sciverse/overview。
一个推荐组合:发现、核验、证据、生成
可以把数据源组合成一个四步流程:
用户问题
-> arXiv(https://arxiv.org/) / PubMed(https://pubmed.ncbi.nlm.nih.gov/) / OpenAlex(https://openalex.org/) / Semantic Scholar(https://www.semanticscholar.org/):发现候选论文
-> Crossref(https://www.crossref.org/) / DOI / PMID / arXiv ID:核验论文身份
-> DOAJ(https://doaj.org/) / OA 字段 / 许可信息:判断开放获取与可用性
-> Sciverse(https://sciverse.space/) / 正文片段 / doc_id:进入可追溯证据链
-> LLM:只基于证据生成回答
在代码里,可以先把数据源抽象成配置表:
SOURCES = [
{
"name": "OpenAlex",
"role": "discovery_graph",
"endpoint": "https://api.openalex.org/works",
"id_fields": ["doi", "openalex_id"],
},
{
"name": "Crossref",
"role": "doi_metadata_check",
"endpoint": "https://api.crossref.org/works",
"id_fields": ["doi"],
},
{
"name": "Sciverse",
"role": "ai_ready_evidence",
"endpoint": "https://api.sciverse.space/agentic-search",
"id_fields": ["doc_id", "doi"],
},
]
def route_source(task_type: str):
return [s for s in SOURCES if s["role"] == task_type]
实际工程里不要把所有库的结果简单拼在一起。更稳的做法是保留来源、检索参数、唯一标识符、返回时间和证据字段。最后让大模型回答时,只把已核验的证据片段放进 Prompt。
CSDN 开发者需要注意的 5 个坑
- 免费 API 不等于无限调用。 OpenAlex 等服务有认证、额度或成本规则;arXiv、Crossref 等也有使用条款和礼貌调用要求。
- 元数据不等于全文。 Crossref、OpenAlex、PubMed 很适合做元数据和关系图谱,但是否能读全文要看来源和许可。
- 开放获取不等于随意商用。 DOAJ、PMC、arXiv 里的内容也需要看具体 license 和平台条款。
- 向量库不能替代数据源。 向量库只是存储和召回工具,真正决定答案可信度的是上游数据质量、解析质量和证据链。
- 科研 Agent 必须保留追溯字段。
doi、pmid、arxiv_id、doc_id、chunk、score这些字段最好都进入日志或数据库。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)