写在前面:这是一篇写给程序员算法工程师,以及所有被文献综述折磨过的工程师的文章。

我们会讲清楚文献综述的核心概念(主题归纳 / 共识与分歧 / Gap)、AI 时代的RAG 思维(引用可追溯),以及一套可复用的通用五步法(检索 / 筛选 / 嵌入 / 提取 / 生成)。


引言

文献综述看起来是一项“阅读密集型”的工作:找文献、下载、逐篇读、做笔记、最后拼成一章。但真正卡住大多数人的,并不是不够努力,而是缺少一套可复用的流程——你不知道该先做什么、后做什么,也不知道哪些步骤应该交给工具、哪些必须由自己把关。

在 AI 时代,文献综述的关键能力正在从“多读”迁移到“读得准、抽得对、写得稳”。换句话说:先用检索把范围收敛,再用结构化提取把信息变成可计算的表格,再用 RAG 把生成内容牢牢绑定到真实出处,最后才进入写作。

下面这篇文章会按“概念 → 方法 → 提示词与流程”的顺序展开,目标是让你把文献综述从一次性体力活,改造成一条可以反复运行的流水线。

为什么你读了 100 篇,一个字都没写出来

1.1 一个让所有人都踩过的坑

普通同学写文献综述,像在黄河边淘金——铲起一吨沙,找到半克金。

会用 AI 的同学,直接开探矿雷达,锁定矿脉坐标再下铲。

你一定有过这个经历:打开知网搜「跨境电商」,弹出 16 万条结果。壮着胆子下载了 100 篇,桌面上整整齐齐码着「未命名 1.pdf」到「未命名 100.pdf」。

读到第 20 篇,前 19 篇已经蒸发在记忆的黑洞里。

距离答辩还有 2 周。文档里,一个字都没有。

这不是你的问题。 文献综述难,难在四个「不知道」:

📥 检索不知道:关键词怎么组合?0 条 or 几万条,二选一
📂 管理不知道:PDF 散落硬盘、浏览器书签、微信收藏夹三地分居
🧠 理解不知道:100 篇文献,看不出哪些是共识、哪些是分歧、哪些是空白
✍️ 写作不知道:写出来像读后感,不像学术综述

架构师箴言:四个「不知道」,只要搞定检索结构化提取,后两个自动解决。本课就是给你这两把铲子。

1.2 答辩老师的底牌(你必须知道)

文献综述占毕业论文 20%—30% 篇幅,是答辩老师最先翻、看得最细的部分。

老师不问你读了几篇。老师只问三件事:

  1. 你是按主题归纳,还是按时间流水账?
  2. 你有没有指出共识与分歧
  3. 你有没有找到研究空白 Gap

三个问题答不上来 → 老师秒判:你没读懂,你只是读了

1.3 AI 时代改变了什么

2023 年之后,文献综述这件事被三把钥匙彻底撬开了:

  1. 国产大模型学术中文质量过关:DeepSeek-V3、Qwen3、GLM-4.6、Kimi K2,写学术中文已经超过大多数人工写作
  2. RAG 技术普及:AI 不再靠「印象」编造,每句话都能追溯到原文 PDF 第几页第几段
  3. 国产工具链闭环:知网 + OpenAlex + Zotero + 天玑智能体,不出国门,不花一分

不会用的,依然在桌面堆「未命名 1.pdf」。

这门课教你怎么用对,并且不踩坑。


三个概念:搞懂这三个,剩下的都是工程问题

2.1 概念 ① 什么是真正的文献综述

文献综述不是「文献的综合」,是「用文献给自己的研究问题作证」。

两者差距,相当于「法庭陈词」和「流水日记」的差距。

文献堆砌(老师一眼看穿):

张三(2018)研究了 A,发现 X。
李四(2019)研究了 B,发现 Y。
王五(2020)研究了 C,发现 Z。
……

真正的综述(按主题归纳 + 比较批判):

关于「阿语本土化对购买意愿的影响」,已有研究形成两种观点:
以 Hofstede(2001)为代表的文化维度学派认为,宗教与不确定性规避
是核心驱动力 [Hofstede 2001; Hassan 2022];
而 Cyr(2008)等 HCI 学派则强调界面信任中介的作用 [Cyr 2008; Pavlou 2003]。
然而上述研究均以英语/中文样本为主,
阿语消费者层面的微观证据仍然有限  ← 这就是 Gap

综述的三核心:

相同观点合并
跨论文共写一段

呈现共识与分歧
指出论证强弱

现有研究未覆盖之处
引出本研究意义

引文是证人,你才是律师。

2.2 概念 ② RAG · 让 AI 从「印象派画家」变成「法庭速记员」

没有 RAG 的 AI,像一个过目不忘但爱瞎编的实习生:

你问他某篇论文的结论,他自信满满报了一串,作者名对、期刊名对、文章根本不存在

有了 RAG,他变成了带着原文笔记的助理:每句话都能翻回原文第几页核对。

没有 RAG 时 AI 在干什么:

你让 DeepSeek 「写 300 字关于 X 的综述,带参考文献」,它会:

  • ✅ 作者名是真的(常见学者)
  • ✅ 期刊名是真的(顶级期刊)
  • ❌ 标题是 AI 拼凑的
  • ❌ DOI 号是假的
  • 这篇文章根本不存在

知网 AIGC 检测、答辩老师、期刊编辑,30 秒识别。

直接粘 AI 答案 = 论文打回 + 学术不端记录

我带过新人最常踩的坑,就是这个。别问我怎么知道的。

RAG 的数学本质(不用背,理解即可):

传统 AI 生成:

P(answer∣question)=LLM(question) P(answer \mid question) = \text{LLM}(question) P(answerquestion)=LLM(question)

加了 RAG 之后:

P(answer∣question,context)=LLM(question, Retrieve(question,D)⏟从你的真实 PDF 库中检索) P(answer \mid question, context) = \text{LLM}\left(question,\ \underbrace{\text{Retrieve}(question, \mathcal{D})}_{\text{从你的真实 PDF 库中检索}}\right) P(answerquestion,context)=LLM question, 从你的真实 PDF 库中检索 Retrieve(question,D)

其中检索函数用的是余弦相似度

sim(q,d)=q⃗⋅d⃗∥q⃗∥⋅∥d⃗∥∈[−1,1] \text{sim}(q, d) = \frac{\vec{q} \cdot \vec{d}}{\|\vec{q}\| \cdot \|\vec{d}\|} \in [-1, 1] sim(q,d)=q d q d [1,1]

q⃗\vec{q}q 是你的问题的向量表示,vecdvec{d}vecd 是文献段落的向量表示。相似度越接近 1,说明这段文字和你的问题越相关。bge-m3 做的就是这件事。

RAG 流程图:

你的问题
阿语本土化对购买意愿的影响

① 向量检索
从真实 PDF 库找相关段落
sim(q,d) ≥ 0.72

② 段落注入大模型
作为上下文参考

③ 大模型基于真实段落生成
每句话标注出处

✅ 引用可追溯
悬停查看原文 PDF 第 X 页

对比维度 ❌ 无 RAG 的 AI ✅ 有 RAG 的 AI
参考文献来源 凭印象编造 从你的真实 PDF 库检索
引用可信度 看起来真,实际假 每句话可追溯原文第 X 页
知网 AIGC 检测 必挂 引用真实,符合学术规范
使用门槛 零门槛(也零保障) 需要先建 PDF 库(本课教你)

两种 RAG 用法:

A · 手动 RAG(任何 AI 都能做):把 PDF 关键段落复制进对话框,让 AI 基于这段话生成。零技术门槛。

B · 自动 RAG:用 iScholar 天玑 / Kimi 长文本 / 智谱 GLM 文档上传,工具自动检索 + 标注出处。

2.3 概念 ③ 学术伦理红绿灯:别在这里翻车

AI 辅助检索

信息提取

逻辑检查

英译中

同义改写

AI 生成的草稿

→ 逐句用自己的话重写

→ 保留引用编号即可

AI 答案直接粘贴

引用没读过的论文

编造参考文献

不标注 AI 介入


通用五步法:不依赖任何平台,永远跑得通

DeepSeek 网页版、Kimi、通义千问、智谱清言,任何工具都能跑通。

每一步都给你一个可直接复制的提示词,带走就能用。

3.1 工具策略 · 国产 / 开源优先

环节 推荐工具 备注
中文文献检索 知网 CNKI · 万方 · 百度学术 校园网免费
英文文献检索 OpenAlex(开源 · 完全免费) 覆盖 2.5 亿篇文献
文献管理 Zotero(MIT 开源 · 永久免费) 替代付费 EndNote
大模型对话 DeepSeek-V3 · Kimi K2 · Qwen3 · GLM-4.6 网页免费,登录即用
嵌入模型(RAG 底层) bge-m3(北京智源 · MIT 开源) 中英多语种最稳
一站式智能体 iScholar 天玑 把上述工具串成一个工作台

今天不用:ChatGPT · Claude · Elicit 付费版 · NotebookLM · Connected Papers 付费版

理由:收费 / 需要科学上网 / 数据安全风险。国产工具已经够用,为什么要绕远路?

3.2 五步法总览

🔍 ① 检索
关键词金字塔

🎯 ② 筛选
三条机械规则

🧬 ③ 嵌入
导入 Zotero/RAG 库

📋 ④ 提取
结构化信息抽取

✍️ ⑤ 生成
三段式综述

步骤 谁来做 耗时 提示词代号
① 检索 你 + AI 协作 10 分钟 P1 关键词金字塔
② 筛选 AI 自动 + 你把关 10 分钟 P2 文献排序
③ 嵌入 工具自动 5 分钟
④ 提取(重点 你重点把关 30 分钟 P3 信息提取表
⑤ 生成(重点 你重点把关 30 分钟 P4 + P5 综述写作

Python 伪代码版五步法(给喜欢看代码的同学):

def literature_review_pipeline(topic: str) -> str:
    """
    通用五步法伪代码
    任何工具都能实现这套逻辑,只是自动化程度不同
    """
    # ① 检索:关键词金字塔 → 检索式 → 候选文献
    keywords = build_keyword_pyramid(topic)          # P1 提示词
    candidates = search_databases(keywords,
                    sources=["CNKI", "WanFang", "OpenAlex"],
                    year_range=(2018, 2026))         # 通常 80-150 篇

    # ② 筛选:三条规则机械过滤
    core_papers = filter_papers(
        candidates,
        rules=[
            lambda p: p.has_core_keyword,           # 核心词命中
            lambda p: p.citation_count >= 10,       # 引用量 ≥ 10
            lambda p: cosine_sim(p, topic) >= 0.70  # 语义相似度 ≥ 0.7
        ]
    )  # 通常剩 15-20 篇

    # ③ 嵌入:向量化存入 RAG 库
    rag_db = embed_to_vector_store(
        core_papers,
        model="bge-m3"  # 中英多语种最稳
    )
    zotero.sync(core_papers)  # 同时存入 Zotero 永久库

    # ④ 提取:结构化信息抽取(最关键!必须人工把关)
    extraction_table = []
    for paper in core_papers:
        info = extract_pico(paper,           # P3 提示词
            fields=["research_question", "theory",
                    "method", "sample",
                    "key_findings", "limitations"])
        extraction_table.append(info)
    # ⚠️ 必须人工核查!AI 可能提取错误

    # ⑤ 生成:主题归纳 → 三段式综述
    themes = cluster_by_theme(extraction_table)  # P4 提示词
    draft = generate_review(
        themes, structure="三段式",              # P5 提示词
        required=["共识句", "分歧句", "空白句", "引出句"]
    )

    return rewrite_to_reduce_ai_trace(draft)     # P6 提示词:降 AIGC 痕迹

3.3 第一步 · 检索 🔍 · 关键词金字塔

我带过新人,最容易翻车的地方就是这一步。

不是他们不努力,是他们把「检索」当「搜索」用了。

搜索是找你知道存在的东西,检索是找你不知道存在的东西。

反例:只输入「跨境电商」+「阿拉伯」→ 知网拉回 4827 篇,根本读不完。

这不叫检索,这叫撒网捞鱼,然后被鱼淹死。

解法:三层金字塔

Layer 3 · 限定词
年份 / 地域 / 方法
例:2018-2026 / 阿拉伯国家 / 实证研究

Layer 2 · 扩展词
同义词 + 中英对应
例:cross-border e-commerce / Arabic localization

Layer 1 · 核心词
研究骨架,最不能换
例:跨境电商 / 阿语本土化 / 购买意愿

检索覆盖率公式(理解用,不用手算):

Coverage=1−∏i=1n(1−ri) \text{Coverage} = 1 - \prod_{i=1}^{n}(1 - r_i) Coverage=1i=1n(1ri)

其中 rir_iri 是第 iii 个关键词变体的召回率。三层金字塔的本质,就是用同义词和限定词组合最大化 Coverage,同时把噪声压到最低。光用 Layer 1 的覆盖率大约 30%,加上 Layer 2 可到 70%,再加 Layer 3 限定后,精准率从 5% 提升到 60% 以上。


🛠️ 提示词 P1 · 关键词金字塔自动生成

直接复制下面这段到 DeepSeek / Kimi / 通义千问 网页:

你是一名经验丰富的学术检索专家。请帮我把下面这个研究选题,
拆解为「关键词金字塔」三层结构,输出 markdown 表格。

【我的选题】:
在这里替换成你的题目,例如:在线学习背景下大学生学业拖延的影响因素研究

输出要求:
1. Layer 1 核心词:列出 2-3 个最不能替换的名词(不超过 5 个汉字 / 单词)
2. Layer 2 扩展词:每个核心词配 2 个中文同义词 + 2 个英文对应词
3. Layer 3 限定词:
   - 年份范围(默认近 5-8 年)
   - 地域 / 人群
   - 研究方法(实证 / 理论 / 综述 / 案例)
4. 最后给出 3 条可直接粘到知网的检索式(用 SU=、YE= 语法)
   和 3 条可直接粘到 OpenAlex 的英文检索式

推荐检索式范例:

-- 知网
SU=(跨境电商+阿语本土化) AND YE=2018-2026 AND FT=实证

-- 万方
主题:跨境电商 * 主题:阿拉伯 年份:2018-2026

-- OpenAlex
https://api.openalex.org/works?search=arabic+localization+e-commerce&filter=publication_year:2018-2026

3.4 第二步 · 筛选 🎯 · 三条机械规则

检索完通常 80-150 篇候选,快速筛到 15-20 篇核心。

三条规则,机械执行,不需要判断:

  1. 标题 / 摘要必须包含核心词(不是相关词,是核心词本身)
  2. 引用量 ≥ 10(实证类)或是综述类(综述无视引用量)
  3. 与你选题语义相似度 ≥ 0.7(让 AI 打分)

筛选评分公式:

Stotal=w1⋅Srelevance+w2⋅Smethod+w3⋅Srecency S_{total} = w_1 \cdot S_{relevance} + w_2 \cdot S_{method} + w_3 \cdot S_{recency} Stotal=w1Srelevance+w2Smethod+w3Srecency

wherew1=0.4,  w2=0.3,  w3=0.3,Si∈[0,10] \text{where}\quad w_1=0.4,\; w_2=0.3,\; w_3=0.3,\quad S_i \in [0,10] wherew1=0.4,w2=0.3,w3=0.3,Si[0,10]

总分 ≥7\geq 77 推荐核心,5text−65text{-}65text6 备选,<5< 5<5 剔除。这套公式直接写进了下面的提示词。


🛠️ 提示词 P2 · 让 AI 给文献排序

你是一名严谨的文献筛选专家。
下面是我为选题「你的选题」检索到的 30 篇文献清单(标题 + 摘要)。

【任务】
请基于以下三条标准为每篇打分(0-10 分),并按总分降序输出 markdown 表格:
1. 主题相关性(0-4 分):标题和摘要是否直击核心词
2. 方法质量(0-3 分):实证研究 / 系统综述 / 大样本 加分
3. 时效性(0-3 分):近 3 年 +3,近 5 年 +2,更早 +1

【输出列】
排名 | 作者(年份) | 总分 | 推荐 / 备选 / 剔除 | 一句话推荐理由

【底线】
- 总分 ≥ 7 → 推荐核心
- 5-6 → 备选
- < 5 → 剔除(请简短说明剔除原因)

【文献清单】
把检索回来的 30 篇粘到这里,每篇一行:标题 | 作者(年份) | 摘要

架构师警示:AI 不是神,最终入库前自己花 30 秒扫一遍摘要。你研究阿语电商,AI 推来一篇俄语电商的,必须手动删。机器帮你筛,但最后的脑子还得是你的。

3.5 第三步 · 嵌入 🧬 · 入库

Zotero 是科研圈的底层基础设施,像水和电一样。

不装 Zotero 就写论文,相当于在沙滩上盖楼——看起来很努力,风一来全没了。

Zotero 安装三步:

  1. 访问 zotero.org → 下载 Zotero 7
  2. 安装浏览器插件 Zotero Connector
  3. 首选项 → 引用 → 获取更多样式,搜索 GB/T 7714
功能 具体作用 替代了什么
① 一键抓取题录 浏览器插件,知网/万方/OpenAlex 任意页面一键入库 手动复制粘贴到 Excel
② 本地 PDF 库 PDF 存本地 ~/Zotero/storage/,断网也能读 桌面「未命名 1/2/3.pdf」
③ PDF 阅读 + 标注 内置高亮、便签、划词翻译,标注自动归档 Adobe/WPS 来回切换
④ 引文一键插入 ⭐ Word/WPS 插件,点击即插入,文末自动生成参考文献 手敲参考文献(省一整天)
⑤ 9000+ 引用样式 GB/T 7714 / APA / MLA / IEEE,一键切换 换期刊重打格式

为什么 Zotero 是底层:MIT 协议开源,数据永远在你本地。10 年后你换工作、换设备、换学校,文献库还在。不会被任何厂商锁死。 这句话值得单独记下来。

3.6 第四步 · 信息提取 📋(最关键,你要亲自把关)

这一步是综述质量的分水岭。

做得好:后面写综述像搭积木,有数据、有来源、有逻辑。

做得差:后面写综述像在黑暗里找钥匙,什么都模模糊糊。

每篇论文抽取 6-8 个字段:

作者(年份) 研究问题 理论框架 方法 样本 核心发现 局限 / Gap
Hassan (2022) MENA 电商采纳 UTAUT2 PLS-SEM 432 沙特/埃及 语言习惯影响最大 未涵盖海合会 6 国
Yang et al. (2023) BRI 跨境电商本土化 系统综述 62 篇 本土化策略 8 类 阿语样本 <8%

🛠️ 提示词 P3 · 单篇论文结构化提取(学术 PICO 模板)

// 复制这段到任何大模型,然后粘贴 PDF 全文
{
  "prompt": "你是一名严谨的学术研究助理。我将给你一篇论文的内容,请按下面的「学术综述-PICO 提取 v3」模板抽取信息,输出 JSON。",
  "template": {
    "author_year": "Hassan (2022)",
    "title": "...",
    "research_question": "用一句话概括研究问题(不超过 30 字)",
    "theory": "使用的理论框架(如 TAM / UTAUT / Hofstede)",
    "variables": {
      "IV": "自变量",
      "DV": "因变量",
      "mediator": "中介变量(如有)",
      "moderator": "调节变量(如有)"
    },
    "method": "研究方法(实证 / 实验 / 案例 / 综述)",
    "sample": "样本规模和来源",
    "key_findings": ["发现 1", "发现 2", "发现 3"],
    "limitations": "作者自陈或你识别出的局限",
    "relevance_to_my_topic": "和我选题的关联,一句话"
  },
  "rules": [
    "不要编造任何论文中没有的内容",
    "找不到的字段填 '未提及'",
    "数字必须从原文摘出,不要估算"
  ]
}

3.7 第五步 · 生成综述 ✍️

🛠️ 提示词 P4 · 主题归纳

你是一名严谨的文献综述写作助理。
下面是我对 18 篇核心文献做的信息抽取表(JSON 列表)。

【任务】
1. 从研究问题和理论框架两个角度,把 18 篇聚类成 3-5 个主题
2. 每个主题输出:
   - 主题名(不超过 12 字)
   - 主题下文献清单 [作者(年份)]
   - 共识:多数学者一致认为……(带 [作者 年份] 引用)
   - 分歧:然而关于……尚存争议(至少两派对比)
   - 这个主题留下的研究空白(Gap)
3. 最后综合所有主题的 Gap,指出本研究的核心 Gap

【输出格式】markdown 列表,每个主题一个二级标题。

【信息抽取表】
粘贴第四步生成的 JSON 列表

🛠️ 提示词 P5 · 三段式综述生成

你是一名严谨的学术写作助理,请用中文写一篇 500 字的文献综述初稿。

【选题】你的选题
【已识别的主题与 Gap】粘贴 P4 的输出
【已纳入的文献】粘贴第四步信息表,至少 12 篇

【结构要求 · 三段式】
第一段(约 150 字 · 开头):
- 概述研究背景和总体趋势
- 至少引用 3-4 篇奠基性文献
- 句式:「近年来,伴随……,X 领域研究持续升温……」

第二段(约 250 字 · 分主题归纳):
- 按 P4 给出的 3-5 个主题分段,每个主题 50-80 字
- 必须包含共识句:「多数学者一致认为……[A 2020; B 2022]」
- 必须包含分歧句:「然而关于……尚存争议,A 强调 X,而 B 认为 Y」

第三段(约 100 字 · 总结 + Gap + 引出本研究):
- 必须包含空白句:「尽管已有研究关注了……,但对于……的探讨仍然有限」
- 必须包含引出句:「鉴于此,本研究拟……」

【严格要求】
- 引用格式:[作者 年份],多人用 [A et al. 2022]
- 不得编造文献
- 不要写元话语("本文综述了 X 篇文献" 这种废话)

🛠️ 提示词 P6 · 降 AIGC 痕迹(必做)

AI 草稿不能直接粘进论文!知网 AIGC 检测会标红。

这步是护城河,跳过了后面全白做。

请把下面这段 AI 生成的综述初稿,逐句改写成更学术、更安全的中文:

1. 同义词替换 + 语序重排(每句至少改 30%)
2. 把过于绝对的副词替换为更谨慎的措辞
   (「显著地」→「在一定程度上」,「无疑」→「现有证据表明」)
3. 把口语化连接词改为学术词
   (「打架」→「尚存争议」,「互相矛盾」→「存在分歧」)
4. 保留所有 [作者 年份] 引用编号,位置可微调
5. 不要新增任何 AI 自己想出来的观点,只改写措辞

【原文】
粘贴 P5 生成的初稿

三段式模板 + 四个万能句型

4.1 三段式结构

第一段 · 开头(20%)
背景 + 总体趋势
至少引用 3-4 篇奠基文献

第二段 · 主体(60%)
分主题归纳
共识 + 分歧 + 引用

第三段 · 总结(20%)
指出 Gap
引出本研究

4.2 四个万能句型

① 共识句

「多数学者一致认为……」

「现有研究普遍表明……」

「学界已就……达成基本共识」

② 分歧句

「然而关于……尚存争议」

「A 强调 X,而 B 则认为 Y」

「上述结论在……情境下存在分歧」

③ 空白句

「尽管已有研究关注了……,但对于……的探讨仍然有限」

「现有研究多聚焦宏观层面,缺少……微观证据」

④ 引出句

「鉴于此,本研究拟……」

「为弥补上述不足,本文将……」

「在此背景下,本研究尝试……」

4.3 范文样板(注意看引用位置)

跨文化营销与电子商务的交叉研究在过去三十年中形成了较为成熟的理论与方法体系。Hofstede(2001)的文化维度理论与 Hall(1976)的高低语境理论一直被视为跨文化消费行为研究的双重支柱 [Hofstede 2001; Hall 1976]。

在网站文化定制层面,多数学者一致认为本土化程度与购买意愿正相关 [Singh & Pereira 2005; Cyr 2008]。然而关于核心驱动因素尚存争议:Hassan(2022)强调宗教合规元素影响最大 [Hassan 2022],而 Wang & Liu(2023)的实证则发现价格敏感度更具解释力 [Wang & Liu 2023]。

尽管已有研究关注了跨境电商本土化的宏观策略 [Yang et al. 2023],但对于阿语消费者层面微观机制的探讨仍然有限鉴于此,本研究拟以海合会六国阿语电商消费者为对象,构建本土化—信任—购买意愿的中介模型……


iScholar 天玑:把五步法装进一个工作台

5.1 通用法的真实痛点

通用五步法完全可以独立运行——但实操你会发现

  • 🔁 要在 5 个工具 之间反复切换(知网 / 万方 / DeepSeek / Kimi / Zotero)
  • 📋 提示词每次都要手动粘贴
  • 📦 信息提取表要手动整理到 Excel
  • 🔗 引用要手动核对回 PDF

工具切换的时间,比内容思考的时间还长。 这才是真正的效率杀手。

5.2 天玑:五步串成一个工作台

你输入
关键词金字塔

天玑后台并行

🔍 多源检索
知网+万方+OpenAlex

🎯 RAG 筛选
语义相似度+引用量

🧬 bge-m3 嵌入
同步到 Zotero

📋 PICO 提取
结构化信息表

✍️ DeepSeek-V3
三段式生成

产出
综述初稿
+ Zotero 永久库
+ 证据矩阵 CSV

5.3 实操 5 步

进入平台:访问 app.ischolar.ai → 左侧选「📚 文献智能体(天玑)」

输入关键词金字塔:按三层结构填入,通义千问自动建议英文同义词,一键采纳

选数据源:✅ 知网 ✅ 万方 ✅ OpenAlex → 点「开始检索」→ 几秒拉回约 120 篇

自动筛选 + 嵌入:天玑后台并行做三件事

  • 三条规则过滤:120 篇 → 18 篇
  • bge-m3 嵌入到 RAG 库
  • 一键同步到 Zotero 永久库

信息提取 + 综述生成

  • 「学术综述-PICO 提取 v3」→ 18 行结构化表格
  • 「主题归纳 v2」→ 4 个主题 + 共识/分歧/Gap
  • 「三段式综述 v4」→ 流式生成 + 自动引用编号
  • 鼠标悬停引用:弹出原文 PDF 第 X 页第 Y 段

5.4 通用法 vs iScholar 对比

维度 通用五步法(自己拼) iScholar 天玑(一键)
耗时 3-5 小时 30-45 分钟
工具切换 5+ 个 1 个
提示词 手动粘贴 模板化内置
引用追溯 手动核对 悬停查看原文 PDF
个人 RAG 库 需自建 自动累积,越用越懂你
底层方法 完全一样 完全一样

架构师箴言:iScholar 不是另一套方法,是把今天讲的五步法流程化。

你掌握了通用法,换任何工具都能跑;用了 iScholar,是把切换工具的时间还给思考。

工具会迭代,方法不会变。


🚨 三个新手必踩的坑

解法:金字塔三层必须填完,限定词缺一不可。缺了就是在大海里捞针。

解法:第一天就装 Zotero,分类标签先于阅读。文献管理是一次性投资,不装一辈子后悔。

解法:AI 提取后必须精读核心段,逐句改写降痕。AI 是副驾驶,你才是驾驶员。


📦 带走清单

  • P1 关键词金字塔提示词(Part 3.3)
  • P2 文献排序提示词(Part 3.4)
  • P3 PICO 信息提取提示词(Part 3.6)
  • P4 主题归纳提示词(Part 3.7)
  • P5 三段式综述生成提示词(Part 3.7)
  • P6 降 AIGC 痕迹提示词(Part 3.7)
  • 三段式写作模板 + 四个万能句型(Part 4)
  • Zotero 安装三步法(Part 3.5)
  • iScholar 五步操作(Part 5.3)

🗺️ 全课程知识图谱

Coverage公式

相似度 cos(q,d)≥0.7

支撑

人工把关

流程化封装

📚 AI 时代文献综述
核心能力模型

Part 1
为什么学

Part 2
三个核心概念

Part 3
通用五步法

Part 4
三段式写作

Part 5
iScholar 天玑

痛点:16万条结果
一字未写

答辩老师看三件事
主题/共识/Gap

AI时代:2周→2小时

综述≠罗列
=按主题归纳+比较批判

RAG
P(a|q,ctx) 引用可追溯

学术伦理红绿灯
绿/黄/红

① 检索
关键词金字塔 P1

② 筛选
三条规则 P2

③ 嵌入
Zotero+bge-m3

④ 提取
PICO模板 P3

⑤ 生成
P4+P5+P6

第一段·背景20%

第二段·归纳60%

第三段·Gap+引出20%

四个万能句型

一键检索
知网+万方+OpenAlex

自动筛选嵌入
RAG库+Zotero

流式生成
引用悬停可追溯


最后一句话,记住带走:

AI 是你的研究助理,你才是研究者。

工具会迭代,方法不会变。

掌握五步法 + RAG 思维,未来 10 年的学术写作你都吃得开。

你踩过文献综述最大的坑是什么?欢迎在评论里告诉我——下一批新人,也许就靠你的踩坑记录少走弯路。

💬 互动话题

如果只让你在「检索 / 筛选 / 嵌入 / 提取 / 生成」这五步里先把一项做到及格,你会选哪一步?

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐