别再直接给ai发PDF了！本人用过效果最好的PDF 转 Markdown 工具: Marker，太适合把科研论文喂给大模型了，支持提取图片和本地部署，准确率高到离谱

1082天

12人浏览 · 2026-06-04 20:03:43

1082天 · 2026-06-04 20:03:43 发布

最近看了别人的博客才知道直接给大模型发科研论文的Latex源码或者md格式解析效果会更好。

然后有的论文找不到公开的latex源码，就在GitHub上找到个这个开源项目：Marker（datalab-to/marker: Convert PDF to markdown），可以把PDF转成高质量的Markdown格式，同时能保留论文中的图片（本人觉得这点超赞，对比了几个网站都觉得没有这个效果好），也支持本地部署。

适用场景

从网页下载的论文想转成 Markdown 做笔记
技术文档是 PDF 格式，想整理成博客
参考文献里的表格和公式复制出来就乱码
网上那些转换工具要么收费，要么要上传文件，不适合隐私数据

🎯 什么是 Marker？

Marker 是一个本地运行的 PDF 转 Markdown 工具，支持多种输出格式（Markdown、HTML、JSON、Chunks）。

它的核心特点：
🔒 本地运行：所有处理都在本地，不用上传文件
🌍 多语言支持：支持全球几乎所有语言 OCR
📐 精准识别：表格、公式、代码块完美保留
🖼️ 图片提取：自动提取文中图片

使用教程

1. 直接安装Python第三方库

tips：需要Python 3.10以上和 PyTorch

pip install marker-pdf

如果除PDF还需要处理更多的格式（PPTX、DOCX等），安装这个完整版：

pip install marker-pdf[full]

💻 快速上手

方法一：命令行转换单个文件

marker_single /path/to/your/file.pdf

方法二：批量转换文件夹

marker /path/to/pdf/folder

方法三：图形界面（推荐新手）

pip install streamlit streamlit-ace
marker_gui

⚠️(一定要勾选debug，才会保存输出的md文件和图片到debug_data/目录下)

🛠️ 常用参数详解

  # 指定输出目录
  marker_single file.pdf --output_dir ./output

  # 指定页码范围
  marker_single file.pdf --page_range "0,5-10,20"

  # 强制 OCR（适合文字提取混乱的 PDF）
  marker_single file.pdf --force_ocr

  # 使用 LLM 提升准确率
  marker_single file.pdf --use_llm

  # 输出格式选择
  marker_single file.pdf --output_format markdown  # 可选：markdown/json/html/chunks

  # 启用调试模式（保存中间结果）
  marker_single file.pdf --debug

2. 从GitHub上下载源码，然后用Python运行

下载项目源码：

git clone https://github.com/datalab-to/marker

转换单个文件：

python convert_single.py /Users/.../pdf/"XXX.pdf" --output_dir /Users/.../output

批量转换文件夹：

python convert.py /path/to/pdf/folder

🔥 实测案例

我用一篇 arXiv 论文（9 页，含公式和表格）：

转换前：
- 复杂的学术论文格式
- 包含多栏布局
- 有内联公式和表格

转换后：
- Markdown 格式整洁
- 表格完整保留
- 公式用 LaTeX 格式 $...$ 包裹
- 图片自动提取到单独文件夹

图片、表格、公式都能完美提取和转换：

💡 进阶用法

使用 LLM 提升质量

marker_single file.pdf --use_llm

需要配置 Gemini API 密钥或 Ollama 本地模型。

🔗 相关资源

GitHub: https://github.com/VikParuchuri/marker
文档：https://documentation.datalab.to

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

领域消除评估技能domain-elimination-assessor

《领域消除评估方法》摘要该技能提供了一套系统评估领域存在必要性的方法论，核心思想是"消除比重构更彻底"。通过五步评估法（边界识别、存在理由分析、消除可行性评估、独立必要性判断、决策输出），帮助判断业务领域、组织部门等技术模块是否应该独立存在。评估标准包括边界模糊度、功能离散度等指标，最终给出消除/重构/保留的明确建议。配套提供完整的任务体系、评估模板和验证清单，适用于组织结构优化、业务流程重组等