最近看了别人的博客才知道 直接给大模型 发科研论文的Latex源码或者md格式解析效果会更好。

然后有的论文找不到公开的latex源码,就在GitHub上找到个这个开源项目:Marker(datalab-to/marker: Convert PDF to markdown),可以把PDF转成高质量的Markdown格式,同时能保留论文中的图片(本人觉得这点超赞,对比了几个网站都觉得没有这个效果好),也支持本地部署。

适用场景

  • 从网页下载的论文想转成 Markdown 做笔记
  • 技术文档是 PDF 格式,想整理成博客
  • 参考文献里的表格和公式复制出来就乱码
  • 网上那些转换工具要么收费,要么要上传文件,不适合隐私数据

🎯 什么是 Marker?

Marker 是一个本地运行的 PDF 转 Markdown 工具,支持多种输出格式(Markdown、HTML、JSON、Chunks)。

它的核心特点:
🔒 本地运行:所有处理都在本地,不用上传文件 
🌍 多语言支持:支持全球几乎所有语言 OCR      
📐 精准识别:表格、公式、代码块完美保留   
🖼️ 图片提取:自动提取文中图片  

使用教程

1. 直接安装Python第三方库

tips:需要Python 3.10以上 和 PyTorch

pip install marker-pdf

如果除PDF还需要处理更多的格式(PPTX、DOCX等),安装这个完整版:

pip install marker-pdf[full]

💻 快速上手

方法一:命令行转换单个文件

marker_single /path/to/your/file.pdf

方法二:批量转换文件夹

marker /path/to/pdf/folder

方法三:图形界面(推荐新手)

pip install streamlit streamlit-ace
marker_gui

⚠️(一定要勾选debug,才会保存输出的md文件和图片到debug_data/目录下)

🛠️ 常用参数详解

  # 指定输出目录
  marker_single file.pdf --output_dir ./output

  # 指定页码范围
  marker_single file.pdf --page_range "0,5-10,20"

  # 强制 OCR(适合文字提取混乱的 PDF)
  marker_single file.pdf --force_ocr

  # 使用 LLM 提升准确率
  marker_single file.pdf --use_llm

  # 输出格式选择
  marker_single file.pdf --output_format markdown  # 可选:markdown/json/html/chunks

  # 启用调试模式(保存中间结果)
  marker_single file.pdf --debug

2. 从GitHub上下载源码,然后用Python运行

下载项目源码:

git clone https://github.com/datalab-to/marker

转换单个文件:

python convert_single.py /Users/.../pdf/"XXX.pdf" --output_dir /Users/.../output

 批量转换文件夹:

python convert.py /path/to/pdf/folder

🔥 实测案例

我用一篇 arXiv 论文(9 页,含公式和表格):

转换前:
  - 复杂的学术论文格式
  - 包含多栏布局
  - 有内联公式和表格

转换后:
  - Markdown 格式整洁
  - 表格完整保留
  - 公式用 LaTeX 格式 $...$ 包裹
  - 图片自动提取到单独文件夹

图片、表格、公式都能完美提取和转换:

💡 进阶用法

  使用 LLM 提升质量

marker_single file.pdf --use_llm

  需要配置 Gemini API 密钥或 Ollama 本地模型。

🔗 相关资源

GitHub: https://github.com/VikParuchuri/marker
文档:https://documentation.datalab.to

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐