Docling：文档解析这件事，它做得够深

protgb815173

233人浏览 · 2026-06-08 15:22:51

protgb815173 · 2026-06-08 15:22:51 发布

文章目录

Docling：文档解析这件事，它做得够深

Docling：文档解析这件事，它做得够深

docling 在 GitHub 上已经拿到 6 万多 Star 了。

IBM 研究团队发起的这个项目，专门做一件事：把不同格式的文档转换成机器可读的结构化数据。PDF、Word、PPT、Excel、HTML、音频、图片，它都能处理。处理的成果不只是纯文本，格式和语义信息也会被保留。

1、这玩意儿是干嘛的

核心定位是文档解析器。你给一份 PDF，它不会只把文字抠出来，页面布局、阅读顺序、表格结构、数学公式、图片分类，甚至图表里的数据，它都会识别。

它内部的 DoclingDocument 格式是一个统一的中间表示层。各种输入格式先转成这个内部结构，再按需输出成 Markdown、HTML、JSON 或者 DocTags。新增一种输出格式不需要重写解析逻辑。

正文顶部截图

2、支持哪些格式

输入端覆盖了工作中能碰到的绝大多数文档格式。PDF、DOCX、PPTX、XLSX、HTML、LaTeX、纯文本、EML 和 MSG 邮件格式、PNG/JPEG/TIFF 图片，以及 WAV、MP3、WebVTT 音频文件。

输出端同样有多种选择。Markdown、HTML、WebVTT、DocTags 和 JSON 都能选。对特定领域文档也有专门处理，比如 USPTO 专利、JATS 学术文章、XBRL 财务报告。

README区域截图

3、实际怎么用

安装一条命令：

pip install docling

命令行直接转文档：

docling https://arxiv.org/pdf/2206.01062

Python 里调用：

from docling.document_converter import DocumentConverter

converter = DocumentConverter()
result = converter.convert("document.pdf")
print(result.document.export_to_markdown())

高级用法包括切换解析管线，比如用视觉语言模型替代默认管线：

docling --pipeline vlm --vlm-model granite_docling https://arxiv.org/pdf/2206.01062

4、几个值得关注的特性

本地执行。所有解析都在本地完成，不需要联网，敏感文档不会离开你的机器。这对数据安全有要求的企业环境比较实用。

OCR 和视觉理解。扫描版 PDF 和图片里的文字能识别出来。结合 GraniteDocling 等视觉语言模型，还能做更细致的分析，比如识别图表类型、提取图表数据、给图片生成描述。

生态集成。LangChain、LlamaIndex、Crew AI、Haystack 都有现成的对接方案。项目还提供了 MCP server，Agent 可以直接调用文档解析能力。

图表理解是新近加入的能力。柱状图、饼图、折线图这些，它能把数据抽成表格，或者直接生成代码和文字描述。

5、适合谁用

需要批量处理企业文档、往向量数据库灌数据的开发者；做 RAG 系统、对文档结构有要求的人；以及希望 Agent 能自主读取和理解各种格式文件的场景。

对处理学术论文、财务报表、专利文件这类结构化要求高的文档，docling 的优势会比较明显。它的默认布局模型 Heron 在 PDF 解析速度上也有所提升，大批量处理时体验会更好。

求高的文档，docling 的优势会比较明显。它的默认布局模型 Heron 在 PDF 解析速度上也有所提升，大批量处理时体验会更好。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

G-Star 精选开源项目推荐｜第二十二期

AtomGit开源社区

CANN 开发者 Meetup · 杭州模型专场｜线下技术沙龙正式开启报名！

AtomGit开源社区

14.4 万奖金！昇腾 Model Agent 模型适配大赛正式起航（第二季）

AtomGit开源社区

所有评论(0)

查看更多评论

protgb815173

@protgb815173

已为社区贡献3条内容

Docling：文档解析这件事，它做得够深

protgb815173

文章目录

Docling：文档解析这件事，它做得够深

1、这玩意儿是干嘛的

2、支持哪些格式

3、实际怎么用

4、几个值得关注的特性

5、适合谁用

所有评论(0)

温馨提示：您尚未绑定手机号

protgb815173