Docling:文档解析这件事,它做得够深
Docling:文档解析这件事,它做得够深
docling 在 GitHub 上已经拿到 6 万多 Star 了。
IBM 研究团队发起的这个项目,专门做一件事:把不同格式的文档转换成机器可读的结构化数据。PDF、Word、PPT、Excel、HTML、音频、图片,它都能处理。处理的成果不只是纯文本,格式和语义信息也会被保留。
1、这玩意儿是干嘛的
核心定位是文档解析器。你给一份 PDF,它不会只把文字抠出来,页面布局、阅读顺序、表格结构、数学公式、图片分类,甚至图表里的数据,它都会识别。
它内部的 DoclingDocument 格式是一个统一的中间表示层。各种输入格式先转成这个内部结构,再按需输出成 Markdown、HTML、JSON 或者 DocTags。新增一种输出格式不需要重写解析逻辑。

2、支持哪些格式
输入端覆盖了工作中能碰到的绝大多数文档格式。PDF、DOCX、PPTX、XLSX、HTML、LaTeX、纯文本、EML 和 MSG 邮件格式、PNG/JPEG/TIFF 图片,以及 WAV、MP3、WebVTT 音频文件。
输出端同样有多种选择。Markdown、HTML、WebVTT、DocTags 和 JSON 都能选。对特定领域文档也有专门处理,比如 USPTO 专利、JATS 学术文章、XBRL 财务报告。

3、实际怎么用
安装一条命令:
pip install docling
命令行直接转文档:
docling https://arxiv.org/pdf/2206.01062
Python 里调用:
from docling.document_converter import DocumentConverter
converter = DocumentConverter()
result = converter.convert("document.pdf")
print(result.document.export_to_markdown())
高级用法包括切换解析管线,比如用视觉语言模型替代默认管线:
docling --pipeline vlm --vlm-model granite_docling https://arxiv.org/pdf/2206.01062
4、几个值得关注的特性
本地执行。所有解析都在本地完成,不需要联网,敏感文档不会离开你的机器。这对数据安全有要求的企业环境比较实用。
OCR 和视觉理解。扫描版 PDF 和图片里的文字能识别出来。结合 GraniteDocling 等视觉语言模型,还能做更细致的分析,比如识别图表类型、提取图表数据、给图片生成描述。
生态集成。LangChain、LlamaIndex、Crew AI、Haystack 都有现成的对接方案。项目还提供了 MCP server,Agent 可以直接调用文档解析能力。
图表理解是新近加入的能力。柱状图、饼图、折线图这些,它能把数据抽成表格,或者直接生成代码和文字描述。
5、适合谁用
需要批量处理企业文档、往向量数据库灌数据的开发者;做 RAG 系统、对文档结构有要求的人;以及希望 Agent 能自主读取和理解各种格式文件的场景。
对处理学术论文、财务报表、专利文件这类结构化要求高的文档,docling 的优势会比较明显。它的默认布局模型 Heron 在 PDF 解析速度上也有所提升,大批量处理时体验会更好。
求高的文档,docling 的优势会比较明显。它的默认布局模型 Heron 在 PDF 解析速度上也有所提升,大批量处理时体验会更好。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)