MinerU2.5 Pro技术解析:1.2B参数SOTA PDF解析模型,完整部署教程(Transformers/vLLM/SGLang/Docker)
·
一、简介
MinerU2.5 Pro(opendatalab/MinerU2.5-Pro-2604-1.2B)是 OpenDataLab 发布的最新文档解析模型,专注于 PDF → Markdown 的高精度转换任务。
- 📄 论文:arxiv:2604.04771
该模型基于 Qwen2-VL 1.2B 架构,通过大规模高质量数据工程,在 OmniDocBench v1.6 上超越 GPT-4o、Gemini 等商业模型,创下开源文档解析新基准。
二、核心能力
| 能力 | 说明 |
|---|---|
| 文本识别 | 多语言、多字体,保留段落逻辑顺序 |
| 表格解析 | 复杂合并单元格,标准 Markdown 输出 |
| 公式识别 | 内联与块级 LaTeX,识别率行业领先 |
| 布局分析 | 多栏布局正确排序,图文分离 |
| 段落合并 | 跨页/跨栏截断文本自动合并 |
三、环境准备
# Python >= 3.9
pip install magic-pdf "transformers>=4.52.0" torch accelerate
四、快速使用(Transformers)
from transformers import AutoProcessor, AutoModelForImageTextToText
import torch
model_id = "opendatalab/MinerU2.5-Pro-2604-1.2B"
# 加载模型和处理器
processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForImageTextToText.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto"
)
# 构建输入(以图片形式传入PDF页面)
messages = [
{
"role": "user",
"content": [
{
"type": "image",
"url": "https://your-pdf-page-image.png"
},
{
"type": "text",
"text": "Parse this document page to structured Markdown."
}
]
}
]
# 推理
inputs = processor.apply_chat_template(
messages,
add_generation_prompt=True,
tokenize=True,
return_dict=True,
return_tensors="pt",
).to(model.device)
outputs = model.generate(
**inputs,
max_new_tokens=2048,
do_sample=False
)
result = processor.decode(
outputs[0][inputs["input_ids"].shape[-1]:],
skip_special_tokens=True
)
print(result)
五、vLLM 生产部署
pip install vllm
# 启动服务(OpenAI 兼容 API)
vllm serve "opendatalab/MinerU2.5-Pro-2604-1.2B" \
--host 0.0.0.0 \
--port 8000 \
--dtype bfloat16 \
--max-model-len 8192
Python 客户端调用:
from openai import OpenAI
import base64
client = OpenAI(base_url="http://localhost:8000/v1", api_key="dummy")
with open("page.png", "rb") as f:
img_b64 = base64.b64encode(f.read()).decode()
response = client.chat.completions.create(
model="opendatalab/MinerU2.5-Pro-2604-1.2B",
messages=[{
"role": "user",
"content": [
{
"type": "text",
"text": "Parse this PDF page to Markdown. Preserve all tables, formulas, and structure."
},
{
"type": "image_url",
"image_url": {"url": f"data:image/png;base64,{img_b64}"}
}
]
}],
max_tokens=2048
)
print(response.choices[0].message.content)
六、SGLang 高性能部署
pip install sglang
python3 -m sglang.launch_server \
--model-path "opendatalab/MinerU2.5-Pro-2604-1.2B" \
--host 0.0.0.0 \
--port 30000
七、Docker 容器化部署
docker run --gpus all \
--shm-size 32g \
-p 30000:30000 \
-v ~/.cache/huggingface:/root/.cache/huggingface \
--env "HF_TOKEN=your_token_here" \
--ipc=host \
lmsysorg/sglang:latest \
python3 -m sglang.launch_server \
--model-path "opendatalab/MinerU2.5-Pro-2604-1.2B" \
--host 0.0.0.0 \
--port 30000
八、总结
MinerU2.5 Pro 证明了:数据工程 > 参数规模。在 PDF 解析这个垂直任务上,1.2B 参数的专精模型完全可以超越通用大模型。
适合集成到:RAG 知识库、学术文献管道、企业文档数字化、法律/财务文档处理等场景。
- 🌐 官网:https://mineru.net
- 🤗 HuggingFace:https://huggingface.co/opendatalab/MinerU2.5-Pro-2604-1.2B
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)