MinerU2.5 Pro技术解析：1.2B参数SOTA PDF解析模型，完整部署教程（Transformers/vLLM/SGLang/Docker）

m0_53524152

303人浏览 · 2026-06-04 12:57:24

m0_53524152 · 2026-06-04 12:57:24 发布

一、简介

MinerU2.5 Pro（opendatalab/MinerU2.5-Pro-2604-1.2B）是 OpenDataLab 发布的最新文档解析模型，专注于 PDF → Markdown 的高精度转换任务。

📄 论文：arxiv:2604.04771

该模型基于 Qwen2-VL 1.2B 架构，通过大规模高质量数据工程，在 OmniDocBench v1.6 上超越 GPT-4o、Gemini 等商业模型，创下开源文档解析新基准。

二、核心能力

能力	说明
文本识别	多语言、多字体，保留段落逻辑顺序
表格解析	复杂合并单元格，标准 Markdown 输出
公式识别	内联与块级 LaTeX，识别率行业领先
布局分析	多栏布局正确排序，图文分离
段落合并	跨页/跨栏截断文本自动合并

三、环境准备

# Python >= 3.9
pip install magic-pdf "transformers>=4.52.0" torch accelerate

四、快速使用（Transformers）

from transformers import AutoProcessor, AutoModelForImageTextToText
import torch

model_id = "opendatalab/MinerU2.5-Pro-2604-1.2B"

# 加载模型和处理器
processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForImageTextToText.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

# 构建输入（以图片形式传入PDF页面）
messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "url": "https://your-pdf-page-image.png"
            },
            {
                "type": "text",
                "text": "Parse this document page to structured Markdown."
            }
        ]
    }
]

# 推理
inputs = processor.apply_chat_template(
    messages,
    add_generation_prompt=True,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
).to(model.device)

outputs = model.generate(
    **inputs,
    max_new_tokens=2048,
    do_sample=False
)

result = processor.decode(
    outputs[0][inputs["input_ids"].shape[-1]:],
    skip_special_tokens=True
)
print(result)

五、vLLM 生产部署

pip install vllm

# 启动服务（OpenAI 兼容 API）
vllm serve "opendatalab/MinerU2.5-Pro-2604-1.2B" \
  --host 0.0.0.0 \
  --port 8000 \
  --dtype bfloat16 \
  --max-model-len 8192

Python 客户端调用：

from openai import OpenAI
import base64

client = OpenAI(base_url="http://localhost:8000/v1", api_key="dummy")

with open("page.png", "rb") as f:
    img_b64 = base64.b64encode(f.read()).decode()

response = client.chat.completions.create(
    model="opendatalab/MinerU2.5-Pro-2604-1.2B",
    messages=[{
        "role": "user",
        "content": [
            {
                "type": "text",
                "text": "Parse this PDF page to Markdown. Preserve all tables, formulas, and structure."
            },
            {
                "type": "image_url",
                "image_url": {"url": f"data:image/png;base64,{img_b64}"}
            }
        ]
    }],
    max_tokens=2048
)

print(response.choices[0].message.content)

六、SGLang 高性能部署

pip install sglang

python3 -m sglang.launch_server \
    --model-path "opendatalab/MinerU2.5-Pro-2604-1.2B" \
    --host 0.0.0.0 \
    --port 30000

七、Docker 容器化部署

docker run --gpus all \
    --shm-size 32g \
    -p 30000:30000 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HF_TOKEN=your_token_here" \
    --ipc=host \
    lmsysorg/sglang:latest \
    python3 -m sglang.launch_server \
        --model-path "opendatalab/MinerU2.5-Pro-2604-1.2B" \
        --host 0.0.0.0 \
        --port 30000