一、简介

MinerU2.5 Pro(opendatalab/MinerU2.5-Pro-2604-1.2B)是 OpenDataLab 发布的最新文档解析模型,专注于 PDF → Markdown 的高精度转换任务。

  • 📄 论文:arxiv:2604.04771

该模型基于 Qwen2-VL 1.2B 架构,通过大规模高质量数据工程,在 OmniDocBench v1.6 上超越 GPT-4o、Gemini 等商业模型,创下开源文档解析新基准。


二、核心能力

能力 说明
文本识别 多语言、多字体,保留段落逻辑顺序
表格解析 复杂合并单元格,标准 Markdown 输出
公式识别 内联与块级 LaTeX,识别率行业领先
布局分析 多栏布局正确排序,图文分离
段落合并 跨页/跨栏截断文本自动合并

三、环境准备

# Python >= 3.9
pip install magic-pdf "transformers>=4.52.0" torch accelerate

四、快速使用(Transformers)

from transformers import AutoProcessor, AutoModelForImageTextToText
import torch

model_id = "opendatalab/MinerU2.5-Pro-2604-1.2B"

# 加载模型和处理器
processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForImageTextToText.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

# 构建输入(以图片形式传入PDF页面)
messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "url": "https://your-pdf-page-image.png"
            },
            {
                "type": "text",
                "text": "Parse this document page to structured Markdown."
            }
        ]
    }
]

# 推理
inputs = processor.apply_chat_template(
    messages,
    add_generation_prompt=True,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
).to(model.device)

outputs = model.generate(
    **inputs,
    max_new_tokens=2048,
    do_sample=False
)

result = processor.decode(
    outputs[0][inputs["input_ids"].shape[-1]:],
    skip_special_tokens=True
)
print(result)

五、vLLM 生产部署

pip install vllm

# 启动服务(OpenAI 兼容 API)
vllm serve "opendatalab/MinerU2.5-Pro-2604-1.2B" \
  --host 0.0.0.0 \
  --port 8000 \
  --dtype bfloat16 \
  --max-model-len 8192

Python 客户端调用:

from openai import OpenAI
import base64

client = OpenAI(base_url="http://localhost:8000/v1", api_key="dummy")

with open("page.png", "rb") as f:
    img_b64 = base64.b64encode(f.read()).decode()

response = client.chat.completions.create(
    model="opendatalab/MinerU2.5-Pro-2604-1.2B",
    messages=[{
        "role": "user",
        "content": [
            {
                "type": "text",
                "text": "Parse this PDF page to Markdown. Preserve all tables, formulas, and structure."
            },
            {
                "type": "image_url",
                "image_url": {"url": f"data:image/png;base64,{img_b64}"}
            }
        ]
    }],
    max_tokens=2048
)

print(response.choices[0].message.content)

六、SGLang 高性能部署

pip install sglang

python3 -m sglang.launch_server \
    --model-path "opendatalab/MinerU2.5-Pro-2604-1.2B" \
    --host 0.0.0.0 \
    --port 30000

七、Docker 容器化部署

docker run --gpus all \
    --shm-size 32g \
    -p 30000:30000 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HF_TOKEN=your_token_here" \
    --ipc=host \
    lmsysorg/sglang:latest \
    python3 -m sglang.launch_server \
        --model-path "opendatalab/MinerU2.5-Pro-2604-1.2B" \
        --host 0.0.0.0 \
        --port 30000

八、总结

MinerU2.5 Pro 证明了:数据工程 > 参数规模。在 PDF 解析这个垂直任务上,1.2B 参数的专精模型完全可以超越通用大模型。

适合集成到:RAG 知识库、学术文献管道、企业文档数字化、法律/财务文档处理等场景。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐