作者:卢建晖 - 微软高级云技术布道师

在这里插入图片描述

Phi-4-Reasoning-Vision-15B 是微软在 Microsoft Foundry 上发布的最新视觉推理模型。它结合了高分辨率视觉感知能力选择性任务感知的推理能力,使其成为 Phi-4 系列中第一个同时实现“看得清”和“想得深”的小语言模型(SLM)。

传统视觉模型通常只执行被动感知——识别图像中“有什么”。Phi-4-Reasoning-Vision-15B 更进一步,通过执行结构化的多步骤推理:理解图像中的视觉结构,将其与文本上下文连接,并得出可执行的结论。这使开发者能够构建从图表分析到 GUI 自动化等智能应用。

核心设计特性

选择性推理

此模型最关键的设计特性是其混合推理行为。它可以根据提示词在“推理模式”和“非推理模式”之间切换:

  • 当需要深度推理时(例如数学问题、逻辑分析) → 激活多步骤推理链

  • 当快速感知即可满足需求时(例如 OCR、元素定位) → 直接输出以降低延迟

三种思考模式(来自 Notebook 示例)

开发者可以通过 thinking_mode 参数精确控制推理行为:

模式 触发方式 描述 适用场景
hybrid(混合) 默认 模型自主决定是否需要深度推理 通用场景,在速度与准确性之间取得平衡
think(深度思考) 追加 token 强制使用完整推理链 复杂数学 / 科学 / 逻辑问题
nothink(快速响应) 追加 token 跳过推理链,直接输出 低延迟感知任务、简单问答

对应的代码实现:

def run_inference(processor, model, prompt, image, thinking_mode="hybrid"):
    ## FORM MESSAGE AND LOAD IMAGE
    messages = [
        {
            "role": "user",
            "content": prompt,
        }
    ]

    ## PROCESS INPUTS

    prompt = processor.tokenizer.apply_chat_template(
        messages,
        tokenize=False,
        add_generation_prompt=True,
        return_dict=False,
    )

    if thinking_mode == "think":
        prompt = str(prompt) + "<think>"
    elif thinking_mode == "nothink":
        prompt = str(prompt) + "<|dummy_84|>"

    print(f"Prompt: {prompt}")

    inputs = processor(text=prompt, images=[image], return_tensors="pt").to(model.device)

    ## GENERATE RESPONSE
    output_ids = model.generate(
        **inputs,
        max_new_tokens=1024,
        temperature=None,
        top_p=None,
        do_sample=False,
        use_cache=False,
    )

    ## DECODE RESPONSE
    sequence_length = inputs["input_ids"].shape[1]

    sequence_length -= 1 if thinking_mode == "think" else 0 # remove the extra token for nothink mode

    new_output_ids = output_ids[:, sequence_length:]
    model_output = processor.batch_decode(
        new_output_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False
    )[0]

    return model_output

这种设计使开发者能够在运行时动态平衡延迟和准确性——这对于实时交互应用至关重要。

核心应用场景

用例一:GUI 智能体(计算机操作智能体)

这是此模型最重要的应用领域之一。模型接收一个截图和一条自然语言指令,然后输出目标 UI 元素的标准化边界框坐标。Notebook 还提供了一个 plot_boxes() 可视化函数,用于将模型预测(红色框)与真实标注(绿色框)进行对比。

真实场景示例 —— 电商购物智能体

正如官方文档所描述,在零售场景中,此模型作为 computer-use agents 的感知层:

  • 屏幕理解:识别商品、价格、筛选条件、促销信息、按钮以及购物车状态

  • 具备定位依据的输出:生成可执行坐标,供上游 agent 模型(例如 Fara-7B)执行点击、滚动等交互操作

  • 实时决策支持:模型体量小、推理延迟低,适合在密集商品列表中导航并比较选项

用例二:数学与科学视觉推理

典型应用

  • 解释几何图形和函数图像以进行问题求解

  • 分析科学实验图示和数据图表

  • 教育场景:学生拍照上传题目,模型展示完整推理过程和解题步骤

用例三:文档、图表与表格理解

典型应用

  • IT 运维:解释监控仪表盘、性能图表和事故报告,以辅助诊断和决策

  • 金融分析:从报告截图中提取指标并解释趋势

  • 企业报告自动化:处理扫描文档和表格并生成结构化摘要

示例

  1. 使用 Phi-4-Reasoning-Vision-15B 检测行人乱穿马路

在这里插入图片描述

示例代码

  1. 使用 Phi-4-Reasoning-Vision-15B 进行数学推理
    在这里插入图片描述

示例代码

  1. 使用 Phi-4-Reasoning-Vision-15B 实现图形界面智能体

在这里插入图片描述

示例代码

模型对比概览

以下是 Phi-4-Reasoning-Vision-15B 与同类模型在关键任务上的对比:

No Thinking Mode
在这里插入图片描述

Thinking Mode
在这里插入图片描述

Phi-4-Reasoning-Vision-15B 在数学推理和 GUI 定位任务上表现出明显优势,同时在通用多模态理解方面保持竞争力。

总结

Phi-4-Reasoning-Vision-15B 代表了小型视觉推理模型的重要里程碑:

  • 看得清晰:高分辨率视觉感知能力,支持文档、图表、UI 截图等多种输入

  • 思考深入:选择性多步骤推理链,在复杂任务上可与更大模型竞争

  • 运行快速:15B 参数规模 + NoThink 模式,适用于实时交互应用

  • 适配灵活:三种思考模式可随时切换,使开发者能够在运行时动态平衡准确性和延迟

无论是构建电商购物智能体、IT 运维助手,还是教育辅导工具,此模型都提供了从“看见”到“理解”再到“行动”的完整能力链。

资源

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐