技术速递｜Phi-4-Reasoning-Vision-15B：使用场景深度解析

MicrosoftReactor

393人浏览 · 2026-03-13 20:54:12

MicrosoftReactor · 2026-03-13 20:54:12 发布

作者：卢建晖 - 微软高级云技术布道师

在这里插入图片描述

Phi-4-Reasoning-Vision-15B 是微软在 Microsoft Foundry 上发布的最新视觉推理模型。它结合了高分辨率视觉感知能力与选择性、任务感知的推理能力，使其成为 Phi-4 系列中第一个同时实现“看得清”和“想得深”的小语言模型（SLM）。

传统视觉模型通常只执行被动感知——识别图像中“有什么”。Phi-4-Reasoning-Vision-15B 更进一步，通过执行结构化的多步骤推理：理解图像中的视觉结构，将其与文本上下文连接，并得出可执行的结论。这使开发者能够构建从图表分析到 GUI 自动化等智能应用。

核心设计特性

选择性推理

此模型最关键的设计特性是其混合推理行为。它可以根据提示词在“推理模式”和“非推理模式”之间切换：

当需要深度推理时（例如数学问题、逻辑分析） → 激活多步骤推理链
当快速感知即可满足需求时（例如 OCR、元素定位） → 直接输出以降低延迟

三种思考模式（来自 Notebook 示例）

开发者可以通过 thinking_mode 参数精确控制推理行为：

模式	触发方式	描述	适用场景
hybrid（混合）	默认	模型自主决定是否需要深度推理	通用场景，在速度与准确性之间取得平衡
think（深度思考）	追加 token	强制使用完整推理链	复杂数学 / 科学 / 逻辑问题
nothink（快速响应）	追加 token	跳过推理链，直接输出	低延迟感知任务、简单问答

对应的代码实现：

def run_inference(processor, model, prompt, image, thinking_mode="hybrid"):
    ## FORM MESSAGE AND LOAD IMAGE
    messages = [
        {
            "role": "user",
            "content": prompt,
        }
    ]

    ## PROCESS INPUTS

    prompt = processor.tokenizer.apply_chat_template(
        messages,
        tokenize=False,
        add_generation_prompt=True,
        return_dict=False,
    )

    if thinking_mode == "think":
        prompt = str(prompt) + "<think>"
    elif thinking_mode == "nothink":
        prompt = str(prompt) + "<|dummy_84|>"

    print(f"Prompt: {prompt}")

    inputs = processor(text=prompt, images=[image], return_tensors="pt").to(model.device)

    ## GENERATE RESPONSE
    output_ids = model.generate(
        **inputs,
        max_new_tokens=1024,
        temperature=None,
        top_p=None,
        do_sample=False,
        use_cache=False,
    )

    ## DECODE RESPONSE
    sequence_length = inputs["input_ids"].shape[1]

    sequence_length -= 1 if thinking_mode == "think" else 0 # remove the extra token for nothink mode

    new_output_ids = output_ids[:, sequence_length:]
    model_output = processor.batch_decode(
        new_output_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False
    )[0]

    return model_output

这种设计使开发者能够在运行时动态平衡延迟和准确性——这对于实时交互应用至关重要。

核心应用场景

用例一：GUI 智能体（计算机操作智能体）

这是此模型最重要的应用领域之一。模型接收一个截图和一条自然语言指令，然后输出目标 UI 元素的标准化边界框坐标。Notebook 还提供了一个 plot_boxes() 可视化函数，用于将模型预测（红色框）与真实标注（绿色框）进行对比。

真实场景示例 —— 电商购物智能体：

正如官方文档所描述，在零售场景中，此模型作为 computer-use agents 的感知层：

屏幕理解：识别商品、价格、筛选条件、促销信息、按钮以及购物车状态
具备定位依据的输出：生成可执行坐标，供上游 agent 模型（例如 Fara-7B）执行点击、滚动等交互操作
实时决策支持：模型体量小、推理延迟低，适合在密集商品列表中导航并比较选项

用例二：数学与科学视觉推理

典型应用：

解释几何图形和函数图像以进行问题求解
分析科学实验图示和数据图表
教育场景：学生拍照上传题目，模型展示完整推理过程和解题步骤

用例三：文档、图表与表格理解

典型应用：

IT 运维：解释监控仪表盘、性能图表和事故报告，以辅助诊断和决策
金融分析：从报告截图中提取指标并解释趋势
企业报告自动化：处理扫描文档和表格并生成结构化摘要

示例

使用 Phi-4-Reasoning-Vision-15B 检测行人乱穿马路

在这里插入图片描述

示例代码

使用 Phi-4-Reasoning-Vision-15B 进行数学推理

示例代码

使用 Phi-4-Reasoning-Vision-15B 实现图形界面智能体

在这里插入图片描述

示例代码

模型对比概览

以下是 Phi-4-Reasoning-Vision-15B 与同类模型在关键任务上的对比：

No Thinking Mode
在这里插入图片描述

Thinking Mode
在这里插入图片描述

Phi-4-Reasoning-Vision-15B 在数学推理和 GUI 定位任务上表现出明显优势，同时在通用多模态理解方面保持竞争力。

总结

Phi-4-Reasoning-Vision-15B 代表了小型视觉推理模型的重要里程碑：

看得清晰：高分辨率视觉感知能力，支持文档、图表、UI 截图等多种输入
思考深入：选择性多步骤推理链，在复杂任务上可与更大模型竞争
运行快速：15B 参数规模 + NoThink 模式，适用于实时交互应用
适配灵活：三种思考模式可随时切换，使开发者能够在运行时动态平衡准确性和延迟

无论是构建电商购物智能体、IT 运维助手，还是教育辅导工具，此模型都提供了从“看见”到“理解”再到“行动”的完整能力链。

资源

阅读官方博客 - Phi-4-reasoning-vision 以及训练多模态推理模型的经验总结
在 Huggingface 上了解更多关于 Phi-4-reasoning-vision 的信息
了解更多 Microsoft Phi 系列模型 - Microsoft Phi CookBook

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

C语言函数表实现多态

C 语言通过结构体和函数指针实现面向对象特性摘要：本文展示如何在 C 语言中模拟面向对象编程的核心概念。通过 Animal/Cat/Dog 模型，利用结构体保存公共数据，函数指针表描述抽象行为。具体类型在自己的实现文件中提供函数表，调用端通过抽象接口调用行为，由运行时对象内部的函数表决定实际执行的函数。这种设计实现了封装（不透明类型）、抽象（统一接口）和多态（运行时绑定）等面向对象特性，展示了

AtomGit开源社区

我开发了一个 AI 表单填写 Chrome 插件：AutoFormX，提升 Web 测试和表单联调效率

AutoFormX 是一款面向开发者和测试人员的 Chrome 插件，通过 AI 自动识别网页表单字段并生成合适的测试数据，支持单字段填写和一键填充整个页面。它适用于注册页测试、后台管理系统联调、产品演示数据填充和表单功能验收等场景，支持 DeepSeek、OpenAI 等多种 AI 服务，旨在减少重复填表工作，提升 Web 测试和表单联调效率。

AtomGit开源社区

GB/T 42131——2022 知识图谱

知识的推理计算是从已有的事实或关系推断出知识图谱隐性知识的发现与挖掘。例如，对知识图谱中所有“公司”实体的“成立年份”和“所属行业”进行分布统计，从而快速获得产业的时间与领域格局全貌。：将图中的实体和关系转化为低维、稠密的向量表示，使得语义上相近的实体/关系在向量空间中的距离也近。2.实体类型之间的关系：明确定义类与类之间的语义连接，如 "是一种"（继承关系）、"治疗"、"包含" 等。随本体模型、