微软发布Phi-4-Reasoning-Vision-15B开源模型：能“看清”并“想深”的小型多模态AI

2026-03-05 11:03:52 | 唐薇 | 169

3月5日，微软正式发布Phi-4-Reasoning-Vision-15B模型，这是一款视觉推理模型，结合了高分辨率视觉感知与选择性、任务感知的推理能力，成为Phi-4系列中首个同时实现“看得清楚”和“想得深入”的小语言模型。

传统视觉模型仅执行被动的感知——识别图像中“有什么”。Phi-4-Reasoning-Vision-15B更进一步，执行结构化、多步骤的推理：理解图像中的视觉结构，将其与文本上下文连接，并得出可操作的结论。这使开发者能够构建从图表分析到GUI自动化的智能应用。

该模型最关键的设计特征是混合推理行为。它可以根据提示在“推理模式”和“非推理模式”之间切换：当需要深度推理时（如数学问题、逻辑分析），启用多步推理链；当快速感知足够时（如OCR、元素定位），直接输出以降低延迟。

该模型最重要的应用领域之一是与计算机智能体配合使用。模型接收屏幕截图和自然语言指令后，可输出目标UI元素的标准化边界框坐标，供其他智能体模型执行点击、滚动等交互操作。Phi-4-Reasoning-Vision-15B的开源，为开发者提供了在资源受限环境中实现视觉推理任务的新选择。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺，请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时发送相关信息至bireading@163.com，本站将会在48小时内处理完毕。