微软发布Phi-4-Reasoning-Vision-15B开源模型:能“看清”并“想深”的小型多模态AI
3月5日,微软正式发布Phi-4-Reasoning-Vision-15B模型,这是一款视觉推理模型,结合了高分辨率视觉感知与选择性、任务感知的推理能力,成为Phi-4系列中首个同时实现“看得清楚”和“想得深入”的小语言模型。
传统视觉模型仅执行被动的感知——识别图像中“有什么”。Phi-4-Reasoning-Vision-15B更进一步,执行结构化、多步骤的推理:理解图像中的视觉结构,将其与文本上下文连接,并得出可操作的结论。这使开发者能够构建从图表分析到GUI自动化的智能应用。
该模型最关键的设计特征是混合推理行为。它可以根据提示在“推理模式”和“非推理模式”之间切换:当需要深度推理时(如数学问题、逻辑分析),启用多步推理链;当快速感知足够时(如OCR、元素定位),直接输出以降低延迟。
该模型最重要的应用领域之一是与计算机智能体配合使用。模型接收屏幕截图和自然语言指令后,可输出目标UI元素的标准化边界框坐标,供其他智能体模型执行点击、滚动等交互操作。Phi-4-Reasoning-Vision-15B的开源,为开发者提供了在资源受限环境中实现视觉推理任务的新选择。