微软发布Phi-4-Reasoning-Vision-15B开源模型:能“看清”并“想深”的小型多模态AI

2026-03-05 11:03:52   |   唐薇   |   158

3月5日,微软正式发布Phi-4-Reasoning-Vision-15B模型,这是一款视觉推理模型,结合了高分辨率视觉感知与选择性、任务感知的推理能力,成为Phi-4系列中首个同时实现“看得清楚”和“想得深入”的小语言模型。

传统视觉模型仅执行被动的感知——识别图像中“有什么”。Phi-4-Reasoning-Vision-15B更进一步,执行结构化、多步骤的推理:理解图像中的视觉结构,将其与文本上下文连接,并得出可操作的结论。这使开发者能够构建从图表分析到GUI自动化的智能应用。

该模型最关键的设计特征是混合推理行为。它可以根据提示在“推理模式”和“非推理模式”之间切换:当需要深度推理时(如数学问题、逻辑分析),启用多步推理链;当快速感知足够时(如OCR、元素定位),直接输出以降低延迟。

该模型最重要的应用领域之一是与计算机智能体配合使用。模型接收屏幕截图和自然语言指令后,可输出目标UI元素的标准化边界框坐标,供其他智能体模型执行点击、滚动等交互操作。Phi-4-Reasoning-Vision-15B的开源,为开发者提供了在资源受限环境中实现视觉推理任务的新选择。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺,请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时发送相关信息至bireading@163.com,本站将会在48小时内处理完毕。

微软发布Phi-4-Reasoning-Vision-15B开源模型:能“看清”并“想深”的小型多模态AI

2026-03-05 11:03:52 浏览量: 158 作者: 唐薇

3月5日,微软正式发布Phi-4-Reasoning-Vision-15B模型,这是一款视觉推理模型,结合了高分辨率视觉感知与选择性、任务感知的推理能力,成为Phi-4系列中首个同时实现“看得清楚”和“想得深入”的小语言模型。

传统视觉模型仅执行被动的感知——识别图像中“有什么”。Phi-4-Reasoning-Vision-15B更进一步,执行结构化、多步骤的推理:理解图像中的视觉结构,将其与文本上下文连接,并得出可操作的结论。这使开发者能够构建从图表分析到GUI自动化的智能应用。

该模型最关键的设计特征是混合推理行为。它可以根据提示在“推理模式”和“非推理模式”之间切换:当需要深度推理时(如数学问题、逻辑分析),启用多步推理链;当快速感知足够时(如OCR、元素定位),直接输出以降低延迟。

该模型最重要的应用领域之一是与计算机智能体配合使用。模型接收屏幕截图和自然语言指令后,可输出目标UI元素的标准化边界框坐标,供其他智能体模型执行点击、滚动等交互操作。Phi-4-Reasoning-Vision-15B的开源,为开发者提供了在资源受限环境中实现视觉推理任务的新选择。

,

Copyright ©2018 铋读网 All Rights Reserved.

京ICP备18051707号

京公网安备 11011302001633号