阿里通义开源Qwen3-VL-4B/8B视觉语言模型

2025-10-15 14:40:51   |   唐薇   |   89

10月15日,阿里通义宣布开源Qwen3-VL系列两款密集架构新模型——Qwen3-VL-4B与Qwen3-VL-8B。两款模型均提供Instruct和Thinking双版本,在保持低显存占用的同时,完整继承了Qwen3-VL系列的多模态能力。

Qwen3-VL-8B在STEM、VQA、OCR、视频理解及Agent任务等公开评测中表现卓越,不仅超越Gemini 2.5 Flash Lite与GPT-5 Nano,部分指标甚至媲美上一代超大参数模型Qwen2.5-VL-72B。4B版本则主打端侧部署性价比,为智能终端设备提供高效的视觉理解支持。

值得关注的是,两款模型通过架构创新解决了小模型常见的“视觉-文本能力跷跷板”问题,在增强多模态感知的同时保持了文本理解的稳定性。此次开源进一步丰富了开发者可选的轻量化视觉语言模型阵容,为边缘计算与端侧AI应用提供了新的技术基础。



特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺,请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时发送相关信息至bireading@163.com,本站将会在48小时内处理完毕。

阿里通义开源Qwen3-VL-4B/8B视觉语言模型

2025-10-15 14:40:51 浏览量: 89 作者: 唐薇

10月15日,阿里通义宣布开源Qwen3-VL系列两款密集架构新模型——Qwen3-VL-4B与Qwen3-VL-8B。两款模型均提供Instruct和Thinking双版本,在保持低显存占用的同时,完整继承了Qwen3-VL系列的多模态能力。

Qwen3-VL-8B在STEM、VQA、OCR、视频理解及Agent任务等公开评测中表现卓越,不仅超越Gemini 2.5 Flash Lite与GPT-5 Nano,部分指标甚至媲美上一代超大参数模型Qwen2.5-VL-72B。4B版本则主打端侧部署性价比,为智能终端设备提供高效的视觉理解支持。

值得关注的是,两款模型通过架构创新解决了小模型常见的“视觉-文本能力跷跷板”问题,在增强多模态感知的同时保持了文本理解的稳定性。此次开源进一步丰富了开发者可选的轻量化视觉语言模型阵容,为边缘计算与端侧AI应用提供了新的技术基础。



,

Copyright ©2018 铋读网 All Rights Reserved.

京ICP备18051707号

京公网安备 11011302001633号