阿里通义开源Qwen3-VL-4B/8B视觉语言模型
10月15日,阿里通义宣布开源Qwen3-VL系列两款密集架构新模型——Qwen3-VL-4B与Qwen3-VL-8B。两款模型均提供Instruct和Thinking双版本,在保持低显存占用的同时,完整继承了Qwen3-VL系列的多模态能力。
Qwen3-VL-8B在STEM、VQA、OCR、视频理解及Agent任务等公开评测中表现卓越,不仅超越Gemini 2.5 Flash Lite与GPT-5 Nano,部分指标甚至媲美上一代超大参数模型Qwen2.5-VL-72B。4B版本则主打端侧部署性价比,为智能终端设备提供高效的视觉理解支持。
值得关注的是,两款模型通过架构创新解决了小模型常见的“视觉-文本能力跷跷板”问题,在增强多模态感知的同时保持了文本理解的稳定性。此次开源进一步丰富了开发者可选的轻量化视觉语言模型阵容,为边缘计算与端侧AI应用提供了新的技术基础。