阿里通义开源Qwen3-VL-4B/8B视觉语言模型

2025-10-15 14:40:51 | 唐薇 | 106

10月15日，阿里通义宣布开源Qwen3-VL系列两款密集架构新模型——Qwen3-VL-4B与Qwen3-VL-8B。两款模型均提供Instruct和Thinking双版本，在保持低显存占用的同时，完整继承了Qwen3-VL系列的多模态能力。

Qwen3-VL-8B在STEM、VQA、OCR、视频理解及Agent任务等公开评测中表现卓越，不仅超越Gemini 2.5 Flash Lite与GPT-5 Nano，部分指标甚至媲美上一代超大参数模型Qwen2.5-VL-72B。4B版本则主打端侧部署性价比，为智能终端设备提供高效的视觉理解支持。

值得关注的是，两款模型通过架构创新解决了小模型常见的“视觉-文本能力跷跷板”问题，在增强多模态感知的同时保持了文本理解的稳定性。此次开源进一步丰富了开发者可选的轻量化视觉语言模型阵容，为边缘计算与端侧AI应用提供了新的技术基础。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺，请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时发送相关信息至bireading@163.com，本站将会在48小时内处理完毕。