通义千问Qwen3-VL再添新成员,双版本模型适配全场景视觉语言应用
10月22日,阿里通义千问宣布,其视觉语言模型Qwen3-VL家族迎来两位新成员——2B与32B两个密集模型尺寸。这一重要扩展实现了从轻量级到高性能的全线覆盖,为开发者提供了更丰富的视觉语言理解解决方案。
此次发布的两个新尺寸各具特色:32B模型以卓越的性能表现脱颖而出,在STEM、VQA、OCR、视频理解及代理任务等多个关键领域的测试中,表现超越了GPT-5 mini和Claude 4 Sonnet等主流模型。令人印象深刻的是,这个仅用32B参数的模型,其能力可媲美参数规模达235B的大型模型,甚至在OSWorld基准测试中实现了对后者的超越。
与此同时,2B小模型则展现了“小而美”的优势。虽然参数规模轻量化,但其性能表现依然可圈可点,能够流畅运行在各种极限端侧设备上,包括普通的智能手机。这一特性使得开发者能够以更低的成本进行模型实验和部署,大大降低了技术门槛。
为了满足不同的应用需求,每个尺寸都提供了两个特色版本:Instruct版本响应迅速、执行稳定,特别适合对话交互和工具调用场景;而Thinking版本则强化了长链推理和复杂视觉理解能力,具备“看图思考”的深度分析能力,能够出色应对高难度任务。