通义千问Qwen3-VL再添新成员，双版本模型适配全场景视觉语言应用

2025-10-22 17:40:14 | 微观猎人 | 995

10月22日，阿里通义千问宣布，其视觉语言模型Qwen3-VL家族迎来两位新成员——2B与32B两个密集模型尺寸。这一重要扩展实现了从轻量级到高性能的全线覆盖，为开发者提供了更丰富的视觉语言理解解决方案。

此次发布的两个新尺寸各具特色：32B模型以卓越的性能表现脱颖而出，在STEM、VQA、OCR、视频理解及代理任务等多个关键领域的测试中，表现超越了GPT-5 mini和Claude 4 Sonnet等主流模型。令人印象深刻的是，这个仅用32B参数的模型，其能力可媲美参数规模达235B的大型模型，甚至在OSWorld基准测试中实现了对后者的超越。

与此同时，2B小模型则展现了“小而美”的优势。虽然参数规模轻量化，但其性能表现依然可圈可点，能够流畅运行在各种极限端侧设备上，包括普通的智能手机。这一特性使得开发者能够以更低的成本进行模型实验和部署，大大降低了技术门槛。

为了满足不同的应用需求，每个尺寸都提供了两个特色版本：Instruct版本响应迅速、执行稳定，特别适合对话交互和工具调用场景；而Thinking版本则强化了长链推理和复杂视觉理解能力，具备“看图思考”的深度分析能力，能够出色应对高难度任务。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺，请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时发送相关信息至bireading@163.com，本站将会在48小时内处理完毕。