阿里千问发布Qwen3.7-Max旗舰模型:面向智能体时代,支持长周期自主执行
5月20日,阿里千问大模型今日正式发布Qwen3.7-Max——面向智能体时代的新一代旗舰模型,即将通过API提供服务。官方称其为阿里千问迄今最全面、最强大的智能体模型,致力于成为全能的智能体基座,无论是编写和调试代码、自动化办公流程,还是在跨越数百乃至数千步的长周期任务中持续自主执行,都能胜任。
Qwen3.7-Max的核心优势在于智能体能力的广度与深度。编程方面,从前端原型开发到复杂的多文件工程均能驾驭;办公与生产力方面,通过MCP集成和多智能体协作实现工作流自动化;长周期自主执行方面,在一项长达35小时、超过1000次工具调用的全自主内核优化实验中,该模型保持了连贯推理,验证了其持久稳定的执行能力;此外,无论部署在Claude Code、OpenClaw、Qwen Code还是其他框架下,都能稳定发挥出色的跨框架泛化能力。
在测试表现方面,编程智能体领域,Qwen3.7-Max在SWE-Pro(60.6)、SWE-Multilingual(78.3)、SciCode(53.5)和QwenSVG(1608)上均取得领先表现。在Terminal Bench 2.0-Terminus(69.7)上超越DS-V4-Pro Max(67.9),在SWE-Verified(80.4)上与Opus-4.6 Max(80.8)和DS-V4-Pro Max(80.6)表现相当。通用智能体方面,Qwen3.7-Max在MCP-Mark、MCP-Atlas和Skillbench上表现突出,并在Kernel Bench L3上展示了GPU内核优化能力。在BFCL-V4、Qwenclaw和ClawEval上同样表现出色,紧追Opus-4.6 Max。在办公自动化基准SpreadSheetBench-v1上得分87.0,处于顶尖水平。
推理方面,Qwen3.7-Max在GPQA Diamond(92.4)、HLE(41.4)、HMMT 2026 Feb(97.1)、IMOAnswerBench(90.0)和Apex(44.5)上均取得领先成绩。通用能力与多语言方面,在IFBench(79.1)上表现突出,展示了指令遵循能力;在WMT24++(85.8)和MAXIFE(89.2)上同样领先;在SuperGPQA(73.6)和QwenWorldBench(57.3)上表现出色。Qwen3.7-Max即将通过阿里云百炼提供服务,用户可通过阿里云百炼API调用(即将上线)。