阿里千问发布Qwen3.7-Max旗舰模型：面向智能体时代，支持长周期自主执行

2026-05-20 17:49:23 | 棠糖 | 2541

5月20日，阿里千问大模型今日正式发布Qwen3.7-Max——面向智能体时代的新一代旗舰模型，即将通过API提供服务。官方称其为阿里千问迄今最全面、最强大的智能体模型，致力于成为全能的智能体基座，无论是编写和调试代码、自动化办公流程，还是在跨越数百乃至数千步的长周期任务中持续自主执行，都能胜任。

Qwen3.7-Max的核心优势在于智能体能力的广度与深度。编程方面，从前端原型开发到复杂的多文件工程均能驾驭；办公与生产力方面，通过MCP集成和多智能体协作实现工作流自动化；长周期自主执行方面，在一项长达35小时、超过1000次工具调用的全自主内核优化实验中，该模型保持了连贯推理，验证了其持久稳定的执行能力；此外，无论部署在Claude Code、OpenClaw、Qwen Code还是其他框架下，都能稳定发挥出色的跨框架泛化能力。

在测试表现方面，编程智能体领域，Qwen3.7-Max在SWE-Pro（60.6）、SWE-Multilingual（78.3）、SciCode（53.5）和QwenSVG（1608）上均取得领先表现。在Terminal Bench 2.0-Terminus（69.7）上超越DS-V4-Pro Max（67.9），在SWE-Verified（80.4）上与Opus-4.6 Max（80.8）和DS-V4-Pro Max（80.6）表现相当。通用智能体方面，Qwen3.7-Max在MCP-Mark、MCP-Atlas和Skillbench上表现突出，并在Kernel Bench L3上展示了GPU内核优化能力。在BFCL-V4、Qwenclaw和ClawEval上同样表现出色，紧追Opus-4.6 Max。在办公自动化基准SpreadSheetBench-v1上得分87.0，处于顶尖水平。

推理方面，Qwen3.7-Max在GPQA Diamond（92.4）、HLE（41.4）、HMMT 2026 Feb（97.1）、IMOAnswerBench（90.0）和Apex（44.5）上均取得领先成绩。通用能力与多语言方面，在IFBench（79.1）上表现突出，展示了指令遵循能力；在WMT24++（85.8）和MAXIFE（89.2）上同样领先；在SuperGPQA（73.6）和QwenWorldBench（57.3）上表现出色。Qwen3.7-Max即将通过阿里云百炼提供服务，用户可通过阿里云百炼API调用（即将上线）。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺，请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时发送相关信息至bireading@163.com，本站将会在48小时内处理完毕。