阿里云发布万亿参数模型Qwen3-Max,代码与智能体能力实现行业领先
9月24日,阿里云正式推出通义千问系列迄今规模最大、能力最强的语言模型Qwen3-Max。该模型总参数超过1万亿,预训练数据量达36T tokens,在知识、推理、编程、智能体任务等全方位基准测试中均达到业界顶尖水平。
Qwen3-Max-Instruct正式版在代码生成与智能体能力上表现尤为突出。在现实编程挑战基准SWE-Bench Verified中取得69.6分,位列全球顶尖模型阵营;在工具调用能力测试Tau2-Bench上以74.8分超越Claude Opus 4与DeepSeek-V3.1。其预览版此前已在LMArena文本排行榜稳居全球前三,正式版进一步优化了性能。
值得关注的是,仍在训练中的推理增强版本Qwen3-Max-Thinking已展现出突破性潜力。该版本结合代码解释器与并行测试时计算,在AIME 25、HMMT等高难度数学推理测试中实现100%准确率,预计将在不久后向公众发布。
技术方面,Qwen3-Max沿用MoE架构,训练过程稳定高效,在PAI-FlashMoE优化下训练效率较Qwen2.5-Max提升30%,并支持1M长上下文训练。模型已通过QwenChat平台及阿里云百炼平台开放服务。