智谱发布GLM-5.1:全球最强开源模型
4月8日,智谱正式发布新一代开源模型GLM-5.1,官方称其为“目前全球最强的开源模型”。这一旗舰模型的突破性之处,在于它能够在一次任务中独立、持续工作超过8小时,期间自主规划、执行、自我进化,最终交付完整的工程级成果——用户只需“睡觉的8小时”,模型就能“上班的8小时”。
在最接近真实软件开发的SWE-bench Pro基准测试中,GLM-5.1刷新了全球最佳成绩,超越GPT-5.4和Claude Opus 4.6,实现了国产模型在该项指标上的首次超越。SWE-Bench Pro要求模型在真实GitHub仓库中定位并修复高难度工程Bug,是衡量模型能否胜任专业软件开发的最硬指标。
在涵盖专业软件开发、命令行问题解决、从零构建代码仓库的三个核心代码评测基准中,GLM-5.1取得了全球第三、国产第一、开源第一的成绩。在METR榜单的同等评估标准下,GLM-5.1是唯一达到8小时级持续工作的开源模型,也是全球范围内除Claude Opus 4.6外少数具备这一能力的模型。
伴随此次发布,OpenRouter显示智谱GLM再度提价10%。调价后,GLM-5.1在Coding场景的缓存命中Token价格已接近Anthropic旗下Claude Sonnet 4.6水平。这是国产大模型首次在核心场景实现与海外头部厂商的价格对齐,标志着国产模型在商业价值层面正逐步缩小与国际巨头的差距。
GLM-5.1的能力在三个典型场景中得到了验证。在“8小时从零构建Linux桌面”任务中,模型历时8小时整,执行1200多步,产出了一套功能完善的Linux桌面系统,包括完整的桌面、窗口管理器、状态栏、应用程序、VPN管理器、中文字体支持、游戏库等,4.8MB的配套文件相当于一个4人团队一周的开发工作量。模型甚至给自己的代码写了回归测试。
在向量数据库优化任务中,GLM-5.1在655轮迭代里持续自主跑Benchmark、定位瓶颈、调整方案,最终把查询吞吐从3108 QPS提升至21472 QPS,达到初始版本的6.9倍。模型展现出的优化轨迹呈现“阶梯型”——在一个固定策略内进行增量调优,当收益趋于停滞时主动分析日志、定位瓶颈,跳转到结构性不同的方案,形成“打破-修复”的有效优化循环。
在GPU内核优化任务中,GLM-5.1在超过24小时的不间断迭代中,对50个真实机器学习计算负载进行持续优化,最终取得3.6倍的几何平均加速比,显著高于torch.compile模式的1.49倍。模型能够自主编写定制Triton Kernel和CUDA Kernel,运用cuBLASLt epilogue融合并实施shared memory tiling与CUDA Graph优化,覆盖了从高层算子融合到微架构级调优的完整技术栈。