智谱发布GLM-5.1：全球最强开源模型

2026-04-08 12:15:32 | 探索者 | 287

4月8日，智谱正式发布新一代开源模型GLM-5.1，官方称其为“目前全球最强的开源模型”。这一旗舰模型的突破性之处，在于它能够在一次任务中独立、持续工作超过8小时，期间自主规划、执行、自我进化，最终交付完整的工程级成果——用户只需“睡觉的8小时”，模型就能“上班的8小时”。

在最接近真实软件开发的SWE-bench Pro基准测试中，GLM-5.1刷新了全球最佳成绩，超越GPT-5.4和Claude Opus 4.6，实现了国产模型在该项指标上的首次超越。SWE-Bench Pro要求模型在真实GitHub仓库中定位并修复高难度工程Bug，是衡量模型能否胜任专业软件开发的最硬指标。

在涵盖专业软件开发、命令行问题解决、从零构建代码仓库的三个核心代码评测基准中，GLM-5.1取得了全球第三、国产第一、开源第一的成绩。在METR榜单的同等评估标准下，GLM-5.1是唯一达到8小时级持续工作的开源模型，也是全球范围内除Claude Opus 4.6外少数具备这一能力的模型。

伴随此次发布，OpenRouter显示智谱GLM再度提价10%。调价后，GLM-5.1在Coding场景的缓存命中Token价格已接近Anthropic旗下Claude Sonnet 4.6水平。这是国产大模型首次在核心场景实现与海外头部厂商的价格对齐，标志着国产模型在商业价值层面正逐步缩小与国际巨头的差距。

GLM-5.1的能力在三个典型场景中得到了验证。在“8小时从零构建Linux桌面”任务中，模型历时8小时整，执行1200多步，产出了一套功能完善的Linux桌面系统，包括完整的桌面、窗口管理器、状态栏、应用程序、VPN管理器、中文字体支持、游戏库等，4.8MB的配套文件相当于一个4人团队一周的开发工作量。模型甚至给自己的代码写了回归测试。

在向量数据库优化任务中，GLM-5.1在655轮迭代里持续自主跑Benchmark、定位瓶颈、调整方案，最终把查询吞吐从3108 QPS提升至21472 QPS，达到初始版本的6.9倍。模型展现出的优化轨迹呈现“阶梯型”——在一个固定策略内进行增量调优，当收益趋于停滞时主动分析日志、定位瓶颈，跳转到结构性不同的方案，形成“打破-修复”的有效优化循环。

在GPU内核优化任务中，GLM-5.1在超过24小时的不间断迭代中，对50个真实机器学习计算负载进行持续优化，最终取得3.6倍的几何平均加速比，显著高于torch.compile模式的1.49倍。模型能够自主编写定制Triton Kernel和CUDA Kernel，运用cuBLASLt epilogue融合并实施shared memory tiling与CUDA Graph优化，覆盖了从高层算子融合到微架构级调优的完整技术栈。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺，请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时发送相关信息至bireading@163.com，本站将会在48小时内处理完毕。