智谱发布GLM-5.1高速版API：输出速度达400 tokens/s，刷新全球大模型速度上限

2026-05-22 16:51:23 | 嫣然 | 1436

5月22日，智谱今日宣布面向部分企业客户提供GLM-5.1高速版API“GLM-5.1-highspeed”。该模型输出速度达到400 tokens/s，刷新了当前全球大模型厂商API的速度上限。更重要的是，过去“快”往往意味着“小”，高速模型几乎总是轻量级模型，而GLM-5.1高速版打破了这一行业惯例，首次在国产大模型中将旗舰级能力与低延迟同时带入生产环境。

GLM-5.1高速版API由智谱GLM团队与TileRT团队联合打造，在推理引擎、调度系统与基础设施三个层面进行了系统级优化：推理引擎层针对GLM-5.1架构特点重写了核心推理路径，提升了单卡吞吐能力；调度系统层通过动态批处理、请求合并和KV缓存调度优化，降低高并发场景下的尾延迟；基础设施层围绕推理集群部署、网络链路、负载均衡进行协同优化，确保400 TPS不是一个“峰值”数字，而是稳定可用的生产级能力。

模型推理速度的理论上限由硬件决定，但真实系统通常距离物理极限存在巨大差距，核心问题在于推理框架的调度方式。TileRT的设计思路是彻底抛弃Runtime层的动态调度，在编译期将整个计算图静态编排为一个常驻GPU的persistent Engine Kernel。在单卡之内，计算、异步IO与通信被全部拆解为Tile级微任务，整个推理过程只Launch一次Engine Kernel。在多卡尺度上，不同GPU rank不再执行同构逻辑，而是按计算密度与数据依赖被特化为不同worker。

GLM-5.1高速版适用于AI编程、实时交互、商业决策、实时语音等对响应延迟要求高的场景，现已面向智谱MaaS平台部分企业客户开放服务。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺，请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时发送相关信息至bireading@163.com，本站将会在48小时内处理完毕。