智谱发布GLM-5.1高速版API:输出速度达400 tokens/s,刷新全球大模型速度上限
5月22日,智谱今日宣布面向部分企业客户提供GLM-5.1高速版API“GLM-5.1-highspeed”。该模型输出速度达到400 tokens/s,刷新了当前全球大模型厂商API的速度上限。更重要的是,过去“快”往往意味着“小”,高速模型几乎总是轻量级模型,而GLM-5.1高速版打破了这一行业惯例,首次在国产大模型中将旗舰级能力与低延迟同时带入生产环境。
GLM-5.1高速版API由智谱GLM团队与TileRT团队联合打造,在推理引擎、调度系统与基础设施三个层面进行了系统级优化:推理引擎层针对GLM-5.1架构特点重写了核心推理路径,提升了单卡吞吐能力;调度系统层通过动态批处理、请求合并和KV缓存调度优化,降低高并发场景下的尾延迟;基础设施层围绕推理集群部署、网络链路、负载均衡进行协同优化,确保400 TPS不是一个“峰值”数字,而是稳定可用的生产级能力。
模型推理速度的理论上限由硬件决定,但真实系统通常距离物理极限存在巨大差距,核心问题在于推理框架的调度方式。TileRT的设计思路是彻底抛弃Runtime层的动态调度,在编译期将整个计算图静态编排为一个常驻GPU的persistent Engine Kernel。在单卡之内,计算、异步IO与通信被全部拆解为Tile级微任务,整个推理过程只Launch一次Engine Kernel。在多卡尺度上,不同GPU rank不再执行同构逻辑,而是按计算密度与数据依赖被特化为不同worker。
GLM-5.1高速版适用于AI编程、实时交互、商业决策、实时语音等对响应延迟要求高的场景,现已面向智谱MaaS平台部分企业客户开放服务。