智谱发布GLM-5.1高速版API:输出速度达400 tokens/s,刷新全球大模型速度上限

2026-05-22 16:51:23   |   嫣然   |   1429

5月22日,智谱今日宣布面向部分企业客户提供GLM-5.1高速版API“GLM-5.1-highspeed”。该模型输出速度达到400 tokens/s,刷新了当前全球大模型厂商API的速度上限。更重要的是,过去“快”往往意味着“小”,高速模型几乎总是轻量级模型,而GLM-5.1高速版打破了这一行业惯例,首次在国产大模型中将旗舰级能力与低延迟同时带入生产环境。

GLM-5.1高速版API由智谱GLM团队与TileRT团队联合打造,在推理引擎、调度系统与基础设施三个层面进行了系统级优化:推理引擎层针对GLM-5.1架构特点重写了核心推理路径,提升了单卡吞吐能力;调度系统层通过动态批处理、请求合并和KV缓存调度优化,降低高并发场景下的尾延迟;基础设施层围绕推理集群部署、网络链路、负载均衡进行协同优化,确保400 TPS不是一个“峰值”数字,而是稳定可用的生产级能力。

模型推理速度的理论上限由硬件决定,但真实系统通常距离物理极限存在巨大差距,核心问题在于推理框架的调度方式。TileRT的设计思路是彻底抛弃Runtime层的动态调度,在编译期将整个计算图静态编排为一个常驻GPU的persistent Engine Kernel。在单卡之内,计算、异步IO与通信被全部拆解为Tile级微任务,整个推理过程只Launch一次Engine Kernel。在多卡尺度上,不同GPU rank不再执行同构逻辑,而是按计算密度与数据依赖被特化为不同worker。

GLM-5.1高速版适用于AI编程、实时交互、商业决策、实时语音等对响应延迟要求高的场景,现已面向智谱MaaS平台部分企业客户开放服务。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺,请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时发送相关信息至bireading@163.com,本站将会在48小时内处理完毕。

智谱发布GLM-5.1高速版API:输出速度达400 tokens/s,刷新全球大模型速度上限

2026-05-22 16:51:23 浏览量: 1429 作者: 嫣然

5月22日,智谱今日宣布面向部分企业客户提供GLM-5.1高速版API“GLM-5.1-highspeed”。该模型输出速度达到400 tokens/s,刷新了当前全球大模型厂商API的速度上限。更重要的是,过去“快”往往意味着“小”,高速模型几乎总是轻量级模型,而GLM-5.1高速版打破了这一行业惯例,首次在国产大模型中将旗舰级能力与低延迟同时带入生产环境。

GLM-5.1高速版API由智谱GLM团队与TileRT团队联合打造,在推理引擎、调度系统与基础设施三个层面进行了系统级优化:推理引擎层针对GLM-5.1架构特点重写了核心推理路径,提升了单卡吞吐能力;调度系统层通过动态批处理、请求合并和KV缓存调度优化,降低高并发场景下的尾延迟;基础设施层围绕推理集群部署、网络链路、负载均衡进行协同优化,确保400 TPS不是一个“峰值”数字,而是稳定可用的生产级能力。

模型推理速度的理论上限由硬件决定,但真实系统通常距离物理极限存在巨大差距,核心问题在于推理框架的调度方式。TileRT的设计思路是彻底抛弃Runtime层的动态调度,在编译期将整个计算图静态编排为一个常驻GPU的persistent Engine Kernel。在单卡之内,计算、异步IO与通信被全部拆解为Tile级微任务,整个推理过程只Launch一次Engine Kernel。在多卡尺度上,不同GPU rank不再执行同构逻辑,而是按计算密度与数据依赖被特化为不同worker。

GLM-5.1高速版适用于AI编程、实时交互、商业决策、实时语音等对响应延迟要求高的场景,现已面向智谱MaaS平台部分企业客户开放服务。

,

Copyright ©2018 铋读网 All Rights Reserved.

京ICP备18051707号

京公网安备 11011302001633号