英特尔发布AutoRound量化算法:高效压缩大模型,支持多平台与未来GPU原生加速
12月10日,据报道,英特尔宣布将AutoRound算法集成至其LLM Compressor中,旨在优化大语言模型(LLM)与视觉语言模型(VLM)的低比特量化性能。这一新算法可在保持模型准确度的同时,显著提升推理效率,并广泛兼容英特尔及英伟达CUDA等多种硬件平台,为开发者提供更灵活高效的大模型部署方案。
AutoRound是一种面向大语言模型的后训练量化算法。它通过在量化过程中为每个张量引入三个可训练参数,并结合逐层优化与符号梯度下降方法,实现了更加精细的舍入与裁剪控制。借助该技术,量化模型不仅可以在低比特条件下维持较高精度,还能在不增加额外推理开销的情况下,通过常见的vLLM框架直接部署,大幅简化落地流程。
该算法支持多种量化数据类型,包括W4A16、FP8及MXFP4等,同时具备混合比特搜索与按层精度调整能力,允许开发者在效率与准确性之间做出灵活平衡。目前,AutoRound已适配Llama、Qwen等主流大语言模型,并通过仅需数百步的轻量化调优流程,快速完成模型压缩。
值得关注的是,AutoRound生成的量化模型能够跨硬件平台运行,既支持英特尔Xeon处理器、Gaudi加速器、数据中心GPU及Arc显卡,也兼容英伟达CUDA生态下的GPU设备。这一跨平台特性,为不同硬件环境中的大模型推理提供了统一的高效解决方案。
此外,英特尔透露,其即将推出的下一代数据中心GPU产品“Crescent Island”系列,将原生支持FP8、MXFP8及MXFP4等数据类型。这意味着未来基于AutoRound等算法量化的模型,可充分利用新型GPU的硬件加速能力,实现更低的延迟与更高的吞吐量。