英特尔发布AutoRound量化算法:高效压缩大模型,支持多平台与未来GPU原生加速

2025-12-10 18:27:10   |   弘乐   |   957

12月10日,据报道,英特尔宣布将AutoRound算法集成至其LLM Compressor中,旨在优化大语言模型(LLM)与视觉语言模型(VLM)的低比特量化性能。这一新算法可在保持模型准确度的同时,显著提升推理效率,并广泛兼容英特尔及英伟达CUDA等多种硬件平台,为开发者提供更灵活高效的大模型部署方案。

AutoRound是一种面向大语言模型的后训练量化算法。它通过在量化过程中为每个张量引入三个可训练参数,并结合逐层优化与符号梯度下降方法,实现了更加精细的舍入与裁剪控制。借助该技术,量化模型不仅可以在低比特条件下维持较高精度,还能在不增加额外推理开销的情况下,通过常见的vLLM框架直接部署,大幅简化落地流程。

该算法支持多种量化数据类型,包括W4A16、FP8及MXFP4等,同时具备混合比特搜索与按层精度调整能力,允许开发者在效率与准确性之间做出灵活平衡。目前,AutoRound已适配Llama、Qwen等主流大语言模型,并通过仅需数百步的轻量化调优流程,快速完成模型压缩。

值得关注的是,AutoRound生成的量化模型能够跨硬件平台运行,既支持英特尔Xeon处理器、Gaudi加速器、数据中心GPU及Arc显卡,也兼容英伟达CUDA生态下的GPU设备。这一跨平台特性,为不同硬件环境中的大模型推理提供了统一的高效解决方案。

此外,英特尔透露,其即将推出的下一代数据中心GPU产品“Crescent Island”系列,将原生支持FP8、MXFP8及MXFP4等数据类型。这意味着未来基于AutoRound等算法量化的模型,可充分利用新型GPU的硬件加速能力,实现更低的延迟与更高的吞吐量。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺,请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时发送相关信息至bireading@163.com,本站将会在48小时内处理完毕。

英特尔发布AutoRound量化算法:高效压缩大模型,支持多平台与未来GPU原生加速

2025-12-10 18:27:10 浏览量: 957 作者: 弘乐

12月10日,据报道,英特尔宣布将AutoRound算法集成至其LLM Compressor中,旨在优化大语言模型(LLM)与视觉语言模型(VLM)的低比特量化性能。这一新算法可在保持模型准确度的同时,显著提升推理效率,并广泛兼容英特尔及英伟达CUDA等多种硬件平台,为开发者提供更灵活高效的大模型部署方案。

AutoRound是一种面向大语言模型的后训练量化算法。它通过在量化过程中为每个张量引入三个可训练参数,并结合逐层优化与符号梯度下降方法,实现了更加精细的舍入与裁剪控制。借助该技术,量化模型不仅可以在低比特条件下维持较高精度,还能在不增加额外推理开销的情况下,通过常见的vLLM框架直接部署,大幅简化落地流程。

该算法支持多种量化数据类型,包括W4A16、FP8及MXFP4等,同时具备混合比特搜索与按层精度调整能力,允许开发者在效率与准确性之间做出灵活平衡。目前,AutoRound已适配Llama、Qwen等主流大语言模型,并通过仅需数百步的轻量化调优流程,快速完成模型压缩。

值得关注的是,AutoRound生成的量化模型能够跨硬件平台运行,既支持英特尔Xeon处理器、Gaudi加速器、数据中心GPU及Arc显卡,也兼容英伟达CUDA生态下的GPU设备。这一跨平台特性,为不同硬件环境中的大模型推理提供了统一的高效解决方案。

此外,英特尔透露,其即将推出的下一代数据中心GPU产品“Crescent Island”系列,将原生支持FP8、MXFP8及MXFP4等数据类型。这意味着未来基于AutoRound等算法量化的模型,可充分利用新型GPU的硬件加速能力,实现更低的延迟与更高的吞吐量。

,

Copyright ©2018 铋读网 All Rights Reserved.

京ICP备18051707号

京公网安备 11011302001633号