英特尔发布AutoRound量化算法：高效压缩大模型，支持多平台与未来GPU原生加速

2025-12-10 18:27:10 | 弘乐 | 964

12月10日，据报道，英特尔宣布将AutoRound算法集成至其LLM Compressor中，旨在优化大语言模型（LLM）与视觉语言模型（VLM）的低比特量化性能。这一新算法可在保持模型准确度的同时，显著提升推理效率，并广泛兼容英特尔及英伟达CUDA等多种硬件平台，为开发者提供更灵活高效的大模型部署方案。

AutoRound是一种面向大语言模型的后训练量化算法。它通过在量化过程中为每个张量引入三个可训练参数，并结合逐层优化与符号梯度下降方法，实现了更加精细的舍入与裁剪控制。借助该技术，量化模型不仅可以在低比特条件下维持较高精度，还能在不增加额外推理开销的情况下，通过常见的vLLM框架直接部署，大幅简化落地流程。

该算法支持多种量化数据类型，包括W4A16、FP8及MXFP4等，同时具备混合比特搜索与按层精度调整能力，允许开发者在效率与准确性之间做出灵活平衡。目前，AutoRound已适配Llama、Qwen等主流大语言模型，并通过仅需数百步的轻量化调优流程，快速完成模型压缩。

值得关注的是，AutoRound生成的量化模型能够跨硬件平台运行，既支持英特尔Xeon处理器、Gaudi加速器、数据中心GPU及Arc显卡，也兼容英伟达CUDA生态下的GPU设备。这一跨平台特性，为不同硬件环境中的大模型推理提供了统一的高效解决方案。

此外，英特尔透露，其即将推出的下一代数据中心GPU产品“Crescent Island”系列，将原生支持FP8、MXFP8及MXFP4等数据类型。这意味着未来基于AutoRound等算法量化的模型，可充分利用新型GPU的硬件加速能力，实现更低的延迟与更高的吞吐量。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺，请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时发送相关信息至bireading@163.com，本站将会在48小时内处理完毕。