AMD推出vLLM-ATOM插件：零学习成本提升DeepSeek-R1等大模型推理性能

2026-05-12 18:10:08 | 探索者 | 940

5月12日，科技媒体Wccftech昨日报道，AMD推出vLLM-ATOM插件，可在不改动现有vLLM命令、API和工作流的前提下，提升DeepSeek-R1、Kimi-K2和gpt-oss-120B等大语言模型的推理性能。

vLLM是面向大语言模型部署的开源推理框架，重点优化高并发服务场景下的吞吐量和显存利用率。与一般的“单次调用”推理工具不同，vLLM更强调请求调度、KV缓存和连续批处理，适合企业将模型部署为长期在线服务。AMD此次推出的vLLM插件提供了一套更贴近AMD Instinct GPU的推理优化方案，尽可能不改变开发者的现有使用方式，让用户继续使用原有vLLM命令、API和端到端工作流，而插件会在后台接管优化。

vLLM-ATOM插件重点面向Instinct MI350、MI400以及MI355X等GPU。从架构上看，vLLM-ATOM分为三层：最上层的vLLM负责请求调度、KV缓存管理、连续批处理以及兼容OpenAI的API；中间层的ATOM插件负责平台注册、模型实现、注意力后端路由和内核调优；最底层的AITER则提供GPU内核，包括融合MoE、Flash Attention、量化GEMM和RoPE融合。

对企业和开发者而言，这套方案的核心价值不仅在于“更快”，还在于部署门槛更低。AMD将其包装为“零学习成本”方案，意味着现有基于vLLM的服务流程理论上可以平滑迁移到AMD后端。该插件支持Qwen3、DeepSeek、GLM、gpt-oss、Kimi等多个模型，覆盖MoE、混合MoE、稠密模型以及文本加视觉的VLM场景。支持的代表模型包括Qwen3-235B-A22B-Instruct-2507-FP8、DeepSeek-R1-0528、openai/gpt-oss-120b和amd/Kimi-K2.5-MXFP4。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺，请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时发送相关信息至bireading@163.com，本站将会在48小时内处理完毕。