AMD推出vLLM-ATOM插件:零学习成本提升DeepSeek-R1等大模型推理性能
5月12日,科技媒体Wccftech昨日报道,AMD推出vLLM-ATOM插件,可在不改动现有vLLM命令、API和工作流的前提下,提升DeepSeek-R1、Kimi-K2和gpt-oss-120B等大语言模型的推理性能。
vLLM是面向大语言模型部署的开源推理框架,重点优化高并发服务场景下的吞吐量和显存利用率。与一般的“单次调用”推理工具不同,vLLM更强调请求调度、KV缓存和连续批处理,适合企业将模型部署为长期在线服务。AMD此次推出的vLLM插件提供了一套更贴近AMD Instinct GPU的推理优化方案,尽可能不改变开发者的现有使用方式,让用户继续使用原有vLLM命令、API和端到端工作流,而插件会在后台接管优化。
vLLM-ATOM插件重点面向Instinct MI350、MI400以及MI355X等GPU。从架构上看,vLLM-ATOM分为三层:最上层的vLLM负责请求调度、KV缓存管理、连续批处理以及兼容OpenAI的API;中间层的ATOM插件负责平台注册、模型实现、注意力后端路由和内核调优;最底层的AITER则提供GPU内核,包括融合MoE、Flash Attention、量化GEMM和RoPE融合。
对企业和开发者而言,这套方案的核心价值不仅在于“更快”,还在于部署门槛更低。AMD将其包装为“零学习成本”方案,意味着现有基于vLLM的服务流程理论上可以平滑迁移到AMD后端。该插件支持Qwen3、DeepSeek、GLM、gpt-oss、Kimi等多个模型,覆盖MoE、混合MoE、稠密模型以及文本加视觉的VLM场景。支持的代表模型包括Qwen3-235B-A22B-Instruct-2507-FP8、DeepSeek-R1-0528、openai/gpt-oss-120b和amd/Kimi-K2.5-MXFP4。