AMD推出vLLM-ATOM插件:零学习成本提升DeepSeek-R1等大模型推理性能

2026-05-12 18:10:08   |   探索者   |   940

5月12日,科技媒体Wccftech昨日报道,AMD推出vLLM-ATOM插件,可在不改动现有vLLM命令、API和工作流的前提下,提升DeepSeek-R1、Kimi-K2和gpt-oss-120B等大语言模型的推理性能。

vLLM是面向大语言模型部署的开源推理框架,重点优化高并发服务场景下的吞吐量和显存利用率。与一般的“单次调用”推理工具不同,vLLM更强调请求调度、KV缓存和连续批处理,适合企业将模型部署为长期在线服务。AMD此次推出的vLLM插件提供了一套更贴近AMD Instinct GPU的推理优化方案,尽可能不改变开发者的现有使用方式,让用户继续使用原有vLLM命令、API和端到端工作流,而插件会在后台接管优化。

vLLM-ATOM插件重点面向Instinct MI350、MI400以及MI355X等GPU。从架构上看,vLLM-ATOM分为三层:最上层的vLLM负责请求调度、KV缓存管理、连续批处理以及兼容OpenAI的API;中间层的ATOM插件负责平台注册、模型实现、注意力后端路由和内核调优;最底层的AITER则提供GPU内核,包括融合MoE、Flash Attention、量化GEMM和RoPE融合。

对企业和开发者而言,这套方案的核心价值不仅在于“更快”,还在于部署门槛更低。AMD将其包装为“零学习成本”方案,意味着现有基于vLLM的服务流程理论上可以平滑迁移到AMD后端。该插件支持Qwen3、DeepSeek、GLM、gpt-oss、Kimi等多个模型,覆盖MoE、混合MoE、稠密模型以及文本加视觉的VLM场景。支持的代表模型包括Qwen3-235B-A22B-Instruct-2507-FP8、DeepSeek-R1-0528、openai/gpt-oss-120b和amd/Kimi-K2.5-MXFP4。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺,请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时发送相关信息至bireading@163.com,本站将会在48小时内处理完毕。

AMD推出vLLM-ATOM插件:零学习成本提升DeepSeek-R1等大模型推理性能

2026-05-12 18:10:08 浏览量: 940 作者: 探索者

5月12日,科技媒体Wccftech昨日报道,AMD推出vLLM-ATOM插件,可在不改动现有vLLM命令、API和工作流的前提下,提升DeepSeek-R1、Kimi-K2和gpt-oss-120B等大语言模型的推理性能。

vLLM是面向大语言模型部署的开源推理框架,重点优化高并发服务场景下的吞吐量和显存利用率。与一般的“单次调用”推理工具不同,vLLM更强调请求调度、KV缓存和连续批处理,适合企业将模型部署为长期在线服务。AMD此次推出的vLLM插件提供了一套更贴近AMD Instinct GPU的推理优化方案,尽可能不改变开发者的现有使用方式,让用户继续使用原有vLLM命令、API和端到端工作流,而插件会在后台接管优化。

vLLM-ATOM插件重点面向Instinct MI350、MI400以及MI355X等GPU。从架构上看,vLLM-ATOM分为三层:最上层的vLLM负责请求调度、KV缓存管理、连续批处理以及兼容OpenAI的API;中间层的ATOM插件负责平台注册、模型实现、注意力后端路由和内核调优;最底层的AITER则提供GPU内核,包括融合MoE、Flash Attention、量化GEMM和RoPE融合。

对企业和开发者而言,这套方案的核心价值不仅在于“更快”,还在于部署门槛更低。AMD将其包装为“零学习成本”方案,意味着现有基于vLLM的服务流程理论上可以平滑迁移到AMD后端。该插件支持Qwen3、DeepSeek、GLM、gpt-oss、Kimi等多个模型,覆盖MoE、混合MoE、稠密模型以及文本加视觉的VLM场景。支持的代表模型包括Qwen3-235B-A22B-Instruct-2507-FP8、DeepSeek-R1-0528、openai/gpt-oss-120b和amd/Kimi-K2.5-MXFP4。

,

Copyright ©2018 铋读网 All Rights Reserved.

京ICP备18051707号

京公网安备 11011302001633号