华为发布AI推理创新技术UCM,降低对HBM依赖

2025-08-12 15:55:24   |   弘乐   |   1428

8月12日,华为在“2025金融AI推理应用落地与发展论坛”上发布其AI推理创新技术UCM(推理记忆数据管理器),通过创新架构设计降低对高带宽内存(HBM)的依赖,提升国产大模型推理性能,推动AI产业自主化进程。

该技术以KV Cache为中心,融合了多类型缓存加速算法工具,对推理过程中产生的KV Cache记忆数据进行分级管理,旨在扩大推理上下文窗口,实现高吞吐、低时延的推理体验,同时降低每Token的推理成本。

据介绍,推理体验直接关系到用户与AI交互时的感受,包括回答问题的时延、答案的准确度以及复杂上下文的推理能力等方面。当前,随着AI产业已从“追求模型能力的极限”转向“追求推理体验的最优化”,推理体验直接关联用户满意度、商业可行性等,成为衡量模型价值的黄金标尺。

该技术采用“内存访问重构”“计算架构革新”“软硬协同闭环”三大创新,通过分布式内存池化、超节点级联架构等技术优化数据流,显著提升推理效率。

当前全球HBM市场由三星、SK海力士等主导,且受到美国出口政策的影响。根据2024年12月2日发布的新规,美国禁止向中国出口HBM2E(第二代HBM的增强版)及以上级别的HBM芯片。不仅美国本土生产的HBM芯片受到限制,任何在海外生产但使用了美国技术的HBM芯片也受到出口管制。该禁令于2025年1月2日正式生效。

而这一技术不仅提升了推理效率,还可能减少对HBM(高带宽内存)技术的依赖,提升国内AI大模型的推理性能,完善中国AI推理生态的关键部分。

华为在AI推理领域的技术突破并非首次,此前已有多项成果,如与北京大学联合发布的DeepSeek全栈开源推理方案,以及在昇腾平台上实现的多项性能突破。此外,华为与科大讯飞的合作也取得了显著成果,实现了国产算力上MoE模型的大规模跨节点专家并行集群推理,使推理吞吐提升3.2倍,端到端时延降低50%。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺,请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时发送相关信息至bireading@163.com,本站将会在48小时内处理完毕。

华为发布AI推理创新技术UCM,降低对HBM依赖

2025-08-12 15:55:24 浏览量: 1428 作者: 弘乐

8月12日,华为在“2025金融AI推理应用落地与发展论坛”上发布其AI推理创新技术UCM(推理记忆数据管理器),通过创新架构设计降低对高带宽内存(HBM)的依赖,提升国产大模型推理性能,推动AI产业自主化进程。

该技术以KV Cache为中心,融合了多类型缓存加速算法工具,对推理过程中产生的KV Cache记忆数据进行分级管理,旨在扩大推理上下文窗口,实现高吞吐、低时延的推理体验,同时降低每Token的推理成本。

据介绍,推理体验直接关系到用户与AI交互时的感受,包括回答问题的时延、答案的准确度以及复杂上下文的推理能力等方面。当前,随着AI产业已从“追求模型能力的极限”转向“追求推理体验的最优化”,推理体验直接关联用户满意度、商业可行性等,成为衡量模型价值的黄金标尺。

该技术采用“内存访问重构”“计算架构革新”“软硬协同闭环”三大创新,通过分布式内存池化、超节点级联架构等技术优化数据流,显著提升推理效率。

当前全球HBM市场由三星、SK海力士等主导,且受到美国出口政策的影响。根据2024年12月2日发布的新规,美国禁止向中国出口HBM2E(第二代HBM的增强版)及以上级别的HBM芯片。不仅美国本土生产的HBM芯片受到限制,任何在海外生产但使用了美国技术的HBM芯片也受到出口管制。该禁令于2025年1月2日正式生效。

而这一技术不仅提升了推理效率,还可能减少对HBM(高带宽内存)技术的依赖,提升国内AI大模型的推理性能,完善中国AI推理生态的关键部分。

华为在AI推理领域的技术突破并非首次,此前已有多项成果,如与北京大学联合发布的DeepSeek全栈开源推理方案,以及在昇腾平台上实现的多项性能突破。此外,华为与科大讯飞的合作也取得了显著成果,实现了国产算力上MoE模型的大规模跨节点专家并行集群推理,使推理吞吐提升3.2倍,端到端时延降低50%。

,

Copyright ©2018 铋读网 All Rights Reserved.

京ICP备18051707号

京公网安备 11011302001633号