苹果M5芯片AI性能大幅跃升,本地大模型运行能力迎来突破
11月21日,苹果机器学习研究团队公布了M5芯片的最新性能数据,展示了这款即将面世的处理器在运行本地大语言模型方面的卓越表现,其中文本生成速度较M4提升最高达27%,图像生成能力更是实现了3.8倍的惊人飞跃。
此次性能测试的核心平台是苹果专为Apple Silicon打造的MLX开源机器学习框架。这一框架充分利用了苹果芯片的统一内存架构优势,使得大型模型能够在CPU和GPU之间无缝协同运行,突破了传统架构中数据传输的瓶颈。测试涵盖了不同参数规模的Qwen模型和GPT OSS模型,全面评估了M5在各种负载下的表现。
测试结果显示,M5芯片在生成后续文本token时的速度比M4提升了19%至27%。这一显著提升的关键在于内存带宽的大幅增强——M5的内存带宽高达153GB/s,相比M4的120GB/s增加了28%。对于大语言模型推理过程中内存密集型的token生成任务而言,更高的内存带宽意味着更快速的数据访问能力,从而直接提升了文本生成的流畅度。
报告深入解析了大语言模型推理的两种负载特性:生成第一个token主要受计算能力限制,而生成后续token则更依赖于内存速度。正是这种架构特性,使得M5在持续对话、长文本生成等实际应用场景中能够发挥明显优势。
苹果特别强调,配备24GB内存的MacBook Pro已经能够轻松运行参数量达300亿的4-bit量化混合专家模型,并将推理负载控制在18GB以内。这一成就标志着大模型在个人设备上的本地化运行迈出了实质性一步,用户未来或许无需依赖云端服务就能享受先进AI能力。
在图像生成领域,M5芯片的表现更加令人印象深刻。报告揭示,M5芯片中集成了全新的GPU神经加速器,专门用于处理机器学习负载中至关重要的矩阵乘法运算。得益于这一专用硬件的加持,M5芯片执行图像生成任务的速度达到了M4芯片的3.8倍以上。