Ollama 0.19预览版上线:深度优化苹果MLX框架,Mac本地大模型运行提速
4月1日,科技媒体Ars Technica报道称,本地AI工具Ollama发布了0.19预览版,全面接入苹果MLX机器学习框架,为Mac用户运行本地大模型带来了显著的性能提升。
此次更新的核心在于深度优化统一内存的使用效率、改进缓存性能,并新增对NVFP4模型压缩格式的支持。针对部分模型,Ollama进行了专项优化,大幅降低了它们在Mac运行时的内存占用。对于搭载最新M5芯片的Mac设备,Ollama还可以直接调用神经网络加速器,进一步提升每秒生成的词元数与首词响应速度。
目前,这一功能仅限Ollama预览版使用。首批支持的模型为阿里巴巴开源的350亿参数Qwen3.5模型,硬件门槛方面则需要至少32GB的统一内存。对于满足配置要求的用户而言,升级后在使用OpenClaw等私人助手,或运行Claude Code、Codex等编程智能体工具时,本地AI模型的响应速度将明显加快,使用体验也随之提升。
MLX是专为Apple芯片打造的开源阵列框架,能够高效执行机器学习任务,支持用户使用Python和Swift直接在设备上运行大型语言模型。该框架针对Apple芯片进行了深度优化,可在CPU和GPU上快速完成数值计算和机器学习任务。此次Ollama与MLX的深度整合,标志着Mac设备在本地AI推理能力上又迈出了重要一步。