Ollama 集成 MLX 框架,Mac 本地 AI 模型提速

在本地运行大语言模型(LLM)通常意味着要忍受较慢的速度和更紧的内存限制。Ollama 的最新更新基于苹果的 MLX 框架构建,在一定程度上缓解了这些限制——特别是对于那些直接在机器上运行 AI 智能体的开发者。
同时,这次发布还引入了对NVIDIA 的 NVFP4 格式的支持,该格式旨在提升大模型的内存效率。
简单来说,Ollama 是一个 LLM 运行时,其开源核心可在本地运行,并提供了来自 Meta、Google、Mistral 和阿里巴巴等主要 AI 实验室的开放权重模型目录,开发者可以下载并在自己的机器或私有基础设施上运行。它还集成了编码智能体、助手和开发工具,允许这些工具在本地托管的模型上运行,而不仅仅依赖外部 API。
本地速度提升
早在 2025 年初就有消息传出,Ollama 正在开发对 MLX 的支持。MLX 是苹果在 2023 年推出的开源机器学习框架,旨在在苹果芯片上高效运行模型。其核心特性——也是苹果现代硬件的特性——是共享内存模型,允许 CPU 和 GPU 工作负载操作相同的数据,无需通常的传输开销,从而降低推理延迟并提高吞吐量。
Ollama 现在通过最新版本正式直接接入该架构。在周一的公告中,该公司指出了响应速度和生成速度的改进,特别是针对编码导向的模型。

MLX 提升响应速度和生成速度
这次更新还引入了更高效的缓存和支持更新的量化格式等变化,有助于降低交互使用时的延迟。
这些改进让本地模型在日常使用中更灵敏。在本地运行模型避免了将数据发送到外部服务,并让开发者对系统部署方式有更严格的控制。通过提升这些模型在苹果硬件上的运行效率,Ollama 使这种设置更适合日常开发工作。
目前,MLX 模型支持仅限于新的 Qwen3.5-35B-A3B 模型,但其他模型肯定很快会跟进。

Ollama CLI 中可用的本地智能体运行时
OpenClaw 与本地智能体和模型的转向
MLX 更新的时机恰逢对在用户机器上运行的智能体式系统的兴趣激增。OpenClaw 可能是最近最引人注目的例子,它在几个月内就登上了 GitHub 排行榜,并在 star 数上超过了长期存在的开源项目。
OpenClaw 是一个本地 AI 助手,可以与消息平台、文件和外部工具交互,直接在用户机器上执行任务。它的增长反映了对不仅能生成文本,还能在不同环境中执行任务的系统的需求。虽然 OpenClaw 可以使用远程模型,但许多用户更喜欢在本地运行它们。但这通常比通过 API 调用远程模型慢得多(但也更便宜)。
该项目的快速增长也带来了审查。安全研究人员已经发现了与智能体系统运行方式相关的真实风险:在运行时做出决策、将工具链式连接以及跨多个服务和权限层交互。这导致了数据泄露和提示注入等问题的暴露,特别是在控制有限或定义不清的情况下。
尽管如此,其吸引力不可否认。本地智能体可以在不依赖外部 API 的情况下跨工具操作,让用户直接控制任务执行方式和数据处理位置。随着 Ollama 现在集成 MLX,这种使用本地模型的设置在苹果硬件上变得更快、更灵敏。

Ollama + OpenClaw
NVIDIA 的因素
与此同时,Ollama 还增加了对 NVIDIA 专有 NVFP4 格式的支持,这是一种“低精度推理”格式,旨在减少内存使用和带宽,同时保持模型准确性。
NVFP4 比 FP16 等格式更高效地压缩模型权重,允许更大模型在更紧的硬件约束下运行。以 NVFP4 优化的模型可以产生更接近生产系统使用的输出,同时仍在开发者自己的机器上运行。
这些变化共同指向了 AI 系统运行方式和地点的转变。MLX 提升了苹果硬件上的性能,而 NVFP4 降低了运行更大模型的成本。Ollama 将两者打包到一个运行时中,像 OpenClaw 这样的工具则位于其上,自动化现实世界的任务。
结果是一个本地优先的栈,变得更容易运行,更接近生产级使用,特别是在对数据和执行控制有严格要求的情况下。
TRENDING STORIES
Group Created with Sketch.
觉得有用?分享给更多人