Ollama 集成 MLX 框架,Mac 本地 AI 模型提速

深度The New Stack2026年3月31日4 分钟阅读
Ollama 集成 MLX 框架,Mac 本地 AI 模型提速
Ollama 最新版本基于苹果 MLX 框架构建,提升了本地大语言模型的响应速度和生成效率,尤其适用于在本地运行 AI 智能体的开发者。同时支持 NVIDIA 的 NVFP4 格式,让更大模型能在有限硬件上运行。

在本地运行大语言模型(LLM)通常意味着要忍受较慢的速度和更紧的内存限制。Ollama 的最新更新基于苹果的 MLX 框架构建,在一定程度上缓解了这些限制——特别是对于那些直接在机器上运行 AI 智能体的开发者。

同时,这次发布还引入了对NVIDIA 的 NVFP4 格式的支持,该格式旨在提升大模型的内存效率。

简单来说,Ollama 是一个 LLM 运行时,其开源核心可在本地运行,并提供了来自 Meta、Google、Mistral 和阿里巴巴等主要 AI 实验室的开放权重模型目录,开发者可以下载并在自己的机器或私有基础设施上运行。它还集成了编码智能体、助手和开发工具,允许这些工具在本地托管的模型上运行,而不仅仅依赖外部 API。

本地速度提升

早在 2025 年初就有消息传出,Ollama 正在开发对 MLX 的支持。MLX 是苹果在 2023 年推出的开源机器学习框架,旨在在苹果芯片上高效运行模型。其核心特性——也是苹果现代硬件的特性——是共享内存模型,允许 CPU 和 GPU 工作负载操作相同的数据,无需通常的传输开销,从而降低推理延迟并提高吞吐量。

Ollama 现在通过最新版本正式直接接入该架构。在周一的公告中,该公司指出了响应速度和生成速度的改进,特别是针对编码导向的模型。

MLX 提升响应速度和生成速度

MLX 提升响应速度和生成速度

这次更新还引入了更高效的缓存和支持更新的量化格式等变化,有助于降低交互使用时的延迟。

这些改进让本地模型在日常使用中更灵敏。在本地运行模型避免了将数据发送到外部服务,并让开发者对系统部署方式有更严格的控制。通过提升这些模型在苹果硬件上的运行效率,Ollama 使这种设置更适合日常开发工作。

目前,MLX 模型支持仅限于新的 Qwen3.5-35B-A3B 模型,但其他模型肯定很快会跟进。

Ollama CLI 中可用的本地智能体运行时

Ollama CLI 中可用的本地智能体运行时

OpenClaw 与本地智能体和模型的转向

MLX 更新的时机恰逢对在用户机器上运行的智能体式系统的兴趣激增。OpenClaw 可能是最近最引人注目的例子,它在几个月内就登上了 GitHub 排行榜,并在 star 数上超过了长期存在的开源项目。

OpenClaw 是一个本地 AI 助手,可以与消息平台、文件和外部工具交互,直接在用户机器上执行任务。它的增长反映了对不仅能生成文本,还能在不同环境中执行任务的系统的需求。虽然 OpenClaw 可以使用远程模型,但许多用户更喜欢在本地运行它们。但这通常比通过 API 调用远程模型慢得多(但也更便宜)。

该项目的快速增长也带来了审查。安全研究人员已经发现了与智能体系统运行方式相关的真实风险:在运行时做出决策、将工具链式连接以及跨多个服务和权限层交互。这导致了数据泄露和提示注入等问题的暴露,特别是在控制有限或定义不清的情况下。

尽管如此,其吸引力不可否认。本地智能体可以在不依赖外部 API 的情况下跨工具操作,让用户直接控制任务执行方式和数据处理位置。随着 Ollama 现在集成 MLX,这种使用本地模型的设置在苹果硬件上变得更快、更灵敏。

Ollama + OpenClaw

Ollama + OpenClaw

NVIDIA 的因素

与此同时,Ollama 还增加了对 NVIDIA 专有 NVFP4 格式的支持,这是一种“低精度推理”格式,旨在减少内存使用和带宽,同时保持模型准确性。

NVFP4 比 FP16 等格式更高效地压缩模型权重,允许更大模型在更紧的硬件约束下运行。以 NVFP4 优化的模型可以产生更接近生产系统使用的输出,同时仍在开发者自己的机器上运行。

这些变化共同指向了 AI 系统运行方式和地点的转变。MLX 提升了苹果硬件上的性能,而 NVFP4 降低了运行更大模型的成本。Ollama 将两者打包到一个运行时中,像 OpenClaw 这样的工具则位于其上,自动化现实世界的任务。

结果是一个本地优先的栈,变得更容易运行,更接近生产级使用,特别是在对数据和执行控制有严格要求的情况下。

TRENDING STORIES

Group Created with Sketch.

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

Simon Willison 正在重构 LLM Python 库的抽象层,以支持服务器端工具执行等新功能。他利用 Claude Code 分析了四大 LLM 提供商的客户端库,生成了用于测试的 curl 命令和 JSON 输出。这些调研材料已开源,旨在帮助设计更通用的 API 抽象。

深度Simon Willison·4月5日·1 分钟

智能体技能——包含程序性知识和可执行资源的结构化包,供智能体在推理时动态加载——已成为增强 LLM 智能体的可靠机制。然而,推理时技能增强存在根本性限制:检索噪声引入无关指导,注入的技能内容带来大量 token 开销,而模型从未真正习得它所遵循的知识。我们提出一个问题:技能是否可以被内化到模型参数中,使其在无需任何运行时技能检索的情况下实现零样本自主行为?我们提出 Skill0,一个专为技能内化设计的上下文强化学习框架。Skill0 引入了一种训练时课程,从提供完整技能上下文开始,逐步撤除。技能按类别离线分组,并与交互历史一起渲染为紧凑的视觉上下文,教授模型工具调用和多轮任务完成。动态课程机制…

深度·4月5日·17 分钟

评论