
Ollama 支持 MLX 框架,Mac 本地模型运行速度大幅提升
Ollama 作为在本地计算机上运行大型语言模型的运行时系统,近期宣布支持苹果的开源机器学习框架 MLX,同时改进了缓存性能并支持 Nvidia 的 NVFP4 模型压缩格式。这些更新共同为搭载 Apple Silicon 芯片(M1 或更高版本)的 Mac 带来了显著的性能提升。
技术升级:MLX 支持与内存优化
苹果的 MLX 框架专为 Apple Silicon 芯片设计,优化了对 GPU 和 CPU 共享内存的访问。Ollama 集成 MLX 后,能更高效地利用 Mac 的统一内存架构,减少数据在处理器间的传输开销,从而提升模型推理速度。此外,Ollama 改进的缓存机制和 NVFP4 格式支持,进一步降低了内存占用,使某些模型运行更流畅。
性能提升与硬件要求
根据 Ollama 的公告,新功能在预览版(Ollama 0.19)中可用,目前仅支持 阿里巴巴的 Qwen3.5 350 亿参数变体。硬件要求较高:用户需要配备 Apple Silicon 的 Mac,且至少 32GB RAM。对于搭载 M5 系列 GPU 的新款 Mac,Ollama 还能利用其神经加速器,在每秒生成令牌数和响应时间上获得额外优势。
本地模型兴起背景
这一更新正值本地模型热潮兴起之际。近期,OpenClaw 等项目在 GitHub 上获得超过 30 万星标,并在中国等地引发广泛关注,推动更多人尝试在本地运行模型。开发者对云端工具(如 Claude Code 或 ChatGPT Codex)的速率限制和高订阅成本感到不满,转向本地编码模型实验。Ollama 近期还扩展了 Visual Studio Code 集成,降低了使用门槛。
优势与局限
本地模型虽在基准测试中仍落后于前沿云端模型,但已足够胜任某些通常需要付费订阅的任务,且具有隐私优势——数据无需上传云端。然而,主要障碍包括:
- 设置复杂度:Ollama 主要是命令行工具,尽管有第三方界面可用。
- 硬件限制:尤其是视频内存需求,可能超出普通用户配置。
行业影响与展望
Ollama 的更新反映了 AI 工具向本地化、高效化发展的趋势。随着硬件性能提升和框架优化,本地模型有望在特定场景(如代码生成、隐私敏感任务)中更普及。但用户需注意,类似 OpenClaw 的深度系统访问设置存在安全风险,不建议盲目模仿。未来,更多模型可能适配 MLX,推动 Mac 成为 AI 开发的重要平台。