Ollama 換上 MLX 引擎後,在 Apple Silicon 上快到不可思議!

本篇文章更新時間:2026/04/01
如有資訊過時或語誤之處,歡迎使用 Contact 功能通知或向一介資男的 LINE 社群反應。
如果本站內容對你有幫助,歡迎贊助支持


Ollama × MLX:Apple Silicon 上的速度革命

編輯前言:如果你是 macOS 上的本地模型使用者,這篇文章值得你停下來細讀。Ollama 最新預覽版正式接上 Apple 的 MLX 框架,帶來可觀的加速效果,甚至直接改變你對「本地 AI 到底能跑多快」的認知。

核心觀點 (Key Takeaways)

  • MLX 的加入讓 Apple Silicon 上的 Ollama 提升明顯,不論 TTFT 或每秒 Token 都大幅加快。
  • 新的 NVFP4 量化格式讓本地端推論不再是「為了速度犧牲品質」,反而更接近雲端生產環境的結果。
  • 改良後的快取機制讓 coding agents 以及需要多分支推理的任務更靈敏、更節省記憶體。

深入解析

Ollama 在最新的 0.19 預覽版中,正式以 MLX 作為 Apple Silicon 上的核心執行後端。文章提到:

“Ollama on Apple silicon is now built on top of Apple’s machine learning framework, MLX, to take advantage of its unified memory architecture.”

這句話很關鍵。Apple Silicon 一直都有「統一記憶體架構」這張王牌,而 MLX 正是蘋果針對這項硬體特性打造的高效推論框架。Ollama 採用 MLX 後,自然可以最大化 M 系列晶片的特長。

  • 速度提升超顯著:根據官方測試,以 Qwen3.5-35B-A3B 模型(NVFP4)為例,prefill 可以從 1154 tokens/s 提升到 1810 tokens/s,decode 則從 58 提升到 112。這是質變級的升級。
  • M5 系列晶片獲得額外推進:文中指出 M5、M5 Pro、M5 Max 擁有新一代 GPU Neural Accelerators,使得 TTFT(Time to First Token)與 token generation 都更快。

NVFP4:更高品質、更接近生產環境

另個值得注意的更新是 NVFP4 支援。這是 NVIDIA 最新的量化格式,能保持更高模型準確度。

“maintain model accuracy while reducing memory bandwidth and storage requirements”

也就是說:效能好、體積小、結果更可靠,甚至能和雲端 NVFP4 推論的結果接近。這讓本地端環境不再只是「開發測試用」的替代品,而逐漸邁向真正的生產級體驗。

更聰明的快取(Cache)

針對 coding agents 或具多步推理的任務,快取表現非常重要。Ollama 在這波更新做了三件事:

  • 跨對話重用快取:減少記憶體使用,也提升分支推論速度。
  • 智慧 checkpoint:在 prompt 的關鍵位置建立快取 snapshot,減少重複處理。
  • 改良的快取淘汰策略:共同前綴(shared prefixes)能活得更久,提升命中率。

對於 Claude Code、OpenClaw、Pi 等 coding 或 agent 型應用,這些都是最能真實體感到的加速。

筆者心得與啟發

這篇公告讓我最驚訝的是:本地端 AI 的效能躍進已經不只是「能跑」,而是開始挑戰雲端推論的使用體驗。

尤其是 MLX 的加入,讓 Apple Silicon 的統一記憶體真正發揮到極致。如果你本來就依賴 Mac 來跑本地模型——特別是大型如 35B 的 LLM——這次更新絕對會讓你感受到「從能用 → 好用」的階段跳躍。

其次,NVFP4 的引入代表了本地推論與雲端推論的差距正在快速縮小。未來不需要堆疊大量硬體,只要在 Mac 上就能跑出接近生產環境的結果,這會讓更多開發者開始思考:是不是該把更多工作負載轉回本地?

總結來說,Ollama 0.19 不只是一個效能更新,而是揭示了本地 AI 的下一個趨勢:

更快、更準、更接近真正的生產環境。

文章來源:Ollama is now powered by MLX on Apple Silicon in preview


Share:

作者: Chun

WordPress 社群貢獻者、開源社群推廣者。專注於 WordPress 外掛開發、網站效能最佳化、伺服器管理,以及 iDempiere 開源 ERP 導入與客製開發。曾參與 WordCamp Taipei 等社群活動,GitHub Arctic Code Vault Contributor。提供資訊顧問、WordPress 開發教學、主機最佳化與企業 ERP 整合服務。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *


文章
Filter
Apply Filters
Mastodon