打造自己的五百萬美金資料中心：從 comma.ai 學到的務實工程哲學

Chun 2026/02/06 發佈留言

本篇文章更新時間：2026/02/06
如有資訊過時或語誤之處，歡迎使用 Contact 功能通知。
一介資男的 LINE 社群開站囉！歡迎入群聊聊～
如果本站內容對你有幫助，歡迎使用 BFX Pay 加密貨幣或新台幣贊助支持。

內容目錄

1 擁有資料中心的真正意義：讀後筆記與深度解析

擁有資料中心的真正意義：讀後筆記與深度解析

編輯前言：這篇文章來自 Owning a $5M data center，是 comma.ai CTO Harald Schäfer 的深入分享。他用非常務實的角度，講述他們如何以不到五百萬美金打造出能支撐完整 AI 研發的資料中心。這篇內容對任何做 AI、模型訓練或大規模算力規劃的人，都非常值得參考。

核心觀點 (Key Takeaways)

真正需要算力的公司，長期下來自建資料中心比雲端便宜得多。
自建算力迫使工程師解決核心問題，而不是單純「撒錢買更多 GPU」。
資料中心沒有想像中複雜，即便是小團隊也能維運完整、可靠的 ML 基礎設施。

深入解析

這篇文章的主軸其實很清楚：如果企業的核心價值依賴大量運算，那么完全依賴雲端並不是長期解法。雲端固然方便，但也讓企業逐漸失去技術自主性；更糟的是，當成本壓力浮現時，往往已經沒有回頭路。

文章一開始就強調：

Cloud companies make onboarding very easy, and offboarding very difficult.

這句話其實說中了現代許多 ML 團隊的痛：用雲端太簡單，導致工程師習慣用「增加 compute」來解決問題，久而久之就落入「沒有成本感」的陷阱。

以下我將 comma.ai 的資料中心拆成幾個關鍵層面來整理。

電力與散熱：運算的物理限制永遠存在
comma.ai 最大使用約 450kW，而在高電價的聖地牙哥，他們 2025 年的電費高達 54 萬美元。這其實點出一個關鍵：當你擁有所謂的算力，你也要面對真實世界的工程問題，如冷卻、濕度、能源成本。

他們選擇不用 CRAC，而是完全依賴自然冷卻加上大型進排風扇，並用 PID 控制維持濕度與溫度。這不是高科技，而是很務實的工程取捨。
硬體選擇：大量但簡單、可維修、自己能掌控
目前使用 600 GPUs、75 台自己組裝的 TinyBox Pro。自組不是炫技，而是：
故障率跟買來的差不多
好維修
量身打造、不浪費

在儲存部分，令人印象深刻的是：
3PB 的非冗餘儲存
每個節點必須能跑滿 20Gbps

非冗餘並不是偷懶，而是因為訓練資料是「可重建、可替代」的，所以不需要花錢冗餘。
軟體基礎設施：以極簡思維解決大規模問題
單一 master
Ubuntu + PXE + Salt 管理
minikeyvalue（mkv）分散式儲存
slurm 管控所有算力
pytorch FSDP 做分散式訓練

我覺得最有趣的部分是他們打造的 miniray —— 比 dask 更輕量、極度專注的 Python 任務排程工具。這讓資料中心可自動把所有 idle 的 GPU 變成推論或 preprocessing 工人，完全不浪費資源。
一致的 monorepo 代碼環境
他們用一個不到 3GB 的 monorepo，然後在任務啟動時把完整代碼 + 套件同步到共享 NFS，再交給 worker 執行。

整個過程只要 2 秒。這在多機分散式訓練中非常關鍵：所有 worker 必須跑同一份 code，不然 debug 根本不可能。

筆者心得與啟發

看完全文，我最深刻的感受是：AI 時代的護城河不只在模型和數據，還在於基礎設施。

雲端確實讓許多新創得以快速起步，但 comma.ai 用非常實際的方式提醒我們：

雲端並不是長期最划算的選擇。
工程師需要面對現實世界的限制，才能寫出真正高效的系統。
小團隊其實也能把資料中心做到很好，不必迷信大企業的架構。

這篇文章讓我重新思考一個問題：在 AI 訓練成本往上飆的時代，掌握算力本身，就是一種競爭力。

如果你正計畫做長期的模型訓練，或是維護大量資料處理 pipeline，我會建議：

提早評估雲端 vs 自建的五年期成本
為工程團隊建立「資源有限」的思維
逐步掌握底層，包括電力、散熱、硬體、排程系統

最後，看完 comma.ai 的分享，我更相信一句話：
打造自己的資料中心，不是奢侈，而是一種長期思維。

作者: Chun

資訊愛好人士。主張「人人都該為了偷懶而進步」。期許自己成為斜槓到變進度條 100% 的年輕人。[///////////____36%_________]

發佈留言

取消回覆

文章

文章