本篇文章更新時間:2026/04/08
如有資訊過時或語誤之處,歡迎使用 Contact 功能通知或向一介資男的 LINE 社群反應。
如果本站內容對你有幫助,歡迎贊助支持 。
內容目錄
GLM-5.1:從短打到長程戰鬥的模型進化(讀後筆記)
編輯前言:這篇文章來自 GLM-5.1: Towards Long-Horizon Tasks。它談的不只是模型變快或變強,而是 AI 第一次真正展現「越做越好」的長程優化能力。我讀完後最大的感受是:我們可能正走進一個 AI 可以自己反覆試錯、持續改進,甚至能獨自完成大型工程的時代。
核心觀點 (Key Takeaways)
- GLM-5.1 最大突破在於「長程效能」——不是第一回合就贏,而是能在數百到上千輪的迭代中持續變強。
- 在三種不同回饋結構(數值指標、性能測量、主觀品質)中皆展現穩定的自我優化能力。
- 與先前的 GLM-5 或其他模型相比,它可以主動識別瓶頸、改寫策略、突破局限,不再只是「改一點就停下來」。
深入解析
這篇官方文章的主線很清楚:GLM-5.1 的核心賣點不是一輪的模型能力,而是它能「不斷增長」的能力。作者展示了三種難度愈來愈高的任務。
原文的關鍵句:「The longer it runs, the better the result.」
這句話幾乎定義了 GLM-5.1 的定位:不是大型語言模型,而是可長期運作的智能工程體。
一、600 輪向量資料庫優化:從 3,547 QPS 到 21,500 QPS
這部分最讓我印象深刻。原始 VectorDBBench 限制 50 次工具調用,大部分模型在這裡會到達極限。但 GLM-5.1 在改成無限制迭代後,做了超過 6,000 次工具調用、600 多次提交,性能一路爬升到 6 倍以上。
文章描述了幾次關鍵性「策略跳躍」:
- 改用 IVF cluster probing:性能直接跳到 6.4k QPS。
- 導入 u8 + f16 的兩階段搜尋:到 13.4k QPS。
- 層級化 routing、量化 routing、early prune:一路從 15.5k → 18.4k → 21.5k。
這些變化不是人工介入,而是模型看 benchmark logs 後自己決定的。某種意義上,這展示了「自主優化」的萌芽。
二、1000+ 輪 GPU Kernel 最佳化:真正的長程優化對決
KernelBench Level 3 是極具挑戰性的 GPU kernel 寫作任務,涉及到整個模型架構的效能最佳化。這裡可以看到不同模型的生命曲線:
- GLM-5:早早停滯。
- Claude Opus 4.5:撐久一點但仍會趨平。
- GLM-5.1:持續上升到 3.6× speedup,明顯比自家前代能「撐更久」。
雖然最後仍輸給 Claude Opus 4.6 的 4.2×,但 GLM-5.1 的亮點在於「還沒到 plateau」。換句話說,它的長程優化能力在此類任務上已經開始展現獨特性。
三、8 小時做出 Linux 桌面:沒有指標、靠自己審美的任務
這部分非常值得玩味。因為前兩項都有明確的數字指標,但網頁 UI 沒有「一個正確答案」。大部分模型做到簡單介面就會停下來。
但 GLM-5.1 採用了「反覆自我回顧迭代」:
- 每輪檢查自己的輸出
- 找出缺失(功能、樣式、互動)
- 持續補齊
最後居然靠一個 prompt 做出完整的 Linux-style 桌面環境,包括:
- 檔案總管
- 終端機
- 文本編輯器
- 系統監控器
- 計算機與小遊戲
而且功能彼此協調、界面一致,完全不是堆功能拼湊的那種。
這代表 GLM-5.1 第一次具備了「沒有指標也能自我迭代」的能力,這對 agentic AI 是巨大的質變。
筆者心得與啟發
讀完整篇文章,我最大的感想是:AI 的限制正在從「模型能力」移到「模型能否自我迭代」。
GLM-5.1 在這篇文章裡展示的不是更高的 benchmark 分數,而是更長的「有效工作時長」。這種能力會重塑我們與 AI 的協作方式:
- 過去:AI 給你第一版,你自己改。
- 未來:你給 AI 任務,它自己迭代 8 小時,回來給你一個完整產品。
我認為這篇文章真正傳達的訊息是:
模型不再只是被動回應,而是能主動探索、改進、評估,逐步逼近更好的解答。
這對任何需要「長時間反覆優化」的領域都是革命性的,包括:
- 大型軟體重構
- 演算法最佳化
- Server / DB 性能調校
- 網頁/產品快速原型
- 甚至研究輔助
未來我們可能會看到 AI 自己跑一天、兩天,最後真的完成一個 MVP、研究原型,甚至一整個 codebase。
GLM-5.1 看起來就是往這個方向走出的第一步,而不只是另一個性能更強的大模型。
以上是我讀完 GLM-5.1: Towards Long-Horizon Tasks 的整理與感想。如果你對「AI 如何從一次輸出變成長期工作夥伴」感興趣,這篇值得細讀。
