GLM-5 深度閱讀:從 Vibe Coding 走向真正的 Agent 工程時代

本篇文章更新時間:2026/02/12
如有資訊過時或語誤之處,歡迎使用 Contact 功能通知或向一介資男的 LINE 社群反應。
如果本站內容對你有幫助,歡迎贊助支持


GLM-5:模型不再只是聊天,而是開始真正「工作」的 AI 工程師

編輯前言:這篇文章來自 GLM-5: From Vibe Coding to Agentic Engineering。如果你想理解下一代開源大型模型為何開始能做真正的工程、長期決策與完整交付,那 GLM-5 是很值得研究的案例。

核心觀點 (Key Takeaways)

  • GLM-5 在規模上大幅提升,從 355B 參數擴展到 744B,並整合 DeepSeek Sparse Attention,讓長上下文與成本得以兼顧。
  • 新的強化學習基礎設施 slime 令人注目,因為它直接改善了 LLM 長期以來「RL 不好訓」的瓶頸。
  • GLM-5 在系統工程、長期代理(agentic)工作上明顯強勢,特別是在 Vending Bench 2 這類需要一年模擬經營的任務上拔得頭籌。

深入解析

GLM-5 的核心訴求非常明確:不再只是生成文字,而是成為能夠規劃、執行、並交付成果的「工程級 AI」。官方在開頭直接指出他們的目標是「complex systems engineering and long-horizon agentic tasks」,這讓我在閱讀時立刻想到 AGI 技術演進的一個關鍵轉折:從 chat 變成 work

文章提到:

“Scaling is still one of the most important ways to improve the intelligence efficiency of AGI.”

這句話彷彿回到 scaling law 時代,但 GLM-5 並不是只靠擴大。它同時强調兩條線:

  1. 更大量、更長上下文的預訓練(28.5T tokens, 744B 參數)
  2. 更有效率的後訓練(RL)流程

特別值得注意的是 slime——一個異步 RL 基礎設施。RL 一直被視為讓模型「真的學會做事」的重要方法,但大模型規模下的 RL 通常成本高昂又低效。slime 的出現等於讓他們能做更頻繁、更精細的後訓練迭代,也許這會是未來 open-source 系列能急起直追 frontier models 的武器之一。

在 Benchmarks 的表現說明了一件事:GLM-5 是「能做事」的模型

GLM-5 在 CC-Bench-V2、Vending Bench 2、SWE-bench、多個 agent 評測上都強勢超越 GLM-4.7。尤其是 Vending Bench 2 這類長期資源管理任務,模型必須模擬一年營運,一般開源模型常常在中期就亂掉,但 GLM-5 居然以 4,432 美元的收益拿下開源第一名,逼近 Claude Opus 4.5。

這種成績代表:它不只是思考得更好,而是規劃能力、穩定性與多階段決策力都有顯著提升。

真正開始交付最終文件:PRD、教案、財報、Excel

文章還透露一個實際面最令人興奮的方向——GLM-5 能直接輸出 .docx、.pdf、.xlsx 等格式。換句話說,它不是生成一段教案,而是直接給你整份排版完整的 Word 文件;不是給你財報數字,而是直接交付完整 Excel 報表。

這讓我想到作者所說:

“Foundation models are moving from ‘chat’ to ‘work.’”

Z.ai 應用本身也推出了 Agent 模式,能 multi-turn 合作、調用工具並輸出可以直接使用的文件。這非常接近「AI 員工」的實作雛形。

筆者心得與啟發

讀完這篇 GLM-5 介紹,我最深的感想是:我們可能正站在 AI 能真正接手「複雜工作」的門檻上,而不只是聊天或寫段程式碼。

GLM-5 的方向透露幾個值得思考的趨勢:

  1. 模型不只要強,而是要能「持續工作」。 長期 horizon 的任務在這波模型裡開始變成標配,而不是實驗功能。
  2. 交付格式就是能力。 能產出 DOCX、PDF、Excel,代表模型真的能接到任務,並以完整可用的形式交差。
  3. RL 回到舞台中心。 若 slime 成功降低 RL 成本,那 open-source 模型的能力會迎來新一波飛躍,甚至可能與 frontier models 平起平坐。

如果未來每家公司都有一個像 GLM-5 這樣的系統工程級 agent,能做專案、管理流程、撰寫規格、執行開發,那我們會重新定義「工作」本身。

對開發者來說,GLM-5 的出現像是下一代工作平台的 signal。它不是來取代人,而是要把「需要大量時間與流程」的部分接手起來,讓我們能把精力放在真正重要的決策與創造力上。

這大概就是我從 GLM-5 身上看到的真正價值。


Share:

作者: Chun

資訊愛好人士。主張「人人都該為了偷懶而進步」。期許自己成為斜槓到變進度條 100% 的年輕人。[///////////____36%_________]

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *


文章
Filter
Apply Filters
Mastodon