GLM-5 深度閱讀：從 Vibe Coding 走向真正的 Agent 工程時代

本篇文章更新時間：2026/02/12
如有資訊過時或語誤之處，歡迎使用 Contact 功能通知或向一介資男的 LINE 社群反應。
如果本站內容對你有幫助，歡迎贊助支持。

內容目錄

1 GLM-5：模型不再只是聊天，而是開始真正「工作」的 AI 工程師

GLM-5：模型不再只是聊天，而是開始真正「工作」的 AI 工程師

編輯前言：這篇文章來自 GLM-5: From Vibe Coding to Agentic Engineering。如果你想理解下一代開源大型模型為何開始能做真正的工程、長期決策與完整交付，那 GLM-5 是很值得研究的案例。

核心觀點 (Key Takeaways)

GLM-5 在規模上大幅提升，從 355B 參數擴展到 744B，並整合 DeepSeek Sparse Attention，讓長上下文與成本得以兼顧。
新的強化學習基礎設施 slime 令人注目，因為它直接改善了 LLM 長期以來「RL 不好訓」的瓶頸。
GLM-5 在系統工程、長期代理（agentic）工作上明顯強勢，特別是在 Vending Bench 2 這類需要一年模擬經營的任務上拔得頭籌。

深入解析

GLM-5 的核心訴求非常明確：不再只是生成文字，而是成為能夠規劃、執行、並交付成果的「工程級 AI」。官方在開頭直接指出他們的目標是「complex systems engineering and long-horizon agentic tasks」，這讓我在閱讀時立刻想到 AGI 技術演進的一個關鍵轉折：從 chat 變成 work。

文章提到：

“Scaling is still one of the most important ways to improve the intelligence efficiency of AGI.”

這句話彷彿回到 scaling law 時代，但 GLM-5 並不是只靠擴大。它同時强調兩條線：

更大量、更長上下文的預訓練（28.5T tokens, 744B 參數）
更有效率的後訓練（RL）流程

特別值得注意的是 slime——一個異步 RL 基礎設施。RL 一直被視為讓模型「真的學會做事」的重要方法，但大模型規模下的 RL 通常成本高昂又低效。slime 的出現等於讓他們能做更頻繁、更精細的後訓練迭代，也許這會是未來 open-source 系列能急起直追 frontier models 的武器之一。

在 Benchmarks 的表現說明了一件事：GLM-5 是「能做事」的模型

GLM-5 在 CC-Bench-V2、Vending Bench 2、SWE-bench、多個 agent 評測上都強勢超越 GLM-4.7。尤其是 Vending Bench 2 這類長期資源管理任務，模型必須模擬一年營運，一般開源模型常常在中期就亂掉，但 GLM-5 居然以 4,432 美元的收益拿下開源第一名，逼近 Claude Opus 4.5。

這種成績代表：它不只是思考得更好，而是規劃能力、穩定性與多階段決策力都有顯著提升。

真正開始交付最終文件：PRD、教案、財報、Excel

文章還透露一個實際面最令人興奮的方向——GLM-5 能直接輸出 .docx、.pdf、.xlsx 等格式。換句話說，它不是生成一段教案，而是直接給你整份排版完整的 Word 文件；不是給你財報數字，而是直接交付完整 Excel 報表。

這讓我想到作者所說：

“Foundation models are moving from ‘chat’ to ‘work.’”

Z.ai 應用本身也推出了 Agent 模式，能 multi-turn 合作、調用工具並輸出可以直接使用的文件。這非常接近「AI 員工」的實作雛形。

筆者心得與啟發

讀完這篇 GLM-5 介紹，我最深的感想是：我們可能正站在 AI 能真正接手「複雜工作」的門檻上，而不只是聊天或寫段程式碼。

GLM-5 的方向透露幾個值得思考的趨勢：

模型不只要強，而是要能「持續工作」。 長期 horizon 的任務在這波模型裡開始變成標配，而不是實驗功能。
交付格式就是能力。 能產出 DOCX、PDF、Excel，代表模型真的能接到任務，並以完整可用的形式交差。
RL 回到舞台中心。 若 slime 成功降低 RL 成本，那 open-source 模型的能力會迎來新一波飛躍，甚至可能與 frontier models 平起平坐。

如果未來每家公司都有一個像 GLM-5 這樣的系統工程級 agent，能做專案、管理流程、撰寫規格、執行開發，那我們會重新定義「工作」本身。

對開發者來說，GLM-5 的出現像是下一代工作平台的 signal。它不是來取代人，而是要把「需要大量時間與流程」的部分接手起來，讓我們能把精力放在真正重要的決策與創造力上。

這大概就是我從 GLM-5 身上看到的真正價值。

作者: Chun

WordPress 社群貢獻者、開源社群推廣者。專注於 WordPress 外掛開發、網站效能最佳化、伺服器管理，以及 iDempiere 開源 ERP 導入與客製開發。曾參與 WordCamp Taipei 等社群活動，GitHub Arctic Code Vault Contributor。提供資訊顧問、WordPress 開發教學、主機最佳化與企業 ERP 整合服務。

發佈留言

取消回覆

文章

文章