本篇文章更新時間:2025/12/23
如有資訊過時或語誤之處,歡迎使用 Contact 功能通知。
一介資男的 LINE 社群開站囉!歡迎入群聊聊~
如果本站內容對你有幫助,歡迎使用 BFX Pay 加密貨幣 或 新台幣 贊助支持。
GLM‑4.7 全面升級:更強的思考、更穩的程式、更細緻的 UI
編輯前言:這篇文章來自 GLM‑4.7: Advancing the Coding Capability,重點不只在「分數更高」,而是 GLM‑4.7 在實際使用上,明顯變得更穩、更能思考,也更像一位真正有設計感、會做 UI 的工程夥伴。
核心觀點 (Key Takeaways)
- GLM‑4.7 在多語系與代理式程式任務上大幅進步,尤其是 SWE‑bench 與 Terminal Bench 的表現明顯拉升。
- 不只會寫程式,GLM‑4.7 在 UI、設計生成、Slides 產製的質感也改善很多。
- 新增更成熟的「思考模式」,包含 Interleaved、Preserved 與 Turn-level Thinking,讓長流程任務的穩定度提升。
深入解析
GLM‑4.7 的升級並非單點突破,而是「工程能力、工具使用、推理、UI 生成」四線齊發。原文在開頭就點出它在核心 coding 任務的整體進步:
GLM-4.7 brings clear gains… including (73.8%, +5.8%) on SWE-bench… and (41%, +16.5%) on Terminal Bench 2.0.
我覺得這組數字特別有意思,因為 SWE‑bench 這類 benchmark 很貼近實務 bug 修復,而 Terminal Bench 則是測模型能否穩定操作指令式環境。兩項都往上走,意味著它不只是會「寫」,也更能「動手做」。
-
Vibe Coding:設計層面的顯著提升
GLM‑4.7 不再只產出能運作的 HTML,而是會生成更乾淨、排版更準確的 UI。原文提到它能做更現代化的頁面、海報與 voxel‑art 場景。這類展示其實比 benchmark 更能讓人感受到模型的審美與可用度提升。 -
Tool Using:工具使用能力大幅增強
在 τ²‑Bench 與 BrowseComp 的分數提升代表 GLM‑4.7 更會「找資料、看網頁、使用外部工具」。這對部署在 coding agent 內的模型尤其重要。 -
思考模式(Thinking Mode)升級,是這次最大亮點
Interleaved Thinking 在前版本已有,但 GLM‑4.7 把它擴展成三層: -
Interleaved Thinking:每步行動前先想清楚。
-
Preserved Thinking:跨多輪保留思考塊,不需要每次重新推理。
-
Turn-level Thinking:每輪可自由切換是否啟用思考。
對長流程 coding 任務來說,Preserved Thinking 的加入特別重要,因為「不用每輪都重新解釋世界」能降低推理噪音,也提升最終的穩定度。
筆者心得與啟發
GLM‑4.7 給我的感覺不是「跑分變高」,而是更像一個真正能接案子的工程夥伴。尤其 Preserved Thinking 讓模型在長任務中不會一下子遺失上下文,這對許多實務工作者會是很明顯的體驗差異。
另外,我很欣賞這篇原文最後的那句話:AGI 的成功,不是能不能跑過考卷,而是能不能自然融入人類的工作流程。這次 GLM‑4.7 在 coding、代理式任務、UI 生成都更實用,恰好印證了這句話的方向。對我來說,這代表未來的模型競爭不只比「智力」,也比「實際使用時的手感」。
如果你是工程師、產品人或創作者,GLM‑4.7 的升級值得花時間試用一下,因為這類模型正快速從「工具」變成「協作者」。
