Claude Code 回歸初心之前:深度思考被限縮後的全面性崩壞

本篇文章更新時間:2026/04/07
如有資訊過時或語誤之處,歡迎使用 Contact 功能通知或向一介資男的 LINE 社群反應。
如果本站內容對你有幫助,歡迎贊助支持


Claude Code 為何在二月後「突然變笨」?一份工程師級的數據證據與深度解析

編輯前言:這份來自 GitHub 議題的分析報告,比起抱怨,更像是一份完整的「工程系統診斷書」。它解釋了為何許多使用者在 2026 年二月後明顯感受到 Claude 在複雜工程任務上的品質下滑。本篇筆記整理自原文:[MODEL] Claude Code is unusable for complex engineering tasks with the Feb updates](https://github.com/anthropics/claude-code/issues/42796)。

核心觀點 (Key Takeaways)

  • 思考內容(thinking tokens)的削減,是品質滑落的核心原因。分析將近 18,000 個思考區塊後,發現 Claude 的「思考深度」從 2,200 字急降到 600 字左右。
  • 模型從「先研究再修改」(research-first) 退化成「先改再說」(edit-first),導致編輯錯誤大幅增加。
  • 工作流程完全瓦解:多代理、多檔案、長時間運作的工程流程在三月後幾乎無法運作,成本從 400 美元等級飆升到估算近 4 萬美元級別。

深入解析

這份報告並不是空穴來風,而是作者以三個月、6,852 份 session logs、約 23 萬次 tool calls 的資料,做出量化分析後的結果。最讓我印象深刻的是:從時間線、行為變化到使用者情緒,都呈現一致的「系統性退化」趨勢。

原文指出:「The rollout of thinking content redaction correlates precisely with a measured quality regression.」

換句話說,不是使用者錯覺,而是模型的 reasoning budget 實際被限縮了。

1. 思考深度的縮水是骨牌效應的起點

報告抓到了關鍵:三月初開始,Claude 的思考內容被逐步「隱藏」,但更重要的是:「思考量」本身也在減少。

  • 一月 baseline:約 2,200 字的「深度思考」
  • 二月底:掉到 720 字(-67%)
  • 三月初:掉到 560 字(-75%)

這導致什麼?模型沒有空間做計畫、比對、交叉檢查,也就無法執行複雜工程任務。

2. 行為層次的退化:從工程師變成「先改再說」的初學者

數據顯示:

  • 正常時期:每修改一次之前會先讀 6.6 個檔案
  • 三月後:只讀 2.0 個檔案

這就像沒有看專案架構的工程師,直接在程式碼裡亂改。於是出現:

  • 不讀檔案就修改
  • 把註解與程式碼段落打亂
  • 違反既有 conventions
  • 重複修改同一段程式(trial-and-error)

而且模型會開始說:「這是 simplest fix」,但作者發現這些「simplest」往往就是錯的。

3. 多代理工程流程全面崩壞

這份報告的工作場景驚人,是高度自動化的高複雜度工程流水線:

  • 50+ 個代理同時工作
  • 單次 session 30 分鐘以上
  • 大量跨檔案、跨模組的編輯與整合

在二月,Claude 還能自動產出 191,000 行合格程式碼;到了三月,同樣的操作直接變成「每個代理都像迷路」。

最誇張的是成本量級:

  • 2 月 API 輸出:97 萬 tokens
  • 3 月 API 輸出:62,600 萬 tokens(64 倍)

但人類給的 prompts 幾乎相同。也就是同樣的工作量,模型卻耗費了大量計算,品質卻更差。

4. 使用者情緒的崩落也有數據證明

這點非常有趣:作者統計自己 prompts 中的字詞變化,如同心理學分析。

  • 「great」下降 47%
  • 「simplest」上升 642%(因為 Claude 開始常講 simplest fix)
  • 髒話上升 68%
  • 「please」「thanks」下降 50% 以上
  • 「commit」下降 58%(使用者不敢讓它 commit 了)

這些變化全都跟模型品質下降一致。

筆者心得與啟發

閱讀完這份報告,我最大的感想是:

「大型模型的思考深度其實就是工程品質的命脈。」

過去我們習慣把 thinking tokens 視為內在的模型能力,但這份分析第一次明確呈現:

  • reasoning 是可調的、可限縮的
  • 當 reasoning 下降時,模型行為會系統性退化
  • 尤其在工程領域,深度思考不是 nice-to-have,而是必要條件

報告提出的建議,我認為極有洞察:

  • 提供 max thinking tier:需要長 reasoning 的使用者,願意額外付費。
  • thinking token 透明度:即使內容被遮住,也該讓使用者知道思考量。
  • 以行為指標作為 canary:例如 stop-hook 觸發次數,作為品質的早期預警。

更深一層反思是:

我們把越來越多複雜任務交給模型,但模型是否有足夠 thinking budget 去思考,是整個系統可靠度的決定性因素。

這份報告從工程實務面直接證明了:

少思考比少算力更可怕。

因為一旦 reasoning 被削減,模型不只變笨,還會變得不可信、不穩定,甚至需要更多成本來「修正因為沒思考而做錯的事情」。

這篇 GitHub issue 的價值在於,它不是抱怨,而是提供了可行、可衡量、可採取行動的證據。我認為這對於未來 AI 工具的設計非常重要:不只是速度或 token,而是思考深度的可用性與穩定性

未來如果要依賴 AI 完成高複雜度工程任務,這會是絕對不能被忽略的核心能力。


Share:

作者: Chun

WordPress 社群貢獻者、開源社群推廣者。專注於 WordPress 外掛開發、網站效能最佳化、伺服器管理,以及 iDempiere 開源 ERP 導入與客製開發。曾參與 WordCamp Taipei 等社群活動,GitHub Arctic Code Vault Contributor。提供資訊顧問、WordPress 開發教學、主機最佳化與企業 ERP 整合服務。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *


文章
Filter
Apply Filters
Mastodon