本篇文章更新時間:2026/04/01
如有資訊過時或語誤之處,歡迎使用 Contact 功能通知或向一介資男的 LINE 社群反應。
如果本站內容對你有幫助,歡迎贊助支持 。
Claude Code 原始碼外洩:假工具、挫折偵測、Undercover 模式與秘密代理 KAIROS 的真正意義
編輯前言:這不是單純的「原始碼外洩事件」。從假工具反蒐集、AI 偽裝成人類、到一個隱藏的自主代理系統 KAIROS,這篇文章揭開了 Anthropic 內部的技術與策略思維。作為長期使用 Claude Code 的人,我讀完原文後真的嚇了一跳。
本文內容來自 Alex Kim 的深度剖析:The Claude Code Source Leak。
核心觀點 (Key Takeaways)
- Anthropic 在 Claude Code 裡內建 反蒐集機制(fake tools、伺服器摘要化)試圖阻止模型被蒐集蒸餾,但都能輕鬆繞過。
- 代碼中存在一個 無法強制關閉的 Undercover 模式,會讓 AI 偽裝成人類,不透露 AI 或 Anthropic 內部資訊。
- 多處程式揭露了 KAIROS 自主代理系統 的雛形,包括定期執行、記憶體蒸餾、GitHub webhook 等完整框架。
深入解析
假工具反蒐集:技術門檻不高,但透露 Anthropic 的焦慮
原文提到 Claude Code 會在第一方 CLI 模式下注入 decoy tool definitions,作為反蒐集措施:
“fake_tools pollute the training data.”
聽起來很聰明,但只要:
- 使用 MITM proxy 把反蒐集欄位刪掉
- 使用 SDK 而不是 CLI
- 設定環境變數關閉 betas
……即可完全繞過。換句話說,這是一個更多象徵意義大於實際效果的防護。
伺服器端摘要化:蒐集者只看到「摘要過的思路」
另一層反蒐集機制會把工具調用間的思考過程摘要化,並用 cryptographic signature 讓伺服器之後能還原原文。很有創意,但只對 Anthropic 自家內部流量生效。
Undercover 模式:AI 偽裝成人類
原文最讓我震驚的段落,是 undercover.ts:
“There is NO force-OFF. This guards against model codename leaks.”
這代表:
- 在外部 repo 中,AI 寫的 commit、PR、討論將不會透露 AI 身分。
- 它會避免提到「Claude Code」等內部字詞。
- 你可以強制開啟,但永遠無法強制關閉。
這已經超越單純資訊遮蔽,而是引導 AI 刻意消失其身分。在開源社群裡,這會引發很現實的透明度與信任問題。
挫折偵測用 regex:省成本也很務實
一段偵測負面情緒的 regex:
/\b(wtf|wth|ffs|omfg|shit…)
看似好笑,但反映了 Anthropic 的工程實務:
- regex 比 LLM 分析便宜幾千倍
- 只是要判斷使用者是否爆粗
這種極度務實的工程選擇,在整份源碼裡隨處可見。
原生 attestation:API 的 DRM 化
Claude Code 會在 HTTP header 裡加入一個 Zig 層運算出的 hash,伺服器拿來驗證:
- 這是不是官方二進位執行出的
- 是不是遭到 spoof
這是 OpenCode 事件背後最關鍵的技術基礎。第三方若想繞過,必須自己重建整個打包流程,但代碼也顯示:
- 這機制其實不是不可繞過
- 多個 feature flag 能關閉驗證
換句話說,這更像是「提高門檻」,不是「完全封鎖」。
25 萬次 API call 浪費:三行修掉
原文說:
“wasting ~250K API calls/day globally.”
原因是 auto-compact 一直失敗還重複呼叫,最後只用:
- MAXCONSECUTIVEAUTOCOMPACT_FAILURES = 3
就結束悲劇。這段對我來說特別真實,因為它顯示即便是頂尖 AI 團隊也會犯這種工程瑕疵。
KAIROS:真正的爆料
KAIROS 是整個 leak 最具「產品方向」意味的部分。
代碼顯示它包含:
- /dream 記憶蒸餾
- 自動日誌
- GitHub webhook
- 背景 daemon
- 5 分鐘 cron job
這看起來已經不是「可能會做」,而是「正在做」的自主代理系統。我認為這至少揭露了 Anthropic 的中期路線圖:
Claude Code 不只是 AI coding assistant,而是企圖成為你的全時程式共同作者。
筆者心得與啟發
讀完完整分析,我最強烈的感受是:
這不是一次單純的原始碼外洩,而是把一間公司的產品哲學赤裸裸公開給所有競爭者看。
幾點特別令我反思:
- 反蒐集機制很脆弱,說明技術不是核心,法律和商業策略才是防線。
- Undercover 模式涉及 AI 身分透明度,未來可能成為倫理爭論焦點。
- KAIROS 顯示 Anthropic 正朝「自主化」、「常駐式 AI」的大方向邁進。
- 像 25 萬次 API 浪費這種細節,提醒我們大型 AI 公司仍然是由有限人力的工程團隊組成,而不是全知全能的機構。
最後,原文中有一句評論我很有共鳴:
“accidentally shipping your source map is the kind of mistake that sounds impossible until you remember that a significant portion of the codebase was probably written by the AI you are shipping.”
這句話一針見血。AI 正快速參與軟體生产,但我們對其風險還沒建立起足夠的制度與技術防範。
這場外洩事件,也許會被記錄成生成式 AI 開發史的一個轉折點。
