本篇文章更新時間:2026/01/14
如有資訊過時或語誤之處,歡迎使用 Contact 功能通知。
一介資男的 LINE 社群開站囉!歡迎入群聊聊~
如果本站內容對你有幫助,歡迎使用 BFX Pay 加密貨幣 或 新台幣 贊助支持。
內容目錄
Confucius Code Agent:當模型大小不再是勝負關鍵的時候
副標:Meta x Harvard 讓「Scaffolding」站上舞台中心
編輯前言:這篇文章來自《Meta and Harvard Researchers Introduce the Confucius Code Agent (CCA)》,它給了我一個很重要的提醒:AI 工程代理的真正競爭力,未必在模型本身,而是模型之外的「結構設計」。
核心觀點(Key Takeaways)
- 強大的 Scaffolding 可以超越模型大小:Claude 4.5 Sonnet + Confucius Code Agent 的 Resolve@1(52.7)比 Claude 4.5 Opus + 弱 Scaffold(52.0)還高。
- 階層式工作記憶是長程編程任務的關鍵:比起單純的 sliding window,需要一個能整理、壓縮、分區的記憶架構。
- 持久化筆記帶來跨工作階段的記憶效果:有效減少 token、回合數,並提升成功率。
深入解析
Confucius Code Agent(以下簡稱 CCA)並不是單純「換一個模型」或「再加幾個工具」。Meta 與 Harvard 研究團隊的核心創新,是把重點放在模型外的工程結構,包括記憶體設計、工具調度方式,以及自動化的 agent 配置。
文章指出,Confucius SDK 的整體架構圍繞三個面向:
- Agent Experience:模型看到什麼?有多少上下文、工具結果、記憶摘要?
- User Experience:人類工程師能否看懂 trace?是否有安全機制?
- Developer Experience:可觀察性、可設定性、可除錯性。
這裡我特別注意到兩個設計:
1. 階層式工作記憶(Hierarchical Working Memory)
真實世界的 SWE Bench Pro 任務常涉及數十個檔案、數十回合互動。普通的 context window 根本吃不下。於是 CCA 透過「分區記憶」與「壓縮摘要」方式,保留關鍵資訊(例如 error logs、patches、決策理由),同時避免上下文爆炸。
2. 持久化筆記(Persistent Notes)
CCA 會啟動一個專門的代理,把執行過程整理成結構化的 Markdown 筆記,包含:策略、常見錯誤、repo 特性等。這些內容像「長期記憶」,能跨 session 使用。
實驗中令人驚訝的是:第二次使用筆記的結果,甚至能提升 Resolve@1(53 → 54.4)。這代表筆記不是紀錄而已,而是有效學習資產。
更多值得注意的細節
-
工具模組化(Modular Extensions)
團隊測試不同的工具複雜度,發現工具使用策略本身,就是巨大性能槓桿。例如 Claude 4.5 Sonnet 透過更複雜的工具組合,Resolve@1 從 44.0 → 51.6。 -
Meta Agent 自動化代理設計
Confucius SDK 裡有一個 meta agent,會根據自然語言規格,自動組合 prompts、工具與配置,然後在 build-test-improve 回圈中持續優化。換句話說,CCA 本身不是人類手工打造,而是「AI 生成 AI」的產物。
實驗結果亮點
-
SWE Bench Pro:
-
Claude 4.5 Sonnet + CCA:52.7
-
Claude 4.5 Opus + 弱 scaffold:52.0
-
Claude 4.5 Opus + CCA:54.3(全場最佳)
-
SWE Bench Verified:
-
Claude 4 Sonnet + CCA:74.6(顯著大於 SWE Agent 的 66.6)
可以看到:更好的 scaffold,甚至能讓較弱的模型超越更強模型。
筆者心得與啟發
讀完後我最大的感觸是:我們花太多注意力在「模型大小」上,而忽略了模型之外的工程化細節。這篇研究證明,AI 程式代理的真實效能,來自:
- 記憶體怎麼設計?
- 工具如何串接?
- 歷史知識是否能累積下來?
- 可否自動調整自己的策略?
特別是階層式記憶與持久化筆記,讓我想到人類工程師也是依賴「專案筆記」與「心智模型」來解決大型問題。AI 若要匹配人類水平,也勢必需要類似的結構性支撐。
若你正在開發 AI agent 或評估哪種系統能應付長程工程任務,我會強烈建議深入了解 Confucius SDK 的設計理念。這不是單純提高 token 限制能解決的問題,而是要重新思考「AI 如何思考與工作」。
