Confucius Code Agent:當軟體工程代理不再靠「大模型」取勝

本篇文章更新時間:2026/01/14
如有資訊過時或語誤之處,歡迎使用 Contact 功能通知。
一介資男的 LINE 社群開站囉!歡迎入群聊聊~
如果本站內容對你有幫助,歡迎使用 BFX Pay 加密貨幣新台幣 贊助支持。


Confucius Code Agent:當模型大小不再是勝負關鍵的時候

副標:Meta x Harvard 讓「Scaffolding」站上舞台中心

編輯前言:這篇文章來自《Meta and Harvard Researchers Introduce the Confucius Code Agent (CCA)》,它給了我一個很重要的提醒:AI 工程代理的真正競爭力,未必在模型本身,而是模型之外的「結構設計」。

核心觀點(Key Takeaways)

  • 強大的 Scaffolding 可以超越模型大小:Claude 4.5 Sonnet + Confucius Code Agent 的 Resolve@1(52.7)比 Claude 4.5 Opus + 弱 Scaffold(52.0)還高。
  • 階層式工作記憶是長程編程任務的關鍵:比起單純的 sliding window,需要一個能整理、壓縮、分區的記憶架構。
  • 持久化筆記帶來跨工作階段的記憶效果:有效減少 token、回合數,並提升成功率。

深入解析

Confucius Code Agent(以下簡稱 CCA)並不是單純「換一個模型」或「再加幾個工具」。Meta 與 Harvard 研究團隊的核心創新,是把重點放在模型外的工程結構,包括記憶體設計、工具調度方式,以及自動化的 agent 配置。

文章指出,Confucius SDK 的整體架構圍繞三個面向:

  • Agent Experience:模型看到什麼?有多少上下文、工具結果、記憶摘要?
  • User Experience:人類工程師能否看懂 trace?是否有安全機制?
  • Developer Experience:可觀察性、可設定性、可除錯性。

這裡我特別注意到兩個設計:

1. 階層式工作記憶(Hierarchical Working Memory)

真實世界的 SWE Bench Pro 任務常涉及數十個檔案、數十回合互動。普通的 context window 根本吃不下。於是 CCA 透過「分區記憶」與「壓縮摘要」方式,保留關鍵資訊(例如 error logs、patches、決策理由),同時避免上下文爆炸。

2. 持久化筆記(Persistent Notes)

CCA 會啟動一個專門的代理,把執行過程整理成結構化的 Markdown 筆記,包含:策略、常見錯誤、repo 特性等。這些內容像「長期記憶」,能跨 session 使用。

實驗中令人驚訝的是:第二次使用筆記的結果,甚至能提升 Resolve@1(53 → 54.4)。這代表筆記不是紀錄而已,而是有效學習資產。

更多值得注意的細節

  • 工具模組化(Modular Extensions)
    團隊測試不同的工具複雜度,發現工具使用策略本身,就是巨大性能槓桿。例如 Claude 4.5 Sonnet 透過更複雜的工具組合,Resolve@1 從 44.0 → 51.6。

  • Meta Agent 自動化代理設計
    Confucius SDK 裡有一個 meta agent,會根據自然語言規格,自動組合 prompts、工具與配置,然後在 build-test-improve 回圈中持續優化。

    換句話說,CCA 本身不是人類手工打造,而是「AI 生成 AI」的產物。

實驗結果亮點

  • SWE Bench Pro:

  • Claude 4.5 Sonnet + CCA:52.7

  • Claude 4.5 Opus + 弱 scaffold:52.0

  • Claude 4.5 Opus + CCA:54.3(全場最佳)

  • SWE Bench Verified:

  • Claude 4 Sonnet + CCA:74.6(顯著大於 SWE Agent 的 66.6)

可以看到:更好的 scaffold,甚至能讓較弱的模型超越更強模型。

筆者心得與啟發

讀完後我最大的感觸是:我們花太多注意力在「模型大小」上,而忽略了模型之外的工程化細節。這篇研究證明,AI 程式代理的真實效能,來自:

  • 記憶體怎麼設計?
  • 工具如何串接?
  • 歷史知識是否能累積下來?
  • 可否自動調整自己的策略?

特別是階層式記憶與持久化筆記,讓我想到人類工程師也是依賴「專案筆記」與「心智模型」來解決大型問題。AI 若要匹配人類水平,也勢必需要類似的結構性支撐。

若你正在開發 AI agent 或評估哪種系統能應付長程工程任務,我會強烈建議深入了解 Confucius SDK 的設計理念。這不是單純提高 token 限制能解決的問題,而是要重新思考「AI 如何思考與工作」。



Share:

作者: Chun

資訊愛好人士。主張「人人都該為了偷懶而進步」。期許自己成為斜槓到變進度條 100% 的年輕人。[///////////____36%_________]

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *


文章
Filter
Apply Filters
Mastodon