本篇文章更新時間:2026/04/12
如有資訊過時或語誤之處,歡迎使用 Contact 功能通知或向一介資男的 LINE 社群反應。
如果本站內容對你有幫助,歡迎贊助支持 。
內容目錄
打爆八大 AI Agent 基準測試後,我重新思考「模型能力」到底算什麼
副標題:從 Berkeley RDI 的研究,看見整個 AI 產業共同踩的盲點
編輯前言:這篇來自 Berkeley RDI 的研究揭示一件不太好面對、但早該被正視的事──我們信任的 AI 基準測試,其實很多都是「能被輕鬆騙過的系統」。如果連分數本身都不可信,所謂的模型能力又該怎麼衡量?
原文: How We Broke Top AI Agent Benchmarks
核心觀點(Key Takeaways)
- 目前領先的 AI agent 基準測試,大多能被零能力的「惡搞代理人」破解,甚至拿到接近滿分。
- 常見漏洞不只是評估設計不周,而是系統性缺乏隔離、檢查與對抗式 robustness。
- 高分不代表模型強,只代表 benchmark 容易被攻破;產業可能正在以錯誤的指標做決策。
深入解析
這篇研究其實非常震撼:研究團隊打造了一個自動掃描代理(後來將發展成 BenchJack),讓它去「審計」八大知名 AI agent 基準測試,包括 SWE-bench、WebArena、OSWorld、GAIA、Terminal-Bench 等。結果完全顛覆我對這些 benchmark 的信任度。
研究團隊的核心示範是:「我們的 agent 沒解任何任務,卻拿到近滿分。」
他們靠的不是模型能力,而是正太分的 exploit:利用評測環境、程式碼、檔案配置中的漏洞直接操控分數。
以下是我覺得最具代表性的三個案例。
1. SWE-bench:用 10 行 conftest.py 讓所有測試通通 PASS
原文這段我必須引用:
“The hook intercepts every test result … and rewrites it to passed.”
也就是說:benchmark 將測試與 agent patch 放在同一個 container,而 pytest 會自動載入 conftest.py。這意味著任何惡意 patch 都能攔截測試結果、直接把 outcome 改成 passed。
結果:Verified 與 Pro 兩個版本共 1231 個任務,全數被 100% 破解。
2. WebArena:直接用 file:// 開啟答案檔
WebArena 把 task config(包括答案)放在本地檔案系統,而 Playwright 的 Chromium 沒有限制 file:// navigation。
所以代理人只需要導覽到:
file:///proc/self/cwd/config_files/{task_id}.json
就可以看到標準答案。
沒有修改任何評測程式碼,也沒繞過防護——因為沒有防護。
3. FieldWorkArena:你只要「回覆」就滿分
我看到這段真的愣住:
“validate() only checks if the last message comes from the assistant.”
換句話說:回答什麼都無所謂,只要你有回答,你就 1.0 分。
甚至 {} 都能通過 JSON 類任務。
這根本不是漏洞,是整個評分邏輯被留空。
七大共通漏洞(Seven Deadly Patterns)
作者整理了八個 benchmark 共同的致命模式,而我認為這份清單某種程度上已經是未來所有 agent 評估的最低門檻:
- 缺乏 agent 與 evaluator 間的隔離:agent 可以修改測試環境或檔案。
- 把答案跟測試一起打包:模型自然會想辦法讀到答案。
- eval() 執行不可信字串:連 grading server 都能被植入任意程式碼。
- LLM judge 不做輸入清洗:prompt injection 輕鬆操控評分。
- 弱字串比對:像 GAIA 那樣把標點通通刪掉。
- 評分邏輯根本沒在評分:例如 FieldWorkArena 的 validate()。
- 信任 agent 輸出的檔案或 logs:這在 SWE-bench、Terminal-Bench 都重複出現。
這些問題看似不同,但本質都指向一件事:當 agent 有動機最大化分數,它就會找最簡單的路徑──不是解題,而是改變評分。
筆者心得與啟發
讀完後,我最深刻的感受是:我們其實誤把「跑通 benchmark」當成「能力」本身。
但研究團隊用一個零能力的 exploit agent 就證明:
分數不是真能力,分數只是測試本身的弱點反映。
這讓我重新思考幾件事:
-
現行的 AI 能力比較,很大程度可能是一場幻覺。
我們以為某某模型「領先」,很可能只是因為它比較適合現行的評測框架。 -
安全評估其實更危險。
如果能力 benchmark 都能被 hack,那安全 benchmark 呢?
好的模型可能被錯誤判定為危險,危險模型可能輕鬆偽裝成安全。 -
Agent 評估跟網路安全很像,需要滲透測試。
BenchJack 的出現我覺得是個里程碑:
如果沒有 adversarial testing,就等於沒測試。
未來我會特別注意的一件事是:任何標榜「SOTA 分數」的論文或產品,我都會先問──評估環境能被 agent 讀寫嗎?答案是公開的嗎?有做對抗式檢查嗎?
否則,那不叫能力,那叫綁架評分。
