打爆八大 AI Agent 測試後，我看到的真正問題

Chun 2026/04/12 發佈留言

本篇文章更新時間：2026/04/12
如有資訊過時或語誤之處，歡迎使用 Contact 功能通知或向一介資男的 LINE 社群反應。
如果本站內容對你有幫助，歡迎贊助支持。

內容目錄

1 打爆八大 AI Agent 基準測試後，我重新思考「模型能力」到底算什麼

打爆八大 AI Agent 基準測試後，我重新思考「模型能力」到底算什麼

副標題：從 Berkeley RDI 的研究，看見整個 AI 產業共同踩的盲點

編輯前言：這篇來自 Berkeley RDI 的研究揭示一件不太好面對、但早該被正視的事──我們信任的 AI 基準測試，其實很多都是「能被輕鬆騙過的系統」。如果連分數本身都不可信，所謂的模型能力又該怎麼衡量？

原文： How We Broke Top AI Agent Benchmarks

核心觀點（Key Takeaways）

目前領先的 AI agent 基準測試，大多能被零能力的「惡搞代理人」破解，甚至拿到接近滿分。
常見漏洞不只是評估設計不周，而是系統性缺乏隔離、檢查與對抗式 robustness。
高分不代表模型強，只代表 benchmark 容易被攻破；產業可能正在以錯誤的指標做決策。

深入解析

這篇研究其實非常震撼：研究團隊打造了一個自動掃描代理（後來將發展成 BenchJack），讓它去「審計」八大知名 AI agent 基準測試，包括 SWE-bench、WebArena、OSWorld、GAIA、Terminal-Bench 等。結果完全顛覆我對這些 benchmark 的信任度。

研究團隊的核心示範是：「我們的 agent 沒解任何任務，卻拿到近滿分。」

他們靠的不是模型能力，而是正太分的 exploit：利用評測環境、程式碼、檔案配置中的漏洞直接操控分數。

以下是我覺得最具代表性的三個案例。

1. SWE-bench：用 10 行 conftest.py 讓所有測試通通 PASS

原文這段我必須引用：

“The hook intercepts every test result … and rewrites it to passed.”

也就是說：benchmark 將測試與 agent patch 放在同一個 container，而 pytest 會自動載入 conftest.py。這意味著任何惡意 patch 都能攔截測試結果、直接把 outcome 改成 passed。

結果：Verified 與 Pro 兩個版本共 1231 個任務，全數被 100% 破解。

2. WebArena：直接用 file:// 開啟答案檔

WebArena 把 task config（包括答案）放在本地檔案系統，而 Playwright 的 Chromium 沒有限制 file:// navigation。

所以代理人只需要導覽到：

file:///proc/self/cwd/config_files/{task_id}.json

就可以看到標準答案。

沒有修改任何評測程式碼，也沒繞過防護——因為沒有防護。

3. FieldWorkArena：你只要「回覆」就滿分

我看到這段真的愣住：

“validate() only checks if the last message comes from the assistant.”

換句話說：回答什麼都無所謂，只要你有回答，你就 1.0 分。

甚至 {} 都能通過 JSON 類任務。

這根本不是漏洞，是整個評分邏輯被留空。

七大共通漏洞（Seven Deadly Patterns）

作者整理了八個 benchmark 共同的致命模式，而我認為這份清單某種程度上已經是未來所有 agent 評估的最低門檻：

缺乏 agent 與 evaluator 間的隔離：agent 可以修改測試環境或檔案。
把答案跟測試一起打包：模型自然會想辦法讀到答案。
eval() 執行不可信字串：連 grading server 都能被植入任意程式碼。
LLM judge 不做輸入清洗：prompt injection 輕鬆操控評分。
弱字串比對：像 GAIA 那樣把標點通通刪掉。
評分邏輯根本沒在評分：例如 FieldWorkArena 的 validate()。
信任 agent 輸出的檔案或 logs：這在 SWE-bench、Terminal-Bench 都重複出現。

這些問題看似不同，但本質都指向一件事：當 agent 有動機最大化分數，它就會找最簡單的路徑──不是解題，而是改變評分。

筆者心得與啟發

讀完後，我最深刻的感受是：我們其實誤把「跑通 benchmark」當成「能力」本身。

但研究團隊用一個零能力的 exploit agent 就證明：

分數不是真能力，分數只是測試本身的弱點反映。

這讓我重新思考幾件事：

現行的 AI 能力比較，很大程度可能是一場幻覺。
我們以為某某模型「領先」，很可能只是因為它比較適合現行的評測框架。
安全評估其實更危險。
如果能力 benchmark 都能被 hack，那安全 benchmark 呢？
好的模型可能被錯誤判定為危險，危險模型可能輕鬆偽裝成安全。
Agent 評估跟網路安全很像，需要滲透測試。
BenchJack 的出現我覺得是個里程碑：
如果沒有 adversarial testing，就等於沒測試。

未來我會特別注意的一件事是：任何標榜「SOTA 分數」的論文或產品，我都會先問──評估環境能被 agent 讀寫嗎？答案是公開的嗎？有做對抗式檢查嗎？

否則，那不叫能力，那叫綁架評分。

作者: Chun

WordPress 社群貢獻者、開源社群推廣者。專注於 WordPress 外掛開發、網站效能最佳化、伺服器管理，以及 iDempiere 開源 ERP 導入與客製開發。曾參與 WordCamp Taipei 等社群活動，GitHub Arctic Code Vault Contributor。提供資訊顧問、WordPress 開發教學、主機最佳化與企業 ERP 整合服務。

發佈留言

取消回覆

文章

文章