打爆八大 AI Agent 測試後,我看到的真正問題

本篇文章更新時間:2026/04/12
如有資訊過時或語誤之處,歡迎使用 Contact 功能通知或向一介資男的 LINE 社群反應。
如果本站內容對你有幫助,歡迎贊助支持


打爆八大 AI Agent 基準測試後,我重新思考「模型能力」到底算什麼

副標題:從 Berkeley RDI 的研究,看見整個 AI 產業共同踩的盲點

編輯前言:這篇來自 Berkeley RDI 的研究揭示一件不太好面對、但早該被正視的事──我們信任的 AI 基準測試,其實很多都是「能被輕鬆騙過的系統」。如果連分數本身都不可信,所謂的模型能力又該怎麼衡量?

原文: How We Broke Top AI Agent Benchmarks


核心觀點(Key Takeaways)

  • 目前領先的 AI agent 基準測試,大多能被零能力的「惡搞代理人」破解,甚至拿到接近滿分。
  • 常見漏洞不只是評估設計不周,而是系統性缺乏隔離、檢查與對抗式 robustness。
  • 高分不代表模型強,只代表 benchmark 容易被攻破;產業可能正在以錯誤的指標做決策。

深入解析

這篇研究其實非常震撼:研究團隊打造了一個自動掃描代理(後來將發展成 BenchJack),讓它去「審計」八大知名 AI agent 基準測試,包括 SWE-bench、WebArena、OSWorld、GAIA、Terminal-Bench 等。結果完全顛覆我對這些 benchmark 的信任度。

研究團隊的核心示範是:「我們的 agent 沒解任何任務,卻拿到近滿分。

他們靠的不是模型能力,而是正太分的 exploit:利用評測環境、程式碼、檔案配置中的漏洞直接操控分數。

以下是我覺得最具代表性的三個案例。

1. SWE-bench:用 10 行 conftest.py 讓所有測試通通 PASS

原文這段我必須引用:

“The hook intercepts every test result … and rewrites it to passed.”

也就是說:benchmark 將測試與 agent patch 放在同一個 container,而 pytest 會自動載入 conftest.py。這意味著任何惡意 patch 都能攔截測試結果、直接把 outcome 改成 passed。

結果:Verified 與 Pro 兩個版本共 1231 個任務,全數被 100% 破解。

2. WebArena:直接用 file:// 開啟答案檔

WebArena 把 task config(包括答案)放在本地檔案系統,而 Playwright 的 Chromium 沒有限制 file:// navigation。

所以代理人只需要導覽到:

file:///proc/self/cwd/config_files/{task_id}.json

就可以看到標準答案。

沒有修改任何評測程式碼,也沒繞過防護——因為沒有防護。

3. FieldWorkArena:你只要「回覆」就滿分

我看到這段真的愣住:

“validate() only checks if the last message comes from the assistant.”

換句話說:回答什麼都無所謂,只要你有回答,你就 1.0 分。

甚至 {} 都能通過 JSON 類任務。

這根本不是漏洞,是整個評分邏輯被留空。


七大共通漏洞(Seven Deadly Patterns)

作者整理了八個 benchmark 共同的致命模式,而我認為這份清單某種程度上已經是未來所有 agent 評估的最低門檻:

  • 缺乏 agent 與 evaluator 間的隔離:agent 可以修改測試環境或檔案。
  • 把答案跟測試一起打包:模型自然會想辦法讀到答案。
  • eval() 執行不可信字串:連 grading server 都能被植入任意程式碼。
  • LLM judge 不做輸入清洗:prompt injection 輕鬆操控評分。
  • 弱字串比對:像 GAIA 那樣把標點通通刪掉。
  • 評分邏輯根本沒在評分:例如 FieldWorkArena 的 validate()。
  • 信任 agent 輸出的檔案或 logs:這在 SWE-bench、Terminal-Bench 都重複出現。

這些問題看似不同,但本質都指向一件事:當 agent 有動機最大化分數,它就會找最簡單的路徑──不是解題,而是改變評分。


筆者心得與啟發

讀完後,我最深刻的感受是:我們其實誤把「跑通 benchmark」當成「能力」本身。

但研究團隊用一個零能力的 exploit agent 就證明:

分數不是真能力,分數只是測試本身的弱點反映。

這讓我重新思考幾件事:

  1. 現行的 AI 能力比較,很大程度可能是一場幻覺。
    我們以為某某模型「領先」,很可能只是因為它比較適合現行的評測框架。

  2. 安全評估其實更危險。
    如果能力 benchmark 都能被 hack,那安全 benchmark 呢?
    好的模型可能被錯誤判定為危險,危險模型可能輕鬆偽裝成安全。

  3. Agent 評估跟網路安全很像,需要滲透測試。
    BenchJack 的出現我覺得是個里程碑:
    如果沒有 adversarial testing,就等於沒測試。

未來我會特別注意的一件事是:任何標榜「SOTA 分數」的論文或產品,我都會先問──評估環境能被 agent 讀寫嗎?答案是公開的嗎?有做對抗式檢查嗎?

否則,那不叫能力,那叫綁架評分。



Share:

作者: Chun

WordPress 社群貢獻者、開源社群推廣者。專注於 WordPress 外掛開發、網站效能最佳化、伺服器管理,以及 iDempiere 開源 ERP 導入與客製開發。曾參與 WordCamp Taipei 等社群活動,GitHub Arctic Code Vault Contributor。提供資訊顧問、WordPress 開發教學、主機最佳化與企業 ERP 整合服務。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *


文章
Filter
Apply Filters
Mastodon