用「任務長度」重新看懂 AI 能力:一個更貼近現實的衡量方式

編輯前言:這篇來自 METR 的研究提出一個我認為格外務實的觀點:與其看 AI 考試分數或 benchmark,不如直接測量 AI 能不能完成「在人類需要花多少時間才能完成的任務」。這視角解決了很多我們對 AI 能力的誤解。原文來源:Measuring AI Ability to Complete …

文章
Filter
Apply Filters
Mastodon