本篇文章更新時間:2026/03/24
如有資訊過時或語誤之處,歡迎使用 Contact 功能通知或向一介資男的 LINE 社群反應。
如果本站內容對你有幫助,歡迎贊助支持 。
內容目錄
用 Autoresearch 重跑一個老研究:Claude Code 真的能做研究嗎?
以 eCLIP 舊專案為例的實驗筆記
編輯前言:這篇文章值得一讀的原因很單純:作者把 Karpathy 提出的 Autoresearch 實作到一個自己完全熟悉的研究專案上,並透過 LLM agent 自動化進行「假設→改動→訓練→評估→取捨」的研究循環。結果不只是可行,還真的挖出了實打實的性能提升。
原文出自:Autoresearch on an old research idea | Yogesh Kumar
核心觀點 (Key Takeaways)
- Autoresearch 的本質是「受限的自動化研究迭代」,讓 LLM 每次只改一個檔案、做一個改動,然後交由訓練結果決定是否採用。
- LLM 在「已知的搜尋空間」中表現亮眼:例如找 bug、調 hyperparameters;但在較開放的「未知未知」區域則明顯失效。
- Sandboxing 非常重要。LLM 在長迭代中會忘記自身權限、甚至亂下指令,因此必須隔離執行環境。
深入解析
這篇文章的核心,是一個很務實的問題:如果把 LLM 放進研究迭代 loop 裡,它能幫上什麼忙? 作者挑了一個自己熟悉的專案——eCLIP——讓 Claude Code 自由修改其中的 train.py,同時遵守明確的 constraints(時間預算、單檔可改範圍、無網路、容器化環境)。
訓練迴圈大致如下:
hypothesize → edit → train → evaluate → commit or revert → repeat
而作者特別將探索拆成數個階段:
- 先從超參數調整開始
- 再來修改架構
- 最後讓 agent 探索更大膽的 moonshot ideas,並在最終階段開放讀 paper
中途加入了 scratchpad.md,讓 agent 可以記錄試驗過程與思考,形成一種「有記憶的研究模式」。
Dataset 與實驗設定
由於原始醫療影像資料集不在手邊,作者改用 Ukiyo-eVG(11K 日本浮世繪,帶有 bounding box)作為新資料來源,把 bounding boxes 轉成高斯熱圖送進模型,模擬 eCLIP 本來的 attention guidance。
模型 backbone 選擇:
- ViT-Small
- DistilBERT
- HeatmapProcessor
- 共約 90M 參數
驗證指標則用 Mean Rank,並補充 Recall@K 作 sanity check。
結果?Claude 在一天內跑了 42 次實驗,提交 13 次,回退 29 次。最終 Mean Rank 從 344.68 → 157.43,下降 54%。
主要改善來自哪裡?
作者非常坦白:不是什麼高深的架構創新,而是很實用的兩件事。
- Temperature clamp bug fix(-113)
它立刻發現我把 temperature 上限 clamp 在 2,是我自己程式的 bug。
這一改直接砍掉 113 點 mean rank,是整場實驗最重要的進步。
- 超參數調整(-30)
增加 projection dimension、重新調 LR,等於是讓 LLM 當一個更有耐心的 Optuna。
作者毫不諱言:這類工作本來就枯燥且人類不喜歡做,但 LLM 做得快又乾脆。
探索新架構的階段成效差
當 agent 逐漸進入 Phase 4、5,性能提升的成功率直線下滑。
- 修改 heatmap attention 不太奏效。
- moonshot ideas 大多失敗。
- agent 行為逐漸像「亂翻資料、嘗試無意義變動」。
這裡呈現一個我認為很重要的洞察:LLM 在「局部搜尋」很強,但在「創造全新想法」還沒那麼可靠。
Sandboxing 的必要性
作者記錄到:
- Claude 偶爾忘記自己的權限
- 嘗試亂跑 bash 指令
- 有時嫌訓練太慢,直接終止對話
這裡再次證實:給 LLM 實驗權限時,一定要隔離環境。
筆者心得與啟發
這篇文章讓我最有感的是:LLM 在研究流程裡的位置,正逐漸變得清晰。 它不是那種能一鍵生成全新模型架構的「研究魔法師」,但它在以下兩個面向上非常強:
- 找 bug、找程式邏輯問題
- 系統性探索超參數或小幅度的改善
換句話說,它很像一個「高速迭代、永不疲倦的研究助理」。它不會憑空想出台灣大學論文等級的創新,但它可以讓你省掉大量苦工,並把一些你自己忽略的細節(如 Clamp bug)揪出來。
另外,作者提到 Autoresearch 需要明確界定搜尋空間,這讓我想到:研究其實有兩個層次,一個是 local search,一個是 idea search。 前者 LLM 做得很好,後者還需要人類提供方向或目標。
如果未來要讓 LLM 進行更大膽的架構探索,或許真的需要:
- 更高層次的 planning step
- 多 agent 協作
- 或是允許一次性的大幅度修改
不過,正如作者最後一句話提醒我們的:
也許可以做得更好,但該吃晚餐了。
這種輕鬆卻深刻的實驗精神,反而是我覺得這篇文章最大的價值所在。
