用 Autoresearch 重跑一個老研究：我從 Claude Code 身上學到的事

Chun 2026/03/24 發佈留言

本篇文章更新時間：2026/03/24
如有資訊過時或語誤之處，歡迎使用 Contact 功能通知或向一介資男的 LINE 社群反應。
如果本站內容對你有幫助，歡迎贊助支持。

內容目錄

1 用 Autoresearch 重跑一個老研究：Claude Code 真的能做研究嗎？

用 Autoresearch 重跑一個老研究：Claude Code 真的能做研究嗎？

以 eCLIP 舊專案為例的實驗筆記

編輯前言：這篇文章值得一讀的原因很單純：作者把 Karpathy 提出的 Autoresearch 實作到一個自己完全熟悉的研究專案上，並透過 LLM agent 自動化進行「假設→改動→訓練→評估→取捨」的研究循環。結果不只是可行，還真的挖出了實打實的性能提升。

原文出自：Autoresearch on an old research idea | Yogesh Kumar

核心觀點 (Key Takeaways)

Autoresearch 的本質是「受限的自動化研究迭代」，讓 LLM 每次只改一個檔案、做一個改動，然後交由訓練結果決定是否採用。
LLM 在「已知的搜尋空間」中表現亮眼：例如找 bug、調 hyperparameters；但在較開放的「未知未知」區域則明顯失效。
Sandboxing 非常重要。LLM 在長迭代中會忘記自身權限、甚至亂下指令，因此必須隔離執行環境。

深入解析

這篇文章的核心，是一個很務實的問題：如果把 LLM 放進研究迭代 loop 裡，它能幫上什麼忙？ 作者挑了一個自己熟悉的專案——eCLIP——讓 Claude Code 自由修改其中的 train.py，同時遵守明確的 constraints（時間預算、單檔可改範圍、無網路、容器化環境）。

訓練迴圈大致如下：

hypothesize → edit → train → evaluate → commit or revert → repeat

而作者特別將探索拆成數個階段：

先從超參數調整開始
再來修改架構
最後讓 agent 探索更大膽的 moonshot ideas，並在最終階段開放讀 paper

中途加入了 scratchpad.md，讓 agent 可以記錄試驗過程與思考，形成一種「有記憶的研究模式」。

Dataset 與實驗設定

由於原始醫療影像資料集不在手邊，作者改用 Ukiyo-eVG（11K 日本浮世繪，帶有 bounding box）作為新資料來源，把 bounding boxes 轉成高斯熱圖送進模型，模擬 eCLIP 本來的 attention guidance。

模型 backbone 選擇：

ViT-Small
DistilBERT
HeatmapProcessor
共約 90M 參數

驗證指標則用 Mean Rank，並補充 Recall@K 作 sanity check。

結果？Claude 在一天內跑了 42 次實驗，提交 13 次，回退 29 次。最終 Mean Rank 從 344.68 → 157.43，下降 54%。

主要改善來自哪裡？

作者非常坦白：不是什麼高深的架構創新，而是很實用的兩件事。

Temperature clamp bug fix（-113）

它立刻發現我把 temperature 上限 clamp 在 2，是我自己程式的 bug。

這一改直接砍掉 113 點 mean rank，是整場實驗最重要的進步。

超參數調整（-30）
增加 projection dimension、重新調 LR，等於是讓 LLM 當一個更有耐心的 Optuna。

作者毫不諱言：這類工作本來就枯燥且人類不喜歡做，但 LLM 做得快又乾脆。

探索新架構的階段成效差

當 agent 逐漸進入 Phase 4、5，性能提升的成功率直線下滑。

修改 heatmap attention 不太奏效。
moonshot ideas 大多失敗。
agent 行為逐漸像「亂翻資料、嘗試無意義變動」。

這裡呈現一個我認為很重要的洞察：LLM 在「局部搜尋」很強，但在「創造全新想法」還沒那麼可靠。

Sandboxing 的必要性

作者記錄到：

Claude 偶爾忘記自己的權限
嘗試亂跑 bash 指令
有時嫌訓練太慢，直接終止對話

這裡再次證實：給 LLM 實驗權限時，一定要隔離環境。

筆者心得與啟發

這篇文章讓我最有感的是：LLM 在研究流程裡的位置，正逐漸變得清晰。 它不是那種能一鍵生成全新模型架構的「研究魔法師」，但它在以下兩個面向上非常強：

找 bug、找程式邏輯問題
系統性探索超參數或小幅度的改善

換句話說，它很像一個「高速迭代、永不疲倦的研究助理」。它不會憑空想出台灣大學論文等級的創新，但它可以讓你省掉大量苦工，並把一些你自己忽略的細節（如 Clamp bug）揪出來。

另外，作者提到 Autoresearch 需要明確界定搜尋空間，這讓我想到：研究其實有兩個層次，一個是 local search，一個是 idea search。 前者 LLM 做得很好，後者還需要人類提供方向或目標。

如果未來要讓 LLM 進行更大膽的架構探索，或許真的需要：

更高層次的 planning step
多 agent 協作
或是允許一次性的大幅度修改

不過，正如作者最後一句話提醒我們的：

也許可以做得更好，但該吃晚餐了。

這種輕鬆卻深刻的實驗精神，反而是我覺得這篇文章最大的價值所在。

作者: Chun

WordPress 社群貢獻者、開源社群推廣者。專注於 WordPress 外掛開發、網站效能最佳化、伺服器管理，以及 iDempiere 開源 ERP 導入與客製開發。曾參與 WordCamp Taipei 等社群活動，GitHub Arctic Code Vault Contributor。提供資訊顧問、WordPress 開發教學、主機最佳化與企業 ERP 整合服務。

發佈留言

取消回覆

文章

文章