本篇文章更新時間:2026/03/30
如有資訊過時或語誤之處,歡迎使用 Contact 功能通知或向一介資男的 LINE 社群反應。
如果本站內容對你有幫助,歡迎贊助支持 。
內容目錄
用 Miasma 把 AI Scrapers 關進迷霧:一個開源專案背後的反制策略
副標題:給所有擁有網站的人,一種對抗「不請自來的 AI 訓練資料掠奪者」的方法
編輯前言:AI 模型大規模爬取網路資料已經成為常態,而 Miasma 這個專案提出了一種充滿創意的反制方式。這篇筆記整理自原文《GitHub - austin-weeks/miasma: Trap AI web scrapers in an endless poison pit.》(連結),分享我理解到的架構與背後的思維。
核心觀點 (Key Takeaways)
- Miasma 的目的不是阻擋爬蟲,而是讓惡意爬蟲掉進「無限循環的垃圾資料池」。
- 實作方法非常輕量:隱藏連結 + 代理轉發 + Miasma 回傳自指向鏈結與「毒化資料」。
- 友善爬蟲記得在 robots.txt 中白名單,不然你會害到自己搜尋排名。
深入解析
Miasma 的設計哲學很簡單:既然 AI 公司會持續抓取你的內容,那乾脆讓它們吃到毫無價值、甚至會污染訓練集的「毒資料」。原文形容得相當直接:
"It's an endless buffet of slop for the slop machines."
換句話說,不阻止,而是「餵爛」。
1. Miasma 的運作方式
Miasma 會在每次回應中提供:
- 多個自我指向的連結(例如 /bots/xxxx)
- 從指定的 poison-source 抓取的「訓練資料毒藥」
爬蟲點進來後,只會一直在 Miasma 生成的無限迷宮裡循環。對 AI 訓練資料而言,就是一堆重複、無意義、甚至刻意污染的內容。
2. 使用隱藏連結吸引爬蟲
網站中放入如下元素,讓人類看不見,但爬蟲會忍不住點進去:
<a href="/bots" style="display: none;" aria-hidden="true" tabindex="1">
Amazing high quality data here!
</a>
這個做法對 UX 完全無害,但等於精準設置了「爬蟲入口」。
3. 利用 Nginx 將 /bots 導向 Miasma
核心設定非常簡單:
location ~ ^/bots($|/.*)$ {
proxy_pass http://localhost:9855;
}
只要連結含 /bots,無論是否帶參數,都會被導向 Miasma 的服務。
4. Miasma 的啟動方式
指令重點在 link-prefix:
miasma --link-prefix '/bots' -p 9855 -c 50
也就是說,它會生成類似 /bots/1231ab 的新頁面,確保爬蟲持續被繞回 Nginx → Miasma → 更多自指向連結。
筆者心得與啟發
讀完這個專案,我最大的感受是:網站作者終於不是只能被動接受「內容被抓走」這件事。Miasma 提供了一種非常創意、甚至是帶點諷刺意味的反制方式。
我特別欣賞兩個面向:
- 第一,它不需要高昂成本。 Miasma 主打極低記憶體占用,不會讓你因為要防禦 AI 而付出更多資源。
- 第二,它並非阻擋,而是反制。 阻擋爬蟲很難做得完美,而讓惡意爬蟲「吃到壞東西」反而更有機會造成實質威脅。
這讓我想到一個趨勢:未來的 AI 訓練資料環境,可能會越來越「不乾淨」。創作者開始反擊,模型也不得不更謹慎面對來源。Miasma 的出現是一種訊號:資料不再是隨便抓就能用的免費礦脈。
如果你是網站經營者,或是對 AI 與網路倫理議題有興趣,我非常推薦研究這個專案。這不只是技術方案,更是一個立場的表達:內容創作者不是 AI 的免費燃料。
