讀後筆記：從 Meta 的 BitTorrent「公平使用」主張，看 AI 訓練資料戰的下一步

Chun 2026/03/08 發佈留言

本篇文章更新時間：2026/03/08
如有資訊過時或語誤之處，歡迎使用 Contact 功能通知或向一介資男的 LINE 社群反應。
如果本站內容對你有幫助，歡迎贊助支持。

內容目錄

1 Meta 說：用 BitTorrent 上傳盜版書其實是「公平使用」？一場關於 AI 訓練資料的法律攻防

Meta 說：用 BitTorrent 上傳盜版書其實是「公平使用」？一場關於 AI 訓練資料的法律攻防

編輯前言：這篇文章源自我閱讀 Uploading Pirated Books via BitTorrent Qualifies as Fair Use, Meta Argues 的整理與反思。它揭露了一個有趣又敏感的問題：當 AI 訓練需要龐大資料，而資料來源來自影子圖書館、甚至透過 BitTorrent 下載時，什麼才算「合法」？

核心觀點 (Key Takeaways)

Meta 認為：用 BitTorrent 下載影子圖書館的書籍時「被動上傳」的部分，也屬於公平使用的一環。
作者方批評：Meta 在訴訟後期才提出這項新防禦策略，違反程序。
Meta 引述作者自己的證詞：沒有人能指出 Meta 模型有重現其書籍內容，市場傷害也並未出現。

深入解析

這起訴訟是 2023 年由 Richard Kadrey、Sarah Silverman 等知名作者發起，抱怨 Meta 以未授權的方式使用其書籍作為 Llama 的訓練資料。去年法院已經裁定：模型訓練本身屬於公平使用。但問題並未結束。

剩下的關鍵戰場，是「BitTorrent 分發行為」是否構成侵權。

Meta 從影子圖書館（例如 Anna’s Archive）取得資料時使用 BitTorrent，而 BitTorrent 的特性是：下載的同時也會自動上傳部分內容給其他節點。作者方認為，這就是明確且直接的侵權行為。

然而 Meta 在最新的補充說明中提出了一個新主張：

「上傳是 BitTorrent 的技術必然結果，而這些行為是為了取得資料，並服務於其被裁定為公平使用的 AI 訓練目的。」

Meta 強調：影子圖書館的資料只有透過 torrent 才能取得，而且必須一次完整下載大量檔案，因此這是一種「技術上的必要行為」。換句話說，如果訓練本身是公平使用，那取得訓練資料的技術過程也應被視為公平使用的一部分。

這點顯然讓作者陣營極度不滿。他們認為這項辯護來得太晚，且此前 Meta 從未在法院明確提出。但 Meta 隨後反擊，指出自己早在 2025 年的文件中就提過，只是作者忽略了。

更有趣的是，Meta 引述作者自己的證詞來支持自己：所有作者都承認他們不知道 Meta 模型有無產生「明顯抄襲他們作品」的輸出，甚至 Sarah Silverman 在被問到這點時回答：

「It doesn’t matter at all.」

Meta 借此論證：既然沒有市場傷害，也沒有「輸出侵權」，整起訴訟本質上是在挑戰 AI 訓練過程，而那部分早已被法院認定屬於公平使用。

筆者心得與啟發

讀完原文，我最深的感觸是：AI 模型的訓練資料合法性，已經從「內容層面」轉向「取得方式」的法律攻防。

這個案例揭露出幾個重要思考：

第一，AI 廠商為了追求龐大語料，確實會走向「任何能用的資料來源」——包括影子圖書館。這不是道德問題，是競爭壓力導致的必然行為。
第二，公平使用的邊界正被重新定義：如果訓練模型本身是合法的，那取得資料的方式是不是也會被法庭更寬容地看待？
第三，作者對市場傷害證據薄弱，反而讓整個訴訟難以站穩。這凸顯一個現實：內容創作者很難證明「模型看過我的書，導致我賣得更少」。

這場官司會深刻影響後續所有針對 AI 訓練資料的訴訟，尤其是當資料來源來自 shadow libraries 時。就我看來，如果法院最後接受「技術上無法避免」作為公平使用理由，那 AI 公司取得資料的管道可能會被更大幅度正當化。

無論如何，這會是 AI 時代下，內容創作者與科技巨頭之間極具代表性的法律戰。案件尚未落幕，但我們已能看到未來十年的版權新戰場正在成形。

作者: Chun

WordPress 社群貢獻者、開源社群推廣者。專注於 WordPress 外掛開發、網站效能最佳化、伺服器管理，以及 iDempiere 開源 ERP 導入與客製開發。曾參與 WordCamp Taipei 等社群活動，GitHub Arctic Code Vault Contributor。提供資訊顧問、WordPress 開發教學、主機最佳化與企業 ERP 整合服務。

發佈留言

取消回覆

文章

文章