TimeCapsule LLM:用「時代限定」訓練資料打造真正沒有現代偏見的語言模型

本篇文章更新時間:2026/01/13
如有資訊過時或語誤之處,歡迎使用 Contact 功能通知。
一介資男的 LINE 社群開站囉!歡迎入群聊聊~
如果本站內容對你有幫助,歡迎使用 BFX Pay 加密貨幣新台幣 贊助支持。


讓 AI 不只是模仿歷史,而是回到歷史

一款只吃「1800–1875 年倫敦文本」長大的語言模型,背後的理念與挑戰

編輯前言:過去我們常看到 AI 偽裝成「古人語氣」或「歷史語調」,但多半只是現代模型的角色扮演。TimeCapsule LLM 的作者選擇更激進的做法:以特定年代的文本從零開始訓練模型,讓 AI 的語言風格與知識真正停留在那個時代。

本文整理自作者於 GitHub 上的說明與展示(來源:TimeCapsuleLLM)。

核心觀點 Key Takeaways

  • Selective Temporal Training(STT):所有訓練資料來自同一歷史區間,目的在消除現代概念與偏誤。
  • 從零開始訓練,而非微調:作者認為微調無法抹除 GPT-2 等模型已吸收的現代知識,因此必須重新訓練模型。
  • 模型逐代進步:從 v0 的語句不連貫、v0.5 的維多利亞風格、到 v1 開始能「連結歷史事件」,顯示 STT 具可行性。

深入解析

TimeCapsule LLM 是一個相當「純粹」的實驗:它不追求強大泛用性,而是追求語言與認知的歷史還原。讀完整篇後,我覺得最有趣的,是看到模型版本之間的進步軌跡。

作者的初衷很清楚:「如果我微調現代模型,它永遠不會忘記現代。要讓模型真的像在 1830 年活著,就必須讓它從零開始長大。」

1. 模型版本演進:從胡言亂語到「歷史感」

  • v0:訓練資料只有 187MB,語句大量不通,但語氣確實有 19 世紀味道。
  • v0.5:語法開始穩定,維多利亞時期的句型明顯,雖然仍有 hallucination 與 OCR 污點遺留。
  • v1:真正開始能「連結歷史上下文」,例如在 1834 年的 prompt 中自動提到抗議、Palmerston 等人物。
  • v2mini:雖然 tokenization 有問題,但可以看出語料風格更一致、更接近小說、報紙或法律文件的氛圍。

這些示例都帶著濃濃的古文本腔調,雖不完美,但確實不像現代模型「裝出來」的語調,而是從資料本身自然長出的語言習慣。

2. 資料量逐步擴大:從 187MB 到 90GB

作者投入最多心力的部分其實不是訓練,而是資料整理。

  • v0:187MB
  • v0.5:435MB
  • v1:6.25GB
  • v2 計畫:90GB 的倫敦 1800–1875 文件(目前釋出 15GB)

涵蓋的文本包含:

  • 公共領域書籍
  • 法律文件
  • 報紙
  • 其他 19 世紀倫敦文獻

這些資料經過清洗、去除 Google OCR 噪音、移除現代註解,再製作 tokenizer。這也是為何模型能呈現極高的時代一致性。

3. Selective Temporal Training(STT)的方法學意義

STT 的核心目的很直接:建立一個不受現代知識污染的模型

如作者所說:

「微調不會抹去現代偏見,只有從零開始才能讓模型真正屬於那個時代。」

STT 讓模型的「世界觀」天然地停在 1800–1875,而不是硬把現代模型限制在某個語氣。

筆者心得與啟發

這篇專案讓我最深刻的,是它反思了我們當前 LLM 設計的一個盲點:我們過度依賴微調,但從未真正問過──什麼是模型的原生世界觀?

TimeCapsule LLM 強調的並不是性能,而是「歷史一致性」。這讓我想到幾個可能應用:

  • 歷史研究輔助:讓模型在「不知今日」的前提下思考史料,避免後見之明偏誤。
  • 文學創作工具:創作以維多利亞時代為背景的小說,語感會更貼近真實。
  • 語料學研究:觀察模型如何從特定語料長出語法與風格,對語言變遷研究很有啟發。

如果把這個方法推向極致,我甚至可以想像未來會有:

  • 1920 年紐約版本
  • 清末上海版本
  • 古典拉丁文版本

它們各自擁有「屬於那個時代的知識限制與語感」,而不是現代人的視角。

換句話說,這不只是做一個模型,而是打造「時代膠囊」。

我會持續關注這個專案,尤其是 90GB 的 v2 完整版是否能在語意一致性與歷史推理上邁出新一步。這種從資料到世界觀的設計方式,或許會成為未來 AI 的一種重要分支。


Share:

作者: Chun

資訊愛好人士。主張「人人都該為了偷懶而進步」。期許自己成為斜槓到變進度條 100% 的年輕人。[///////////____36%_________]

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *


文章
Filter
Apply Filters
Mastodon