本篇文章更新時間:2026/01/13
如有資訊過時或語誤之處,歡迎使用 Contact 功能通知。
一介資男的 LINE 社群開站囉!歡迎入群聊聊~
如果本站內容對你有幫助,歡迎使用 BFX Pay 加密貨幣 或 新台幣 贊助支持。
內容目錄
讓 AI 不只是模仿歷史,而是回到歷史
一款只吃「1800–1875 年倫敦文本」長大的語言模型,背後的理念與挑戰
編輯前言:過去我們常看到 AI 偽裝成「古人語氣」或「歷史語調」,但多半只是現代模型的角色扮演。TimeCapsule LLM 的作者選擇更激進的做法:以特定年代的文本從零開始訓練模型,讓 AI 的語言風格與知識真正停留在那個時代。
本文整理自作者於 GitHub 上的說明與展示(來源:TimeCapsuleLLM)。
核心觀點 Key Takeaways
- Selective Temporal Training(STT):所有訓練資料來自同一歷史區間,目的在消除現代概念與偏誤。
- 從零開始訓練,而非微調:作者認為微調無法抹除 GPT-2 等模型已吸收的現代知識,因此必須重新訓練模型。
- 模型逐代進步:從 v0 的語句不連貫、v0.5 的維多利亞風格、到 v1 開始能「連結歷史事件」,顯示 STT 具可行性。
深入解析
TimeCapsule LLM 是一個相當「純粹」的實驗:它不追求強大泛用性,而是追求語言與認知的歷史還原。讀完整篇後,我覺得最有趣的,是看到模型版本之間的進步軌跡。
作者的初衷很清楚:「如果我微調現代模型,它永遠不會忘記現代。要讓模型真的像在 1830 年活著,就必須讓它從零開始長大。」
1. 模型版本演進:從胡言亂語到「歷史感」
- v0:訓練資料只有 187MB,語句大量不通,但語氣確實有 19 世紀味道。
- v0.5:語法開始穩定,維多利亞時期的句型明顯,雖然仍有 hallucination 與 OCR 污點遺留。
- v1:真正開始能「連結歷史上下文」,例如在 1834 年的 prompt 中自動提到抗議、Palmerston 等人物。
- v2mini:雖然 tokenization 有問題,但可以看出語料風格更一致、更接近小說、報紙或法律文件的氛圍。
這些示例都帶著濃濃的古文本腔調,雖不完美,但確實不像現代模型「裝出來」的語調,而是從資料本身自然長出的語言習慣。
2. 資料量逐步擴大:從 187MB 到 90GB
作者投入最多心力的部分其實不是訓練,而是資料整理。
- v0:187MB
- v0.5:435MB
- v1:6.25GB
- v2 計畫:90GB 的倫敦 1800–1875 文件(目前釋出 15GB)
涵蓋的文本包含:
- 公共領域書籍
- 法律文件
- 報紙
- 其他 19 世紀倫敦文獻
這些資料經過清洗、去除 Google OCR 噪音、移除現代註解,再製作 tokenizer。這也是為何模型能呈現極高的時代一致性。
3. Selective Temporal Training(STT)的方法學意義
STT 的核心目的很直接:建立一個不受現代知識污染的模型。
如作者所說:
「微調不會抹去現代偏見,只有從零開始才能讓模型真正屬於那個時代。」
STT 讓模型的「世界觀」天然地停在 1800–1875,而不是硬把現代模型限制在某個語氣。
筆者心得與啟發
這篇專案讓我最深刻的,是它反思了我們當前 LLM 設計的一個盲點:我們過度依賴微調,但從未真正問過──什麼是模型的原生世界觀?
TimeCapsule LLM 強調的並不是性能,而是「歷史一致性」。這讓我想到幾個可能應用:
- 歷史研究輔助:讓模型在「不知今日」的前提下思考史料,避免後見之明偏誤。
- 文學創作工具:創作以維多利亞時代為背景的小說,語感會更貼近真實。
- 語料學研究:觀察模型如何從特定語料長出語法與風格,對語言變遷研究很有啟發。
如果把這個方法推向極致,我甚至可以想像未來會有:
- 1920 年紐約版本
- 清末上海版本
- 古典拉丁文版本
它們各自擁有「屬於那個時代的知識限制與語感」,而不是現代人的視角。
換句話說,這不只是做一個模型,而是打造「時代膠囊」。
我會持續關注這個專案,尤其是 90GB 的 v2 完整版是否能在語意一致性與歷史推理上邁出新一步。這種從資料到世界觀的設計方式,或許會成為未來 AI 的一種重要分支。
