TimeCapsule LLM：用「時代限定」訓練資料打造真正沒有現代偏見的語言模型

本篇文章更新時間：2026/01/13
如有資訊過時或語誤之處，歡迎使用 Contact 功能通知或向一介資男的 LINE 社群反應。
如果本站內容對你有幫助，歡迎贊助支持。

內容目錄

1 讓 AI 不只是模仿歷史，而是回到歷史

讓 AI 不只是模仿歷史，而是回到歷史

一款只吃「1800–1875 年倫敦文本」長大的語言模型，背後的理念與挑戰

編輯前言：過去我們常看到 AI 偽裝成「古人語氣」或「歷史語調」，但多半只是現代模型的角色扮演。TimeCapsule LLM 的作者選擇更激進的做法：以特定年代的文本從零開始訓練模型，讓 AI 的語言風格與知識真正停留在那個時代。

本文整理自作者於 GitHub 上的說明與展示（來源：TimeCapsuleLLM）。

核心觀點 Key Takeaways

Selective Temporal Training（STT）：所有訓練資料來自同一歷史區間，目的在消除現代概念與偏誤。
從零開始訓練，而非微調：作者認為微調無法抹除 GPT-2 等模型已吸收的現代知識，因此必須重新訓練模型。
模型逐代進步：從 v0 的語句不連貫、v0.5 的維多利亞風格、到 v1 開始能「連結歷史事件」，顯示 STT 具可行性。

深入解析

TimeCapsule LLM 是一個相當「純粹」的實驗：它不追求強大泛用性，而是追求語言與認知的歷史還原。讀完整篇後，我覺得最有趣的，是看到模型版本之間的進步軌跡。

作者的初衷很清楚：「如果我微調現代模型，它永遠不會忘記現代。要讓模型真的像在 1830 年活著，就必須讓它從零開始長大。」

1. 模型版本演進：從胡言亂語到「歷史感」

v0：訓練資料只有 187MB，語句大量不通，但語氣確實有 19 世紀味道。
v0.5：語法開始穩定，維多利亞時期的句型明顯，雖然仍有 hallucination 與 OCR 污點遺留。
v1：真正開始能「連結歷史上下文」，例如在 1834 年的 prompt 中自動提到抗議、Palmerston 等人物。
v2mini：雖然 tokenization 有問題，但可以看出語料風格更一致、更接近小說、報紙或法律文件的氛圍。

這些示例都帶著濃濃的古文本腔調，雖不完美，但確實不像現代模型「裝出來」的語調，而是從資料本身自然長出的語言習慣。

2. 資料量逐步擴大：從 187MB 到 90GB

作者投入最多心力的部分其實不是訓練，而是資料整理。

v0：187MB
v0.5：435MB
v1：6.25GB
v2 計畫：90GB 的倫敦 1800–1875 文件（目前釋出 15GB）

涵蓋的文本包含：

公共領域書籍
法律文件
報紙
其他 19 世紀倫敦文獻

這些資料經過清洗、去除 Google OCR 噪音、移除現代註解，再製作 tokenizer。這也是為何模型能呈現極高的時代一致性。

3. Selective Temporal Training（STT）的方法學意義

STT 的核心目的很直接：建立一個不受現代知識污染的模型。

如作者所說：

「微調不會抹去現代偏見，只有從零開始才能讓模型真正屬於那個時代。」

STT 讓模型的「世界觀」天然地停在 1800–1875，而不是硬把現代模型限制在某個語氣。

筆者心得與啟發

這篇專案讓我最深刻的，是它反思了我們當前 LLM 設計的一個盲點：我們過度依賴微調，但從未真正問過──什麼是模型的原生世界觀？

TimeCapsule LLM 強調的並不是性能，而是「歷史一致性」。這讓我想到幾個可能應用：

歷史研究輔助：讓模型在「不知今日」的前提下思考史料，避免後見之明偏誤。
文學創作工具：創作以維多利亞時代為背景的小說，語感會更貼近真實。
語料學研究：觀察模型如何從特定語料長出語法與風格，對語言變遷研究很有啟發。

如果把這個方法推向極致，我甚至可以想像未來會有：

1920 年紐約版本
清末上海版本
古典拉丁文版本

它們各自擁有「屬於那個時代的知識限制與語感」，而不是現代人的視角。

換句話說，這不只是做一個模型，而是打造「時代膠囊」。

我會持續關注這個專案，尤其是 90GB 的 v2 完整版是否能在語意一致性與歷史推理上邁出新一步。這種從資料到世界觀的設計方式，或許會成為未來 AI 的一種重要分支。

作者: Chun

WordPress 社群貢獻者、開源社群推廣者。專注於 WordPress 外掛開發、網站效能最佳化、伺服器管理，以及 iDempiere 開源 ERP 導入與客製開發。曾參與 WordCamp Taipei 等社群活動，GitHub Arctic Code Vault Contributor。提供資訊顧問、WordPress 開發教學、主機最佳化與企業 ERP 整合服務。

發佈留言

取消回覆

文章

文章