《The Illustrated Transformer》深度閱讀筆記

本篇文章更新時間:2025/12/23
如有資訊過時或語誤之處,歡迎使用 Contact 功能通知。
一介資男的 LINE 社群開站囉!歡迎入群聊聊~
如果本站內容對你有幫助,歡迎使用 BFX Pay 加密貨幣新台幣 贊助支持。


Transformer 的誕生:從注意力到全新架構的革命

編輯前言:這篇筆記整理自 The Illustrated Transformer,之所以值得讀,是因為它以直觀方式解釋了 Transformer 架構如何運作,尤其是 Attention、Multi-Head、Positional Encoding 等核心概念,是所有 AI 與 LLM 初學者必讀的基礎。

核心觀點 (Key Takeaways)

  • Transformer 的核心不是 RNN,而是「自注意力」讓模型能同時觀察整句話的關係。
  • Multi-Head Attention 讓模型得以在不同語意子空間中理解詞與詞的關聯。
  • 位置編碼(Positional Encoding)彌補 Transformer 無法理解序列順序的缺陷,讓模型學會「前後文距離」。

深入解析

閱讀原文的時候,我最強烈的感受是:Transformer 真的不是一個「堆很多 Attention」的黑盒,而是一個邏輯極度清晰、每一層都有明確目的的架構。原文透過圖像化方式把這些元素拆解得非常平易近人。

1. Encoder–Decoder 架構重新定義翻譯模型

Transformer 初登場時,是為了解決機器翻譯(Machine Translation)的效能瓶頸。它將整個模型拆成:

  • Encoder:負責讀懂輸入句子(例如法文)。
  • Decoder:根據 Encoder 的理解輸出翻譯結果(例如英文)。

每個 Encoder 都包含兩個子層:Self-Attention + Feed Forward;Decoder 則多一層用來讀取 Encoder 的 Attention,因此能更精準對齊原文與翻譯的對應關係。

2. Self-Attention:一種能「看見整句話」的能力

原文中有一句我覺得非常形象:

Self-attention allows the model to associate “it” with “animal”.

也就是說,當模型處理 "it" 時,Self-Attention 會幫助它知道前文最相關的是 "the animal",而非 "street"。這與 RNN 那種靠隱藏狀態記記停停的方式完全不同。

Self-Attention 的計算流程可簡化為:

  • 將每個詞轉成 Query、Key、Value 向量
  • 用 Query⋅Key 打分數
  • Softmax 轉成權重
  • 權重 × Value 並加總

這樣每個詞的向量表示就會「融合」其他重要詞語的資訊。

3. Multi-Head Attention:不是一頭,而是八頭注意力

作者提出的觀察很有啟發性:單一 Attention 可能會造成模型偏向某一種語意,但語言的關聯是多層的。如原文所示:

一個 head 專注 "animal",另一個 head 專注 "tired"。

多頭注意力透過不同的 Q/K/V 投影矩陣,讓模型在不同語意子空間同時觀察上下文,這也是 Transformer 能強大的原因之一。

4. Positional Encoding:讓模型知道「順序」是什麼

因為 Transformer 完全沒有循環結構,它天生不知道「先後順序」,於是作者介紹了那組經典的 Sin/Cos 位置編碼:

每個位置生成一個 512 維的向量,部分由 sine 產生、部分由 cosine 產生。

這讓模型在 Q/K/V 內部可以透過向量距離去理解詞之間的相對位置,例如:

  • 哪些詞相鄰
  • 哪些詞距離較遠

這是 Transformer 能有效處理序列資訊的關鍵技巧。

筆者心得與啟發

讀完原文最大的感想是:Transformer 表面看起來龐大複雜,但其實是許多「簡潔且一致」的設計組合而成。Self-Attention、Multi-Head、Residual、LayerNorm、Position Encoding……每一項都在補足深度學習模型過去的缺陷。

我特別喜歡作者提到的:「這一切都是為了能更好地平行化。」

在 RNN 時代,序列一定得按順序處理,但 Transformer 把所有詞「同時」輸入,再用注意力補齊序列理解,這也讓後續的 GPU/TPU 訓練速度完全起飛。

如果你想真正理解大型語言模型(LLM)如何從 Transformer 演化而來,這篇原文絕對是第一站。而讀懂 Transformer,也會讓你在使用 ChatGPT、LLM API、微調模型時更有直覺,不再只靠黑箱猜測模型內部如何推理。

未來如果要做更深的延伸,我會建議可以接著閱讀 Multi-Query Attention、RoPE 位置編碼(在 LLM 中更常用),或直接去看原作者出版的書 —— 也是從這篇文章延伸出來的。

Transformer 不是一時的技術潮流,而是重新塑造 NLP、LLM 與整個 AI 進化路線的基礎架構。


Share:

作者: Chun

資訊愛好人士。主張「人人都該為了偷懶而進步」。期許自己成為斜槓到變進度條 100% 的年輕人。[///////////____36%_________]

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *


文章
Filter
Apply Filters
Mastodon