《The Illustrated Transformer》深度閱讀筆記

Chun 2025/12/23 發佈留言

本篇文章更新時間：2025/12/23
如有資訊過時或語誤之處，歡迎使用 Contact 功能通知或向一介資男的 LINE 社群反應。
如果本站內容對你有幫助，歡迎贊助支持。

內容目錄

1 Transformer 的誕生：從注意力到全新架構的革命

Transformer 的誕生：從注意力到全新架構的革命

編輯前言：這篇筆記整理自 The Illustrated Transformer，之所以值得讀，是因為它以直觀方式解釋了 Transformer 架構如何運作，尤其是 Attention、Multi-Head、Positional Encoding 等核心概念，是所有 AI 與 LLM 初學者必讀的基礎。

核心觀點 (Key Takeaways)

Transformer 的核心不是 RNN，而是「自注意力」讓模型能同時觀察整句話的關係。
Multi-Head Attention 讓模型得以在不同語意子空間中理解詞與詞的關聯。
位置編碼（Positional Encoding）彌補 Transformer 無法理解序列順序的缺陷，讓模型學會「前後文距離」。

深入解析

閱讀原文的時候，我最強烈的感受是：Transformer 真的不是一個「堆很多 Attention」的黑盒，而是一個邏輯極度清晰、每一層都有明確目的的架構。原文透過圖像化方式把這些元素拆解得非常平易近人。

1. Encoder–Decoder 架構重新定義翻譯模型

Transformer 初登場時，是為了解決機器翻譯（Machine Translation）的效能瓶頸。它將整個模型拆成：

Encoder：負責讀懂輸入句子（例如法文）。
Decoder：根據 Encoder 的理解輸出翻譯結果（例如英文）。

每個 Encoder 都包含兩個子層：Self-Attention + Feed Forward；Decoder 則多一層用來讀取 Encoder 的 Attention，因此能更精準對齊原文與翻譯的對應關係。

2. Self-Attention：一種能「看見整句話」的能力

原文中有一句我覺得非常形象：

Self-attention allows the model to associate “it” with “animal”.

也就是說，當模型處理 "it" 時，Self-Attention 會幫助它知道前文最相關的是 "the animal"，而非 "street"。這與 RNN 那種靠隱藏狀態記記停停的方式完全不同。

Self-Attention 的計算流程可簡化為：

將每個詞轉成 Query、Key、Value 向量
用 Query⋅Key 打分數
Softmax 轉成權重
權重 × Value 並加總

這樣每個詞的向量表示就會「融合」其他重要詞語的資訊。

3. Multi-Head Attention：不是一頭，而是八頭注意力

作者提出的觀察很有啟發性：單一 Attention 可能會造成模型偏向某一種語意，但語言的關聯是多層的。如原文所示：

一個 head 專注 "animal"，另一個 head 專注 "tired"。

多頭注意力透過不同的 Q/K/V 投影矩陣，讓模型在不同語意子空間同時觀察上下文，這也是 Transformer 能強大的原因之一。

4. Positional Encoding：讓模型知道「順序」是什麼

因為 Transformer 完全沒有循環結構，它天生不知道「先後順序」，於是作者介紹了那組經典的 Sin/Cos 位置編碼：

每個位置生成一個 512 維的向量，部分由 sine 產生、部分由 cosine 產生。

這讓模型在 Q/K/V 內部可以透過向量距離去理解詞之間的相對位置，例如：

哪些詞相鄰
哪些詞距離較遠

這是 Transformer 能有效處理序列資訊的關鍵技巧。

筆者心得與啟發

讀完原文最大的感想是：Transformer 表面看起來龐大複雜，但其實是許多「簡潔且一致」的設計組合而成。Self-Attention、Multi-Head、Residual、LayerNorm、Position Encoding……每一項都在補足深度學習模型過去的缺陷。

我特別喜歡作者提到的：「這一切都是為了能更好地平行化。」

在 RNN 時代，序列一定得按順序處理，但 Transformer 把所有詞「同時」輸入，再用注意力補齊序列理解，這也讓後續的 GPU／TPU 訓練速度完全起飛。

如果你想真正理解大型語言模型（LLM）如何從 Transformer 演化而來，這篇原文絕對是第一站。而讀懂 Transformer，也會讓你在使用 ChatGPT、LLM API、微調模型時更有直覺，不再只靠黑箱猜測模型內部如何推理。

未來如果要做更深的延伸，我會建議可以接著閱讀 Multi-Query Attention、RoPE 位置編碼（在 LLM 中更常用），或直接去看原作者出版的書 —— 也是從這篇文章延伸出來的。

Transformer 不是一時的技術潮流，而是重新塑造 NLP、LLM 與整個 AI 進化路線的基礎架構。

作者: Chun

資訊愛好人士。主張「人人都該為了偷懶而進步」。期許自己成為斜槓到變進度條 100% 的年輕人。[///////////____36%_________]

發佈留言

取消回覆

文章

文章