從 Epstein PDFs 看數位鑑識:我從 PDF 協會案例研究學到的 7 個關鍵洞見

本篇文章更新時間:2026/02/05
如有資訊過時或語誤之處,歡迎使用 Contact 功能通知。
一介資男的 LINE 社群開站囉!歡迎入群聊聊~
如果本站內容對你有幫助,歡迎使用 BFX Pay 加密貨幣新台幣 贊助支持。


深入 PDF 鑑識的世界:重新理解 Epstein PDFs 的真正故事

副標題:從技術角度揭露文件背後的處理流程、風險與迷思

編輯前言:這篇文章來自 PDF Association 的案例研究:A case study in PDF forensics: The Epstein PDFs。原文不是在談八卦,而是教我們如何用「PDF 鑑識」的方式理解文件是如何產生、被修改、被清理,以及為什麼網路上那些「可恢復塗黑內容」的說法大多是錯誤的。

核心觀點 (Key Takeaways)

  • DoJ 公開的 Epstein PDFs(EFTA DataSet 01–07)實際上已正確完成紅編,不含可恢復文字。
  • 多份 PDF 含有增量更新(Incremental Updates),這是鑑識分析時必須特別注意的技術重點。
  • DoJ 的處理流程嚴格,但仍留下孤兒物件(orphaned objects)、評論、與低品質 OCR 等細節,揭示真實世界工作流程的複雜性。

深入解析

這篇文章不是在解密文件內容,而是在解析 PDF 本身「如何形成」。作者透過對上千份 DoJ 文件的隨機抽樣分析,示範了一次完整的 PDF 技術鑑識流程,包括:格式有效性、增量更新、Bates 編號、影像處理、隱藏 metadata、以及 OCR 表現。

引用原文一句話最能說明作者的立場:

“You should never trust a single tool.”

PDF 不是單純的文字檔,它是一種複雜的結構化二進位檔案。遇到增量更新、交叉參照(xref)、跨版本結構等情況時,各種工具甚至會給出矛盾結果,因此鑑識工作必須同時依賴多種工具驗證。


1. 增量更新揭示 DoJ 的文件處理流程

許多 Epstein PDFs 其實不是單一版本,而是經過多次修改的「疊加式版本鏈」。每次更新都會把新的資料加在檔案結尾,而不是覆寫原始內容。這使得鑑識工程師能看到:

  • 第一版 PDF 是掃描或影像渲染結果
  • 第二版加入了 metadata 修改(如版本號改為 1.5)
  • 最後一版加入 Bates 編號

這點非常關鍵,因為:

  • 若有紅編錯誤,可能藏在前一版
  • 早期 metadata 有時會被保留在壓縮物件流中(通常看不見)

作者特別發現 DoJ 的 metadata 清理流程有瑕疵——例如某些文件仍藏著未被引用的資訊物件。

2. Bates 編號完全是「影像上的黑框」而不是文字蓋板

這一點非常重要,因為新聞端流傳的「文字可反查」多半是針對其他年份的 DoJ 文件,而非本次公開的 EFTA DataSets。

作者確認:

  • 黑框是直接畫在像素上,而不是蓋在文字上
  • 沒有可拷貝的底層文字
  • 所以不可能用選取、複製、顏色反轉等方法看到被遮住的內容

這完全符合正確的紅編程序。

3. Metadata 的殘留與「孤兒物件」問題

雖然整體 sanitization 做得不錯,但仍留下:

  • 被遺棄的 Info dictionary
  • PDF comments
  • 可能存在於前一次 incremental update 的 metadata

例如:

/Creator (OmniPage CSDK 21.1)
/Producer (Processing-CLI)

這種資訊對內容無害,但透露了 DoJ 的工具鏈與處理方式,對鑑識工程師是寶貴線索。

4. 所有照片都被重新取樣、降 DPI、移除 EXIF

DoJ 非常明確地避免 JPEG 作為 PDF 內嵌影像。原因很簡單:

  • JPEG 可能暗藏 EXIF、XMP、GPS、機身序號等資訊
  • 即便有黑框,metadata 仍可能洩漏

於是 DoJ 選擇:

  • 96 DPI 的位圖
  • Indexed color(顏色縮減)
  • FLATEEncode(避免 JPEG)

對鑑識來說,這是一種「安全但粗暴」的作法。

5. 「掃描文件」其實有兩種:真的掃描 & 人工合成的掃描影像

這個觀察很有意思。

某些文件確實有:

  • 釘書孔
  • 紙邊陰影
  • 手寫筆記
  • 扭曲與噪點

但另一些「掃描樣式」的文件,卻:

  • 完美乾淨
  • 多頁 skew 角度一致
  • 沒有任何紙張紋理

作者認為這些很可能是「以電子文件重新渲染成影像」,在送交審查前模擬成“看起來像掃描”。

6. OCR 品質不佳,意味著重新 OCR 可能得出更完整內容

作者指出:

OCR largely inaccurate and does not use ML or NLP techniques.

這代表:

  • 原始 OCR 非常粗糙
  • 如果研究者自行重新 OCR,可能找到更多線索

但這不意味著能恢復紅編內容,只能得到更乾淨的非敏感資訊。


筆者心得與啟發

讀完這份案例研究,我最大的感觸是:
政府機關的文件處理,其實比我們想像的更「工程化」,但也更「混亂」。

DoJ 的流程一方面非常嚴謹,例如:

  • 移除 JPEG
  • 影像重製
  • 多層增量更新
  • 黑框直接畫進像素

但另一方面,一些細節像:

  • 孤兒 metadata
  • 不一致的版本號
  • 低品質 OCR
  • 留下 PDF comments

則暴露出真實世界的流程永遠不是完美的流水線,而是複雜的工具鏈與人工決策混合體。

這篇文章也提醒我:

  • 不能只靠一個工具檢查 PDF
  • 「看起來乾淨」不代表沒有隱藏層級
  • 鑑識是一件需要耐心與 cross-validation 的工作

如果你有在處理 PDF、隱私資料、法律文件或偵查報告,這份研究是非常值得一讀的。不只是技術知識,更是一種思維訓練——讓我們知道文件背後的真實結構遠比表面複雜。



Share:

作者: Chun

資訊愛好人士。主張「人人都該為了偷懶而進步」。期許自己成為斜槓到變進度條 100% 的年輕人。[///////////____36%_________]

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *


文章
Filter
Apply Filters
Mastodon