本篇文章更新時間:2026/02/17
如有資訊過時或語誤之處,歡迎使用 Contact 功能通知或向一介資男的 LINE 社群反應。
如果本站內容對你有幫助,歡迎贊助支持 。
50 公尺的距離,揭開 LLM 常識盲點的荒謬性
來源:Kévin,《Q: I want to wash my car. The car wash is 50 meters away. Should I walk or drive?》
編輯前言:一個看似愚蠢的提問,卻意外成了測試大型語言模型(LLM)「常識能力」的最佳範例。這篇 Mastodon 討論串不只好笑,也讓我們看到 AI 在語言理解上的脆弱性。
核心觀點 (Key Takeaways)
- LLM 在面對有「隱含常識」的問題時,仍然容易犯下顯而易見的邏輯錯誤。
- 多個模型的回答在面臨矛盾時傾向「選項合理化」,而非指出前提荒謬。
- 這類錯誤凸顯了深度語言模型在表面上像理解、實則是「模式補全」的本質。
深入解析
這整串對話源自一個簡單到會讓人疑惑為何需要問的問題:
“The car wash is 50 meters away. Should I walk or drive?”
正常人第一個反應會是:「你要開車去洗車,不然怎麼洗?」但 LLM 的回答卻大多陷入文字表層,開始從環保、健康、便利性等角度分析「該不該用走的」,完全忽略前提本身的矛盾。
作者 Kévin 分享了幾種荒唐到好笑的回答:
- 走路去,但到那裡才發現車不在那裡。
- 「你說得對,我被你抓到了。」
- 走過去、再走回來、再把車開過去,還宣稱這樣有「極小的環保收益」。
- 建議買 50 公尺的水管在家洗車(顯然也不行)。
這些回答共同展現了同一件事:模型會優先嘗試「把題目合理化」,而不是反問前提是否有問題。也有人指出這跟「注意力模型」的特性有關—一句話只要一個字位置不同,就可能讓模型誤判語義重點。
- AI 的「堅持原本錯誤方向」:像 DeepSeek 會察覺到車最終必須在洗車場那邊,但仍然維持最初的建議。
- 模型之間的差異:Gemini 與 ChatGPT 在重新測試時不再被騙,甚至回以類似「這題有陷阱」的語氣。
- 非決定性本質:有人提醒 LLM 存在隨機性,因此一次測試不代表模型能力。
同時,這串討論也延伸出對 AI 產業的批評,包括過度行銷、常識能力不足、以及使用者拿錯工具卻期待推理能力等文化現象。
筆者心得與啟發
讀完這串,我反而不是在笑模型,而是在思考兩件事。
第一,這個問題之所以能「騙倒 AI」,是因為 LLM 本質上並非在理解,而是在預測語言模式。它們會盡可能「產出合理敘述」,卻不會主動辨識前提中的荒謬。這也再次提醒我們:對話式 AI 不等於推理引擎。
第二,我其實更感興趣的是人類的反應。有人第一時間就被題目騙過,也有人立刻看到陷阱。這反而像是一面鏡子:關於閱讀理解、注意力分配,以及我們如何處理日常語言中的隱含常識。
如果未來我們真的希望 LLM 具備穩定的推理能力,關鍵可能不是讓它回答更多問題,而是讓它學會在必要時停下來、回頭檢查前提。
這篇 Mastodon 貼文看似玩笑,卻讓我重新思考一件事:AI 與其說是「不懂常識」,不如說是「沒有意識到常識何時重要」。而這正是人類智慧與模型模式之間的分界線。
