打造本地語音助理的真實旅程：從 Google Home 轉向 Home Assistant Assist 的深度筆記

Chun 2026/03/17 發佈留言

本篇文章更新時間：2026/03/17
如有資訊過時或語誤之處，歡迎使用 Contact 功能通知或向一介資男的 LINE 社群反應。
如果本站內容對你有幫助，歡迎贊助支持。

內容目錄

1 打造本地語音助理的真實旅程

打造本地語音助理的真實旅程

從雲端束縛走向完全自主人機互動的實戰分享

編輯前言：這篇文章來自作者在 Home Assistant 社群發表的長文，完整記錄了他如何從 Google Home 轉向完全本地化的語音助理。之所以值得一讀，是因為它不只是技術心得，而是一段充滿試錯、優化、踩坑與突破的過程。原文在此： My Journey to a reliable and enjoyable locally hosted voice assistant

核心觀點 (Key Takeaways)

要做好本地語音助理，關鍵不只在硬體，而是模型與 Prompt 的搭配與調校。
雖然 Assist 基本功能已完善，但真正要能「取代 Google Home」需要大量額外微調，包括：天氣、地點查詢、音樂搜尋、錯字處理等。
本地語音助理的魅力在於可高度自訂，但也意味著需要耐心與技術理解。

深入解析

這篇原文的敘事方式很接地氣：不是「教你怎麼做」，而是「我怎麼踩坑並爬出來」。對於任何想打造本地語音助理的人，都很有參考價值。

為什麼從 Google Home 逃離？

作者一開始點出轉向本地語音助理的兩大理由：

Google Assistant 越來越笨、越來越不可靠。更多的「我不確定你在說什麼」也讓 WAF（伴侶接受度）下降。
雲端依賴與隱私問題，如果 AWS 掛了，甚至不能開燈。

硬體測試：eGPU + 各種顯卡的實測心得

作者相當認真地測試多塊 GPU，包括 RTX 3090、5070Ti、AMD 7900XTX 等，並整理各卡在 llama.cpp 下的反應速度。他的結論很直接：

只要是近代 GPU，運行本地 Assist 不是問題；差別只在你對速度與模型大小的要求。

這裡有個很實用的重點：8GB VRAM 的卡只能跑小模型（4B dense），只能提供最基本的語音功能。

模型與量化：為什麼 Ollama 的預設模型很不夠用？

作者發現 Assist 表現差的主因不是 Assist 本身，而是：

Ollama 附帶模型太小
預設量化（Q4_K）太粗糙

當他學會從 HuggingFace 找到更高品質的 GGUF 模型後，Assist 的能力「質變」。這段經驗非常有感：

「換模型遠比換硬體有效。」

語音體驗最核心的關鍵：Prompt 才是靈魂

作者反覆強調 Prompt 的重要性，並給了完全可以實作的建議：

為每種工具（天氣、地點、搜尋）寫獨立的 #section
使用清楚的條列說明 LLM 何時該呼叫該工具
示範理想輸出格式

這段話特別值得摘錄：

「預設的 Home Assistant Prompt 無法讓 Assist 變聰明，LLM 需要大量指引。」

聽起來像是大家在玩 LLM 時共通的痛點，但套用在語音助理上更明顯。

語音關鍵：STT、TTS 與延遲優化

作者實測多組語音輸入/輸出技術：

Wyoming ONNX ASR + Parakeet V2（OpenVINO）：極速，0.3s 推論
Piper TTS：好用但遇到貨幣、地址輸出會卡
Kokoro TTS：音色好，適合完整語音助理

能感覺到他是真正追求「像 Google Home 但更快」的體驗。

音樂播放：用 Automation 解決 LLM 做不好的事

作者分享一個非常 Home Assistant 的觀點：

不需要所有事都讓 LLM 解，能用 Automation 更穩時，就用 Automation。

他用一句「Play {music}」就能：

根據呼叫語音的衛星位置，播放在正確的喇叭上
自動搜尋與播放音樂

這段非常有啟發性，因為它展示了 LLM 不是萬能，但 HA 的其他能力能彌補缺口。

客製化喚醒詞：自己訓練一個 Hey Robot

作者也真正親自訓練 wakeword，使用 microwakeword，30 分鐘就完成。雖然還有些誤觸發，但比起預設選項已經進步很大。

筆者心得與啟發

讀完這篇文章，我最大的感受是：本地語音助理並不是一個「安裝 → 使用」的產品，而是一個「調校 → 調校 → 再調校」的專案。

作者證明了一件事：

如果願意投入時間，Home Assistant 的 Assist 完全能超越 Google Home，甚至做到 Google 完全做不到的事：全本地、可完全客製化、回應速度極快、語音模型你說了算。

但同時他也提醒：

這條路對一般使用者並不輕鬆
需要理解模型、量化、Prompt 設計、STT/TTS 效能、網路延遲等多個面向

我會把這篇文章推薦給：

想打造高度隱私、全本地語音助理的人
想提升 Assist 聰明度與指令可靠度的人
想知道「到底哪張 GPU 才能跑語音助理」的人

對我來說，最受啟發的一點是：語音助理最終不是技術的問題，而是體驗設計的問題。

模型、硬體、工具、網路、語音輸入輸出，每一個小細節都會影響「叫一聲電燈就開」的那 1 秒鐘。也正因如此，本地語音助理的可調性，反而讓它比 Google Home 更有潛力。

如果你也在走這條路，那麼這篇文章會讓你少踩非常多坑。

作者: Chun

WordPress 社群貢獻者、開源社群推廣者。專注於 WordPress 外掛開發、網站效能最佳化、伺服器管理，以及 iDempiere 開源 ERP 導入與客製開發。曾參與 WordCamp Taipei 等社群活動，GitHub Arctic Code Vault Contributor。提供資訊顧問、WordPress 開發教學、主機最佳化與企業 ERP 整合服務。

發佈留言

取消回覆

文章

文章