本篇文章更新時間:2026/03/17
如有資訊過時或語誤之處,歡迎使用 Contact 功能通知或向一介資男的 LINE 社群反應。
如果本站內容對你有幫助,歡迎贊助支持 。
內容目錄
打造本地語音助理的真實旅程
從雲端束縛走向完全自主人機互動的實戰分享
編輯前言:這篇文章來自作者在 Home Assistant 社群發表的長文,完整記錄了他如何從 Google Home 轉向完全本地化的語音助理。之所以值得一讀,是因為它不只是技術心得,而是一段充滿試錯、優化、踩坑與突破的過程。原文在此: My Journey to a reliable and enjoyable locally hosted voice assistant
核心觀點 (Key Takeaways)
- 要做好本地語音助理,關鍵不只在硬體,而是模型與 Prompt 的搭配與調校。
- 雖然 Assist 基本功能已完善,但真正要能「取代 Google Home」需要大量額外微調,包括:天氣、地點查詢、音樂搜尋、錯字處理等。
- 本地語音助理的魅力在於可高度自訂,但也意味著需要耐心與技術理解。
深入解析
這篇原文的敘事方式很接地氣:不是「教你怎麼做」,而是「我怎麼踩坑並爬出來」。對於任何想打造本地語音助理的人,都很有參考價值。
為什麼從 Google Home 逃離?
作者一開始點出轉向本地語音助理的兩大理由:
- Google Assistant 越來越笨、越來越不可靠。更多的「我不確定你在說什麼」也讓 WAF(伴侶接受度)下降。
- 雲端依賴與隱私問題,如果 AWS 掛了,甚至不能開燈。
硬體測試:eGPU + 各種顯卡的實測心得
作者相當認真地測試多塊 GPU,包括 RTX 3090、5070Ti、AMD 7900XTX 等,並整理各卡在 llama.cpp 下的反應速度。他的結論很直接:
只要是近代 GPU,運行本地 Assist 不是問題;差別只在你對速度與模型大小的要求。
這裡有個很實用的重點:8GB VRAM 的卡只能跑小模型(4B dense),只能提供最基本的語音功能。
模型與量化:為什麼 Ollama 的預設模型很不夠用?
作者發現 Assist 表現差的主因不是 Assist 本身,而是:
- Ollama 附帶模型太小
- 預設量化(Q4_K)太粗糙
當他學會從 HuggingFace 找到更高品質的 GGUF 模型後,Assist 的能力「質變」。這段經驗非常有感:
「換模型遠比換硬體有效。」
語音體驗最核心的關鍵:Prompt 才是靈魂
作者反覆強調 Prompt 的重要性,並給了完全可以實作的建議:
- 為每種工具(天氣、地點、搜尋)寫獨立的 #section
- 使用清楚的條列說明 LLM 何時該呼叫該工具
- 示範理想輸出格式
這段話特別值得摘錄:
「預設的 Home Assistant Prompt 無法讓 Assist 變聰明,LLM 需要大量指引。」
聽起來像是大家在玩 LLM 時共通的痛點,但套用在語音助理上更明顯。
語音關鍵:STT、TTS 與延遲優化
作者實測多組語音輸入/輸出技術:
- Wyoming ONNX ASR + Parakeet V2(OpenVINO):極速,0.3s 推論
- Piper TTS:好用但遇到貨幣、地址輸出會卡
- Kokoro TTS:音色好,適合完整語音助理
能感覺到他是真正追求「像 Google Home 但更快」的體驗。
音樂播放:用 Automation 解決 LLM 做不好的事
作者分享一個非常 Home Assistant 的觀點:
不需要所有事都讓 LLM 解,能用 Automation 更穩時,就用 Automation。
他用一句「Play {music}」就能:
- 根據呼叫語音的衛星位置,播放在正確的喇叭上
- 自動搜尋與播放音樂
這段非常有啟發性,因為它展示了 LLM 不是萬能,但 HA 的其他能力能彌補缺口。
客製化喚醒詞:自己訓練一個 Hey Robot
作者也真正親自訓練 wakeword,使用 microwakeword,30 分鐘就完成。雖然還有些誤觸發,但比起預設選項已經進步很大。
筆者心得與啟發
讀完這篇文章,我最大的感受是:本地語音助理並不是一個「安裝 → 使用」的產品,而是一個「調校 → 調校 → 再調校」的專案。
作者證明了一件事:
如果願意投入時間,Home Assistant 的 Assist 完全能超越 Google Home,甚至做到 Google 完全做不到的事:全本地、可完全客製化、回應速度極快、語音模型你說了算。
但同時他也提醒:
- 這條路對一般使用者並不輕鬆
- 需要理解模型、量化、Prompt 設計、STT/TTS 效能、網路延遲等多個面向
我會把這篇文章推薦給:
- 想打造高度隱私、全本地語音助理的人
- 想提升 Assist 聰明度與指令可靠度的人
- 想知道「到底哪張 GPU 才能跑語音助理」的人
對我來說,最受啟發的一點是:語音助理最終不是技術的問題,而是體驗設計的問題。
模型、硬體、工具、網路、語音輸入輸出,每一個小細節都會影響「叫一聲電燈就開」的那 1 秒鐘。也正因如此,本地語音助理的可調性,反而讓它比 Google Home 更有潛力。
如果你也在走這條路,那麼這篇文章會讓你少踩非常多坑。
