本篇文章更新時間:2026/03/06
如有資訊過時或語誤之處,歡迎使用 Contact 功能通知或向一介資男的 LINE 社群反應。
如果本站內容對你有幫助,歡迎贊助支持 。
PersonaPlex 7B:讓你的 Mac 變成能「同步聽與說」的語音代理
副標題:從 ASR、TTS 到真正的語音對話模型,MLX 走到關鍵的一步
編輯前言:這篇文章介紹了 NVIDIA PersonaPlex 7B 如何在 Apple Silicon 上,以 MLX 與 Swift 實現全雙工(full-duplex)語音對語音的模型——不再是傳統的 ASR → LLM → TTS 三段式,而是單一模型直接聽、想、說。對於任何關注 Edge AI、語音代理或 Swift/MLX 的人,都是非常值得一讀的案例。
原文連結:NVIDIA PersonaPlex 7B on Apple Silicon: Full-Duplex Speech-to-Speech in Native Swift with MLX
核心觀點 (Key Takeaways)
- PersonaPlex 7B 將語音輸入、語音生成整合到「一個模型」內,實現真正的語音對語音代理。
- 透過 MLX + 4-bit 量化,在 Apple Silicon 上可達到 快於即時 的推論速度(RTF 約 0.87)。
- 架構關鍵在於 17 並行 token stream 與 Mimi codec 的重用,使其不需 ASR/TTS 中介步驟。
深入解析
PersonaPlex 7B 之所以引起關注,是因為它徹底改變了語音模型的工作方式。傳統語音助理需要三階段處理:先把語音轉文字,再用 LLM 回答,最後用 TTS 合成語音。這種結構的問題很明顯:每一層都有延遲,每一層都會丟掉語氣、節奏、情緒等重要資訊。
PersonaPlex 直接用單一模型處理語音 token,等於跳過了語音文字化的中介過程。作者解釋模型架構時提到:
PersonaPlex processes 17 parallel token streams through one unified pipeline.
其中包括使用者語音 token、代理語音 token,以及文本 token,但都在同一個 transformer 裡處理。這讓模型擁有「同步聽與同步說」的能力。
另一個重點是 Mimi codec 的重用。如果你之前看過 Kyutai Moshi,你就知道這個 codec 是語音品質的關鍵。作者的 Swift/MLX 語音庫之前已經整合過它(在 TTS 與 CosyVoice 0.5B 中),因此能無痛接上 PersonaPlex。
另外值得注意的是 Depformer。這是一個相當特殊的 sequential audio codebook 生成器,每個 step 都會切換不同權重:
One weight tensor, no module overhead, just a slice and multiply.
在 4-bit 量化後能從 2.4GB 壓到 650MB,而且在 ASR 測試上沒有明顯損失。
作者也提醒:想讓模型表現實用、不要亂聊,系統提示詞很重要。沒有 prompt 時模型容易天馬行空;加上 prompt 後變得像真正的客服或助理用品級代理。
筆者心得與啟發
對我來說,這篇文章最令人驚艷的地方不是速度、不是量化技巧,而是它展現了 語音 AI 即將從「三模型串接」走向「單模型代理」的未來。這種結構意味著:
- 更低延遲(因為不再三段處理)
- 更高語音保真度(因為沒有 lost prosody)
- 更好地理解人的說話模式(因為模型直接吃語音訊號)
另外,作者用 Swift + MLX 實作整套語音庫,也讓我看到 Apple Silicon 本地部署的潛力。對許多想做 edge agent 的人,這意味著:不必靠 Python、不必靠伺服器,你的 Mac 就能跑全雙工語音模型。
最後,我覺得真正的突破在於 respondStream()。這代表語音代理將可以像真人一樣「邊聽邊說」,不是等你講完才回答。這種互動模式會讓 AI 感覺比今天的語音助理自然得多。
如果你正在開發語音 agent、multimodal assistant 或想做 on-device AI,PersonaPlex 7B 在 Apple Silicon 的實作確實值得深入研究。
