本篇文章更新時間:2026/01/23
如有資訊過時或語誤之處,歡迎使用 Contact 功能通知。
一介資男的 LINE 社群開站囉!歡迎入群聊聊~
如果本站內容對你有幫助,歡迎使用 BFX Pay 加密貨幣 或 新台幣 贊助支持。
Qwen3-TTS 開源:從語音設計到極速生成的全方位進化
編輯前言:這篇文章來自官方部落格《Qwen3-TTS Family is Now Open Sourced: Voice Design, Clone, and Generation!》,原文連結在此:閱讀原文。我之所以想寫這篇筆記,是因為 Qwen 推出的這組 TTS 模型,不只是「把文字變成語音」這麼簡單,它徹底拉高了語音生成的可控性、即時性與表達自由度。對做內容、AI 產品或語音應用的人來說,這是一個等級的大升級。
核心觀點 (Key Takeaways)
- 真正全能的 TTS 套件:支援語音設計、語音克隆、跨語言生成、多維度聲線控制、指令式語音風格設定。
- 極低延遲、極高品質:Dual-Track 架構讓模型只需看到「一個字」就能開始出音,延遲最低可達 97ms。
- 強大的語意理解力:能依指令調整語氣、節奏、情緒,甚至能對文本噪音(拼音、符號、生僻字)保持穩定輸出。
深入解析
Qwen3-TTS 的核心,是它自行開發的 Qwen3-TTS-Tokenizer-12Hz 多碼本編碼器。這個技術聽起來很工程,但換句話說,就是它能在高度壓縮語音的同時,把人聲中極細緻的「副語言資訊」保留住,例如:情緒、口氣、環境殘響、聲線質地等。這也是為什麼這次官方展示的語音樣本,從嬌嗔、哭腔、喊叫,到專業廣播腔,都能保持自然且可信。
官方還強調一個值得注意的點:這是 真正的 end-to-end 多碼本語音建模,不再需要傳統「LM + DiT」的多階段管線。這代表模型的表現空間更大,延遲更低,可控性更高。
在模型尺寸上,他們開源了 1.7B 與 0.6B,語言覆蓋 10 種語言與多種方言。1.7B 偏向極致體驗,而 0.6B 則在效能與品質間取得平衡。
官方的評測結果很強勢:
- 語音設計:1.7B VoiceDesign 在 InstructTTS-Eval 中超越 MiniMax-Voice-Design。
- 語音控制:平均 WER 僅 2.34%,能維持音色、又能精準調整風格。
- 語音克隆:中文、英文、跨語言能力均達 SOTA,效果超越 MiniMax、SeedTTS、ElevenLabs。
以下是我認為特別值得一提的兩個部分——
-
極低延遲的 Dual-Track 架構:
官方提到模型可在看到首個字元後立即輸出第一段音訊。這對即時語音代理(Real-time AI Agent)來說非常關鍵。 -
語音控制的自由度極高:
文章展示的例子非常多元,有: -
情緒控制(痛哭、憤怒、撒嬌…)
-
年齡調整(老、中、少)
-
語速、音量、音調
-
各種角色人設(御姐、播音員、科研專家等)
-
跨語言聲線保持
這些示例讓我感受到:它已經不是「給我一句念出來」的 TTS,而是更接近「可導演的聲音演員」。
筆者心得與啟發
我自己讀完最大的震撼是:TTS 的競爭已經不再是「像不像真人」,而是「能不能像真人一樣被指揮、被演繹、被塑造」。
Qwen3-TTS 開源後,我覺得有三個應用方向會被大幅推進:
- AI 劇場、AI 有聲書、角色配音:天然支援多角色、可儲存聲線,且風格可控,非常像一組可訓練的聲音卡司。
- 即時語音代理(AI Agents):延遲做到這麼低,代表語音 AI 真的能進入「秒級反應」的境界。
- 跨語言品牌 Voice Identity:聲音不變、語言可切換,對全球化品牌很實用。
換句話說,這不只是「開源一個模型」,而是一次生態級的釋放。對創作者、開發者、企業來說,它開啟了全新的敘事方式與互動模式。
我會持續關注它的後續應用,因為這確實像是語音 AI 的一個新時代開端。
