本篇文章更新時間:2026/02/17
如有資訊過時或語誤之處,歡迎使用 Contact 功能通知或向一介資男的 LINE 社群反應。
如果本站內容對你有幫助,歡迎贊助支持 。
內容目錄
Qwen3.5:原生多模態 Agent 的突破與下一個時代
編輯前言:這篇文章來自 Qwen 官方最新發布的 Qwen3.5: Towards Native Multimodal Agents。身為一個長期關注大型模型演進的讀者,我認為 Qwen3.5 的亮點不只在跑分,而是「學習與推理方式」的根本性改造。以下是我從原文整理出的重點與思考。
核心觀點 (Key Takeaways)
- Qwen3.5 採用原生多模態架構,並非事後補丁式的 vision encoder,而是從架構層面就把視覺與語言相融合。
- 397B 參數但僅 17B 激活,得益於 Gated DeltaNet + 高稀疏 MoE,推論速度比同規模模型大幅提升。
- 全方位 RL 擴展,不是針對單一 benchmark,而是全面提升 agent 能力,使其在工具使用、搜尋、規劃等任務有跨代飛躍。
深入解析
Qwen3.5 官方文章其實講了很多細節,但我把它分成三個我認為最重要的方向:模型架構、訓練策略、以及 agent 方向的願景。
1. 模型架構:真正的「原生多模態」設計
原文提到:
“Built on an innovative hybrid architecture that fuses linear attention (via Gated Delta Networks) with a sparse mixture-of-experts…”
也就是說 Qwen3.5 不只是把 vision encoder 丟到 LLM 前面,而是讓語言與視覺在 attention 階段就直接融合。這件事情一般來說要大量算力支撐,但 Qwen 透過高稀疏 MoE(397B 總參數,啟動 17B)把成本壓下來。
這讓我想到最近大家在討論的「native multimodality」與過往 patch-based multimodality 的差異:
- patch-based:感覺像是把圖片強行塞給語言模型。
- native:讓模型「從一開始就理解影像也是語言的一部分」。
這在後面各種 STEM、空間推理、Video reasoning 的跑分中被充分體現。
2. 訓練策略:全面性的強化學習(RL)擴展
原文說明 Qwen3.5 的提升不是靠資料硬堆,而是靠「擴大 RL 任務的難度與多樣性」:
“Our approach placed strong emphasis on increasing the difficulty and generalizability of RL environments…”
這點我很有感。因為能當好 agent 的模型不只是要會「回答問題」,而是要:
- 看得懂工具回傳的訊息
- 設定子任務
- 長期規劃
- 在工具結果不完美時自我修正
這些東西都不是 supervised fine-tuning 能訓練出來的。Qwen3.5 在 BFCL-V4、DeepPlanning、Tool-Decathlon、MCP-Mark 等 Agent 評測全面拉升,就是很明顯的 RL 效果。
3. AI Agent 方向的願景
原文最後一段我覺得非常值得引用:
“The next leap requires shifting from model scaling to system integration: persistent memory, embodied interfaces, self-directed improvement, and economic awareness.”
意思是:模型變大已經不是重點,下一階段要解決的是:
- 如何讓 AI 有長期記憶?
- 如何讓 AI 具備跨多回合的自我改善能力?
- 如何讓 AI 具有「成本感」,能合理使用工具而不是亂花錢?
這些都是往真正 autonomous agent 的下一步,而非只是 Chatbot。
筆者心得與啟發
從 Qwen3.5 的敘述中,我看到一種「效率導向」的模型發展思路:
- 不盲目追求參數量
- 不盲目堆資料
- 重視工具使用、規劃能力、agent workflow
尤其是 hybrid attention + MoE 的架構設計,跟 OpenAI、DeepSeek 等近期路線其實有異曲同工之妙:都在追求以更低成本達成頂級能力。
另一方面,Qwen3.5 的 vision 能力也讓我很驚訝(例如數學視覺、空間推理、影片長上下文)。這顯示原生多模態架構真的比後期拼接式來得更強韌。
如果你是:
- 應用 AI agent 的開發者
- 想要用模型做搜尋、工具調用、Web automation
- 想尋找高效推論的企業模型
Qwen3.5 值得你深入研究。未來 AI 不會只是聊天,而是能持續工作、具備記憶、並長期執行任務的「數位夥伴」。而 Qwen3.5 無疑是朝這方向跨出的重要一步。
