為何 Qwen3-235B-A22B 如此出色:技術深度解析
Qwen3-235B-A22B 可能是大多數人尚未仔細研究的最令人印象深刻的開源模型。由阿里巴巴 Qwen 團隊於 2025 年 4 月 29 日發佈,這是一個擁有 2350 億參數的 Mixture of Experts 模型,每個 token 僅啟用 220 億活躍參數——且在大多數基準測試中與 GPT-4o 和 Claude Sonnet 競爭。採用 Apache 2.0 授權。
讓我們深入分析它的工作原理以及香港開發者為何應該關注。
世代演進
Qwen 發展迅速:
Qwen 1(2023)——第一代。表現不錯但未能與 GPT-4 競爭。確立了模型系列。
Qwen 2 / Qwen 2.5(2024)——重大飛躍。從 0.5B 到 72B 的密集模型。Qwen 2.5-72B 成為真正能與更大模型競爭的存在。VL(視覺語言)變體表現強勁。
Qwen 3(2025 年 4 月 29 日)——MoE 世代。阿里巴巴推出完整 Qwen3 系列:密集模型(0.6B 到 32B)和兩個 MoE 模型(30B-A3B 和旗艦 235B-A22B)。使用 36 萬億 token 訓練——是 Qwen 2.5 訓練資料的兩倍。支援 119 種語言和方言。(來源:Alibaba Cloud)
Qwen 3.5(2026 年 2 月 16 日)——最新世代。旗艦擴展至 397B-A17B MoE,較小模型(低至 0.8B)在隨後幾週推出。但 Qwen 3 系列的 235B-A22B 由於 2507 更新,仍然是許多部署的最佳甜蜜點。(來源:Qwen Blog)
架構:為何 235B/22B 很重要
Mixture of Experts
該模型擁有 2350 億個總參數,分佈在 94 個 Transformer 層中的 128 個專家子網路。對於每個輸入 token,路由機制選擇 8 個專家——啟用約 220 億參數。(來源:Hugging Face Model Card)
這意味著:
- -擁有 235B 模型的知識容量(專家們共同「知道」更多)
- -約 22B 模型的推理成本(每個 token 僅 22B 參數參與運算)
- -可管理的記憶體佔用(你需要載入全部 235B,但運算僅 22B)
路由在訓練中學習——模型學會哪些專家與不同類型的輸入相關。數學 token 可能啟用與程式碼 token 或中文 token 不同的專家。
架構細節
底層方面,Qwen3-235B 使用分組查詢注意力,配備 64 個查詢頭和 4 個鍵值頭、RMSNorm 層歸一化、SwiGLU 啟動函式,以及旋轉位置嵌入(RoPE)進行位置編碼。原生上下文長度為 262,144 個 token(256K)。(來源:Hugging Face Model Card)
22B 活躍的甜蜜點
220 億活躍參數達到了一個卓越的效率點。它足以在大多數任務上產生前沿品質的輸出,同時又便宜到可以大規模服務。比較一下:
- -GPT-4 估計約 1.8T 總 MoE 參數
- -DeepSeek V3 為 671B MoE,約 37B 活躍
- -Qwen3-235B 為 235B MoE,22B 活躍
Qwen3-235B 以最大模型一小部分的運算成本提供其 80-90% 的品質。對於每查詢成本重要的生產應用,這是正確的權衡。
思考模式 vs 非思考模式
Qwen3 引入了雙模式:「思考」模式展示模型的思維鏈推理(類似 DeepSeek R1 或 OpenAI o1),和「非思考」模式提供快速、直接的回應。(來源:Qwen Blog)
你可以透過 API 控制——對複雜推理任務啟用思考模式,對簡單查詢禁用它。這種靈活性意味著一個模型處理兩種用途,減少了在不同模型之間路由的需要。
基準表現
Qwen3-235B-A22B 與有效大小數倍於它的模型競爭:
數學: 思考模式下在 AIME'24 上得 85.7,在 AIME'25 上得 81.5,展現強大的數學推理能力。不是在每個基準上都能達到 DeepSeek R1 的水準,但接近——且運行成本低得多。(來源:Qwen Technical Report)
程式碼: 在 LiveCodeBench v5 上得 70.7,CodeForces 評分 2,056。(來源:Qwen Technical Report)基準數字看起來很強,但香港從業者在代理式工作流程中的實際經驗卻不同。Qwen3-235B 的真正優勢在於結構化輸出和對話式聊天——當涉及 OpenCode 或 Claude Code 等工具呼叫框架(多步驟檔案編輯、自主除錯)時,專用的程式碼模型如 Qwen3-Coder 或 Claude Opus 往往表現更好。值得注意的是,阿里巴巴專門發佈了 Qwen3-Coder 系列用於代理式程式碼任務,這暗示 235B 通用模型並非該工作流程的最佳選擇。
多語言: 這是 Qwen 的突出優勢。2507 變體(2025 年 7 月更新)顯著提升了多語言表現。特別是在中英雙語任務上,它可以說是最好的開源模型。
通用知識: 在 MMLU-Redux 和類似基準上與 GPT-4o 競爭。不是絕對最好的,但穩穩位於前沿群體中。(來源:Qwen Technical Report)
為何「2507」很重要
「-2507」後綴表示 2025 年 7 月的檢查點——一個重要的後訓練更新,分別於 2025 年 7 月 21 日(instruct 版本)和 2025 年 7 月 25 日(thinking 版本)發佈。主要改進:(來源:Hugging Face)
- -指令遵循(更少拒絕、更好地遵循複雜提示詞)
- -多語言表現(特別是較不常見的語言)
- -程式碼生成品質
- -降低幻覺率
- -instruct-2507 變體僅以非思考模式運行,簡化部署
如果你在比較 Qwen 模型,確保你測試的是 2507 版本,而非 4 月的檢查點。品質差異是明顯的。
運行方式
API 存取
阿里雲的 DashScope API 提供託管推理。OpenAI 相容格式。定價與 DeepSeek 相當。也可在 OpenRouter、Together AI 和 DeepInfra 上使用。
也可在 chat.qwen.ai 免費用於對話。
自建
235B 的總參數量意味著你需要大量記憶體來載入模型——半精度下大約 120-140GB。對於完整的 256K 上下文在 1M token 下,你大約需要 1,000GB 的 GPU 記憶體。典型工作負載下的實際情況:(來源:APXML)
- -2x A100 80GB——使用張量平行舒適運行
- -4x RTX 4090 24GB——使用謹慎量化勉強可行
- -1x A100 80GB——使用 4-bit 量化可行(有一定品質損失)
使用 vLLM 或 TGI 來服務。Ollama 有社群維護的量化版本,適用於較低階硬體。
特別針對香港開發者
雙語能力使 Qwen3-235B 成為需要同等處理中英文應用的預設選擇。大多數香港應用都需要這樣。如果你在構建面向客戶的產品、聊天機器人、文件處理系統或任何涉及中文文字的東西,從這裡開始。
截至 2026 年 3 月,香港開發的應用如 8BitOracle 和 SixLines 已經在使用 Qwen3-235B 驅動多語言聊天體驗——在生產環境中無縫處理中英文。
Qwen3-235B vs. DeepSeek V3
每個香港開發者都會問的問題:
在以下情況選擇 Qwen3-235B:
- -雙語/多語言很重要
- -結構化輸出、聊天和對話式 AI 是使用場景
- -成本效率很重要(22B 活躍 vs. DeepSeek 的約 37B 活躍)
- -你想要在一個模型中同時擁有思考/非思考雙模式
- -你在 Alibaba Cloud 基礎設施上
在以下情況選擇 DeepSeek V3.2:
- -深度推理是優先事項
- -MIT 授權比 Apache 2.0 更重要
- -你想要自建並完全控制
- -成本是首要考量
特別是代理式程式碼(工具呼叫、自主檔案編輯、多步驟工程任務),兩者都不是最佳選項。考慮 Qwen3-Coder 作為開源選項,或 Claude Opus 作為目前的天花板。MiniMax M2.5、GLM-5 和 Kimi K2.5 在 SWE-bench 上也有不錯的得分。
來源
在我們發布新文章和節目時收到通知。沒有垃圾郵件,只有訊號。