为何 Qwen3-235B-A22B 如此出色:技术深度解析
Qwen3-235B-A22B 可能是大多数人尚未仔细研究的最令人印象深刻的开源模型。由阿里巴巴 Qwen 团队于 2025 年 4 月 29 日发布,这是一个拥有 2350 亿参数的 Mixture of Experts 模型,每个 token 仅启用 220 亿活跃参数——且在大多数基准测试中与 GPT-4o 和 Claude Sonnet 竞争。采用 Apache 2.0 授权。
让我们深入分析它的工作原理以及香港开发者为何应该关注。
世代演进
Qwen 发展迅速:
Qwen 1(2023)——第一代。表现不错但未能与 GPT-4 竞争。确立了模型系列。
Qwen 2 / Qwen 2.5(2024)——重大飞跃。从 0.5B 到 72B 的密集模型。Qwen 2.5-72B 成为真正能与更大模型竞争的存在。VL(视觉语言)变体表现强劲。
Qwen 3(2025 年 4 月 29 日)——MoE 世代。阿里巴巴推出完整 Qwen3 系列:密集模型(0.6B 到 32B)和两个 MoE 模型(30B-A3B 和旗舰 235B-A22B)。使用 36 万亿 token 训练——是 Qwen 2.5 训练数据的两倍。支持 119 种语言和方言。(来源:Alibaba Cloud)
Qwen 3.5(2026 年 2 月 16 日)——最新世代。旗舰扩展至 397B-A17B MoE,较小模型(低至 0.8B)在随后几周推出。但 Qwen 3 系列的 235B-A22B 由于 2507 更新,仍然是许多部署的最佳甜蜜点。(来源:Qwen Blog)
架构:为何 235B/22B 很重要
Mixture of Experts
该模型拥有 2350 亿个总参数,分布在 94 个 Transformer 层中的 128 个专家子网络。对于每个输入 token,路由机制选择 8 个专家——启用约 220 亿参数。(来源:Hugging Face Model Card)
这意味着:
- -拥有 235B 模型的知识容量(专家们共同「知道」更多)
- -约 22B 模型的推理成本(每个 token 仅 22B 参数参与运算)
- -可管理的内存占用(你需要载入全部 235B,但运算仅 22B)
路由在训练中学习——模型学会哪些专家与不同类型的输入相关。数学 token 可能启用与代码 token 或中文 token 不同的专家。
架构细节
底层方面,Qwen3-235B 使用分组查询注意力,配备 64 个查询头和 4 个键值头、RMSNorm 层归一化、SwiGLU 激活函数,以及旋转位置嵌入(RoPE)进行位置编码。原生上下文长度为 262,144 个 token(256K)。(来源:Hugging Face Model Card)
22B 活跃的甜蜜点
220 亿活跃参数达到了一个卓越的效率点。它足以在大多数任务上产生前沿品质的输出,同时又便宜到可以大规模服务。比较一下:
- -GPT-4 估计约 1.8T 总 MoE 参数
- -DeepSeek V3 为 671B MoE,约 37B 活跃
- -Qwen3-235B 为 235B MoE,22B 活跃
Qwen3-235B 以最大模型一小部分的运算成本提供其 80-90% 的品质。对于每查询成本重要的生产应用,这是正确的权衡。
思考模式 vs 非思考模式
Qwen3 引入了双模式:「思考」模式展示模型的思维链推理(类似 DeepSeek R1 或 OpenAI o1),和「非思考」模式提供快速、直接的响应。(来源:Qwen Blog)
你可以通过 API 控制——对复杂推理任务启用思考模式,对简单查询禁用它。这种灵活性意味着一个模型处理两种用途,减少了在不同模型之间路由的需要。
基准表现
Qwen3-235B-A22B 与有效大小数倍于它的模型竞争:
数学: 思考模式下在 AIME'24 上得 85.7,在 AIME'25 上得 81.5,展现强大的数学推理能力。不是在每个基准上都能达到 DeepSeek R1 的水准,但接近——且运行成本低得多。(来源:Qwen Technical Report)
代码: 在 LiveCodeBench v5 上得 70.7,CodeForces 评分 2,056。(来源:Qwen Technical Report)基准数字看起来很强,但香港从业者在代理式工作流程中的实际经验却不同。Qwen3-235B 的真正优势在于结构化输出和对话式聊天——当涉及 OpenCode 或 Claude Code 等工具调用框架(多步骤文件编辑、自主调试)时,专用的代码模型如 Qwen3-Coder 或 Claude Opus 往往表现更好。值得注意的是,阿里巴巴专门发布了 Qwen3-Coder 系列用于代理式代码任务,这暗示 235B 通用模型并非该工作流程的最佳选择。
多语言: 这是 Qwen 的突出优势。2507 变体(2025 年 7 月更新)显著提升了多语言表现。特别是在中英双语任务上,它可以说是最好的开源模型。
通用知识: 在 MMLU-Redux 和类似基准上与 GPT-4o 竞争。不是绝对最好的,但稳稳位于前沿群体中。(来源:Qwen Technical Report)
为何「2507」很重要
「-2507」后缀表示 2025 年 7 月的检查点——一个重要的后训练更新,分别于 2025 年 7 月 21 日(instruct 版本)和 2025 年 7 月 25 日(thinking 版本)发布。主要改进:(来源:Hugging Face)
- -指令遵循(更少拒绝、更好地遵循复杂提示词)
- -多语言表现(特别是较不常见的语言)
- -代码生成品质
- -降低幻觉率
- -instruct-2507 变体仅以非思考模式运行,简化部署
如果你在比较 Qwen 模型,确保你测试的是 2507 版本,而非 4 月的检查点。品质差异是明显的。
运行方式
API 访问
阿里云的 DashScope API 提供托管推理。OpenAI 兼容格式。定价与 DeepSeek 相当。也可在 OpenRouter、Together AI 和 DeepInfra 上使用。
也可在 chat.qwen.ai 免费用于对话。
自建
235B 的总参数量意味着你需要大量内存来载入模型——半精度下大约 120-140GB。对于完整的 256K 上下文在 1M token 下,你大约需要 1,000GB 的 GPU 内存。典型工作负载下的实际情况:(来源:APXML)
- -2x A100 80GB——使用张量并行舒适运行
- -4x RTX 4090 24GB——使用谨慎量化勉强可行
- -1x A100 80GB——使用 4-bit 量化可行(有一定品质损失)
使用 vLLM 或 TGI 来服务。Ollama 有社区维护的量化版本,适用于较低端硬件。
特别针对香港开发者
双语能力使 Qwen3-235B 成为需要同等处理中英文应用的默认选择。大多数香港应用都需要这样。如果你在构建面向客户的产品、聊天机器人、文档处理系统或任何涉及中文文字的东西,从这里开始。
截至 2026 年 3 月,香港开发的应用如 8BitOracle 和 SixLines 已经在使用 Qwen3-235B 驱动多语言聊天体验——在生产环境中无缝处理中英文。
Qwen3-235B vs. DeepSeek V3
每个香港开发者都会问的问题:
在以下情况选择 Qwen3-235B:
- -双语/多语言很重要
- -结构化输出、聊天和对话式 AI 是使用场景
- -成本效率很重要(22B 活跃 vs. DeepSeek 的约 37B 活跃)
- -你想要在一个模型中同时拥有思考/非思考双模式
- -你在 Alibaba Cloud 基础设施上
在以下情况选择 DeepSeek V3.2:
- -深度推理是优先事项
- -MIT 授权比 Apache 2.0 更重要
- -你想要自建并完全控制
- -成本是首要考量
特别是代理式代码(工具调用、自主文件编辑、多步骤工程任务),两者都不是最佳选项。考虑 Qwen3-Coder 作为开源选项,或 Claude Opus 作为目前的天花板。MiniMax M2.5、GLM-5 和 Kimi K2.5 在 SWE-bench 上也有不错的得分。
来源
在我们发布新文章和节目时收到通知。没有垃圾邮件,只有信号。