首页/所有文章/qwen3-235b-technical
中国 AI 格局

为何 Qwen3-235B-A22B 如此出色:技术深度解析

Hong Kong AI Podcast/2026-03-07/7 min read/QwenAlibabaMoETechnicalOpen Source

Qwen3-235B-A22B 可能是大多数人尚未仔细研究的最令人印象深刻的开源模型。由阿里巴巴 Qwen 团队于 2025 年 4 月 29 日发布,这是一个拥有 2350 亿参数的 Mixture of Experts 模型,每个 token 仅启用 220 亿活跃参数——且在大多数基准测试中与 GPT-4o 和 Claude Sonnet 竞争。采用 Apache 2.0 授权。

让我们深入分析它的工作原理以及香港开发者为何应该关注。

世代演进

Qwen 发展迅速:

Qwen 1(2023)——第一代。表现不错但未能与 GPT-4 竞争。确立了模型系列。

Qwen 2 / Qwen 2.5(2024)——重大飞跃。从 0.5B 到 72B 的密集模型。Qwen 2.5-72B 成为真正能与更大模型竞争的存在。VL(视觉语言)变体表现强劲。

Qwen 3(2025 年 4 月 29 日)——MoE 世代。阿里巴巴推出完整 Qwen3 系列:密集模型(0.6B 到 32B)和两个 MoE 模型(30B-A3B 和旗舰 235B-A22B)。使用 36 万亿 token 训练——是 Qwen 2.5 训练数据的两倍。支持 119 种语言和方言。(来源:Alibaba Cloud

Qwen 3.5(2026 年 2 月 16 日)——最新世代。旗舰扩展至 397B-A17B MoE,较小模型(低至 0.8B)在随后几周推出。但 Qwen 3 系列的 235B-A22B 由于 2507 更新,仍然是许多部署的最佳甜蜜点。(来源:Qwen Blog

架构:为何 235B/22B 很重要

Mixture of Experts

该模型拥有 2350 亿个总参数,分布在 94 个 Transformer 层中的 128 个专家子网络。对于每个输入 token,路由机制选择 8 个专家——启用约 220 亿参数。(来源:Hugging Face Model Card

这意味着:

  • -拥有 235B 模型的知识容量(专家们共同「知道」更多)
  • -约 22B 模型的推理成本(每个 token 仅 22B 参数参与运算)
  • -可管理的内存占用(你需要载入全部 235B,但运算仅 22B)

路由在训练中学习——模型学会哪些专家与不同类型的输入相关。数学 token 可能启用与代码 token 或中文 token 不同的专家。

架构细节

底层方面,Qwen3-235B 使用分组查询注意力,配备 64 个查询头和 4 个键值头、RMSNorm 层归一化、SwiGLU 激活函数,以及旋转位置嵌入(RoPE)进行位置编码。原生上下文长度为 262,144 个 token(256K)。(来源:Hugging Face Model Card

22B 活跃的甜蜜点

220 亿活跃参数达到了一个卓越的效率点。它足以在大多数任务上产生前沿品质的输出,同时又便宜到可以大规模服务。比较一下:

  • -GPT-4 估计约 1.8T 总 MoE 参数
  • -DeepSeek V3 为 671B MoE,约 37B 活跃
  • -Qwen3-235B 为 235B MoE,22B 活跃

Qwen3-235B 以最大模型一小部分的运算成本提供其 80-90% 的品质。对于每查询成本重要的生产应用,这是正确的权衡。

思考模式 vs 非思考模式

Qwen3 引入了双模式:「思考」模式展示模型的思维链推理(类似 DeepSeek R1 或 OpenAI o1),和「非思考」模式提供快速、直接的响应。(来源:Qwen Blog

你可以通过 API 控制——对复杂推理任务启用思考模式,对简单查询禁用它。这种灵活性意味着一个模型处理两种用途,减少了在不同模型之间路由的需要。

基准表现

Qwen3-235B-A22B 与有效大小数倍于它的模型竞争:

数学: 思考模式下在 AIME'24 上得 85.7,在 AIME'25 上得 81.5,展现强大的数学推理能力。不是在每个基准上都能达到 DeepSeek R1 的水准,但接近——且运行成本低得多。(来源:Qwen Technical Report

代码: 在 LiveCodeBench v5 上得 70.7,CodeForces 评分 2,056。(来源:Qwen Technical Report)基准数字看起来很强,但香港从业者在代理式工作流程中的实际经验却不同。Qwen3-235B 的真正优势在于结构化输出和对话式聊天——当涉及 OpenCode 或 Claude Code 等工具调用框架(多步骤文件编辑、自主调试)时,专用的代码模型如 Qwen3-Coder 或 Claude Opus 往往表现更好。值得注意的是,阿里巴巴专门发布了 Qwen3-Coder 系列用于代理式代码任务,这暗示 235B 通用模型并非该工作流程的最佳选择。

多语言: 这是 Qwen 的突出优势。2507 变体(2025 年 7 月更新)显著提升了多语言表现。特别是在中英双语任务上,它可以说是最好的开源模型。

通用知识: 在 MMLU-Redux 和类似基准上与 GPT-4o 竞争。不是绝对最好的,但稳稳位于前沿群体中。(来源:Qwen Technical Report

为何「2507」很重要

「-2507」后缀表示 2025 年 7 月的检查点——一个重要的后训练更新,分别于 2025 年 7 月 21 日(instruct 版本)和 2025 年 7 月 25 日(thinking 版本)发布。主要改进:(来源:Hugging Face

  • -指令遵循(更少拒绝、更好地遵循复杂提示词)
  • -多语言表现(特别是较不常见的语言)
  • -代码生成品质
  • -降低幻觉率
  • -instruct-2507 变体仅以非思考模式运行,简化部署

如果你在比较 Qwen 模型,确保你测试的是 2507 版本,而非 4 月的检查点。品质差异是明显的。

运行方式

API 访问

阿里云的 DashScope API 提供托管推理。OpenAI 兼容格式。定价与 DeepSeek 相当。也可在 OpenRouter、Together AI 和 DeepInfra 上使用。

也可在 chat.qwen.ai 免费用于对话。

自建

235B 的总参数量意味着你需要大量内存来载入模型——半精度下大约 120-140GB。对于完整的 256K 上下文在 1M token 下,你大约需要 1,000GB 的 GPU 内存。典型工作负载下的实际情况:(来源:APXML

  • -2x A100 80GB——使用张量并行舒适运行
  • -4x RTX 4090 24GB——使用谨慎量化勉强可行
  • -1x A100 80GB——使用 4-bit 量化可行(有一定品质损失)

使用 vLLM 或 TGI 来服务。Ollama 有社区维护的量化版本,适用于较低端硬件。

特别针对香港开发者

双语能力使 Qwen3-235B 成为需要同等处理中英文应用的默认选择。大多数香港应用都需要这样。如果你在构建面向客户的产品、聊天机器人、文档处理系统或任何涉及中文文字的东西,从这里开始。

截至 2026 年 3 月,香港开发的应用如 8BitOracleSixLines 已经在使用 Qwen3-235B 驱动多语言聊天体验——在生产环境中无缝处理中英文。

Qwen3-235B vs. DeepSeek V3

每个香港开发者都会问的问题:

在以下情况选择 Qwen3-235B:

  • -双语/多语言很重要
  • -结构化输出、聊天和对话式 AI 是使用场景
  • -成本效率很重要(22B 活跃 vs. DeepSeek 的约 37B 活跃)
  • -你想要在一个模型中同时拥有思考/非思考双模式
  • -你在 Alibaba Cloud 基础设施上

在以下情况选择 DeepSeek V3.2:

  • -深度推理是优先事项
  • -MIT 授权比 Apache 2.0 更重要
  • -你想要自建并完全控制
  • -成本是首要考量

特别是代理式代码(工具调用、自主文件编辑、多步骤工程任务),两者都不是最佳选项。考虑 Qwen3-Coder 作为开源选项,或 Claude Opus 作为目前的天花板。MiniMax M2.5、GLM-5 和 Kimi K2.5 在 SWE-bench 上也有不错的得分。


来源

保持更新

在我们发布新文章和节目时收到通知。没有垃圾邮件,只有信号。

内容过时或有误?AI 发展迅速,我们希望做到正确。请通过以下方式告诉我们 contact@hongkongaipodcast.com