什么是香港AI播客？

香港AI播客是与香港 AI 从业者的真实对话，涵盖研究、金融科技、机器人、空间计算、医疗和文化。它是草根的、社区驱动的，提供英文、繁体中文和简体中文版本。

香港AI播客的主持人是谁？

节目由周倩彤（Tanya Chou）担任主持，陈敖桂（Augustin Chan）担任共同主持，陈永杰（Ricky Chan）担任摄影总监。他们为每集节目带来好奇心和从业者的专业知识。

香港AI播客涵盖哪些主题？

播客涵盖香港可用的 AI 工具、中国 AI 模型和平台、香港本地 AI 生态系统，以及 AI 从业者的实用指南。博客分为四大专栏：香港 AI 工具栈、中国 AI 格局、香港 AI 生态和从业者指南。

香港AI播客有中文版本吗？

有。网站和所有文章均提供英文、繁体中文和简体中文版本。节目主要以英文和广东话录制。

首页/所有文章/qwen3-235b-technical

中国 AI 格局

为何 Qwen3-235B-A22B 如此出色：技术深度解析

Hong Kong AI Podcast/2026-03-07/7 min read/QwenAlibabaMoETechnicalOpen Source

Qwen3-235B-A22B 可能是大多数人尚未仔细研究的最令人印象深刻的开源模型。由阿里巴巴 Qwen 团队于 2025 年 4 月 29 日发布，这是一个拥有 2350 亿参数的 Mixture of Experts 模型，每个 token 仅启用 220 亿活跃参数——且在大多数基准测试中与 GPT-4o 和 Claude Sonnet 竞争。采用 Apache 2.0 授权。

让我们深入分析它的工作原理以及香港开发者为何应该关注。

世代演进

Qwen 发展迅速：

Qwen 1（2023）——第一代。表现不错但未能与 GPT-4 竞争。确立了模型系列。

Qwen 2 / Qwen 2.5（2024）——重大飞跃。从 0.5B 到 72B 的密集模型。Qwen 2.5-72B 成为真正能与更大模型竞争的存在。VL（视觉语言）变体表现强劲。

Qwen 3（2025 年 4 月 29 日）——MoE 世代。阿里巴巴推出完整 Qwen3 系列：密集模型（0.6B 到 32B）和两个 MoE 模型（30B-A3B 和旗舰 235B-A22B）。使用 36 万亿 token 训练——是 Qwen 2.5 训练数据的两倍。支持 119 种语言和方言。（来源：Alibaba Cloud）

Qwen 3.5（2026 年 2 月 16 日）——最新世代。旗舰扩展至 397B-A17B MoE，较小模型（低至 0.8B）在随后几周推出。但 Qwen 3 系列的 235B-A22B 由于 2507 更新，仍然是许多部署的最佳甜蜜点。（来源：Qwen Blog）

架构：为何 235B/22B 很重要

Mixture of Experts

该模型拥有 2350 亿个总参数，分布在 94 个 Transformer 层中的 128 个专家子网络。对于每个输入 token，路由机制选择 8 个专家——启用约 220 亿参数。（来源：Hugging Face Model Card）

这意味着：

-拥有 235B 模型的知识容量（专家们共同「知道」更多）
-约 22B 模型的推理成本（每个 token 仅 22B 参数参与运算）
-可管理的内存占用（你需要载入全部 235B，但运算仅 22B）

路由在训练中学习——模型学会哪些专家与不同类型的输入相关。数学 token 可能启用与代码 token 或中文 token 不同的专家。

架构细节

底层方面，Qwen3-235B 使用分组查询注意力，配备 64 个查询头和 4 个键值头、RMSNorm 层归一化、SwiGLU 激活函数，以及旋转位置嵌入（RoPE）进行位置编码。原生上下文长度为 262,144 个 token（256K）。（来源：Hugging Face Model Card）

22B 活跃的甜蜜点

220 亿活跃参数达到了一个卓越的效率点。它足以在大多数任务上产生前沿品质的输出，同时又便宜到可以大规模服务。比较一下：

-GPT-4 估计约 1.8T 总 MoE 参数
-DeepSeek V3 为 671B MoE，约 37B 活跃
-Qwen3-235B 为 235B MoE，22B 活跃

Qwen3-235B 以最大模型一小部分的运算成本提供其 80-90% 的品质。对于每查询成本重要的生产应用，这是正确的权衡。

思考模式 vs 非思考模式

Qwen3 引入了双模式：「思考」模式展示模型的思维链推理（类似 DeepSeek R1 或 OpenAI o1），和「非思考」模式提供快速、直接的响应。（来源：Qwen Blog）

你可以通过 API 控制——对复杂推理任务启用思考模式，对简单查询禁用它。这种灵活性意味着一个模型处理两种用途，减少了在不同模型之间路由的需要。

基准表现

Qwen3-235B-A22B 与有效大小数倍于它的模型竞争：

数学： 思考模式下在 AIME'24 上得 85.7，在 AIME'25 上得 81.5，展现强大的数学推理能力。不是在每个基准上都能达到 DeepSeek R1 的水准，但接近——且运行成本低得多。（来源：Qwen Technical Report）

代码： 在 LiveCodeBench v5 上得 70.7，CodeForces 评分 2,056。（来源：Qwen Technical Report）基准数字看起来很强，但香港从业者在代理式工作流程中的实际经验却不同。Qwen3-235B 的真正优势在于结构化输出和对话式聊天——当涉及 OpenCode 或 Claude Code 等工具调用框架（多步骤文件编辑、自主调试）时，专用的代码模型如 Qwen3-Coder 或 Claude Opus 往往表现更好。值得注意的是，阿里巴巴专门发布了 Qwen3-Coder 系列用于代理式代码任务，这暗示 235B 通用模型并非该工作流程的最佳选择。

多语言： 这是 Qwen 的突出优势。2507 变体（2025 年 7 月更新）显著提升了多语言表现。特别是在中英双语任务上，它可以说是最好的开源模型。

通用知识： 在 MMLU-Redux 和类似基准上与 GPT-4o 竞争。不是绝对最好的，但稳稳位于前沿群体中。（来源：Qwen Technical Report）

为何「2507」很重要

「-2507」后缀表示 2025 年 7 月的检查点——一个重要的后训练更新，分别于 2025 年 7 月 21 日（instruct 版本）和 2025 年 7 月 25 日（thinking 版本）发布。主要改进：（来源：Hugging Face）

-指令遵循（更少拒绝、更好地遵循复杂提示词）
-多语言表现（特别是较不常见的语言）
-代码生成品质
-降低幻觉率
-instruct-2507 变体仅以非思考模式运行，简化部署

如果你在比较 Qwen 模型，确保你测试的是 2507 版本，而非 4 月的检查点。品质差异是明显的。

运行方式

API 访问

阿里云的 DashScope API 提供托管推理。OpenAI 兼容格式。定价与 DeepSeek 相当。也可在 OpenRouter、Together AI 和 DeepInfra 上使用。

也可在 chat.qwen.ai 免费用于对话。

自建

235B 的总参数量意味着你需要大量内存来载入模型——半精度下大约 120-140GB。对于完整的 256K 上下文在 1M token 下，你大约需要 1,000GB 的 GPU 内存。典型工作负载下的实际情况：（来源：APXML）

-2x A100 80GB——使用张量并行舒适运行
-4x RTX 4090 24GB——使用谨慎量化勉强可行
-1x A100 80GB——使用 4-bit 量化可行（有一定品质损失）

使用 vLLM 或 TGI 来服务。Ollama 有社区维护的量化版本，适用于较低端硬件。

特别针对香港开发者

双语能力使 Qwen3-235B 成为需要同等处理中英文应用的默认选择。大多数香港应用都需要这样。如果你在构建面向客户的产品、聊天机器人、文档处理系统或任何涉及中文文字的东西，从这里开始。

截至 2026 年 3 月，香港开发的应用如 8BitOracle 和 SixLines 已经在使用 Qwen3-235B 驱动多语言聊天体验——在生产环境中无缝处理中英文。

Qwen3-235B vs. DeepSeek V3

每个香港开发者都会问的问题：

在以下情况选择 Qwen3-235B：

-双语/多语言很重要
-结构化输出、聊天和对话式 AI 是使用场景
-成本效率很重要（22B 活跃 vs. DeepSeek 的约 37B 活跃）
-你想要在一个模型中同时拥有思考/非思考双模式
-你在 Alibaba Cloud 基础设施上

在以下情况选择 DeepSeek V3.2：

-深度推理是优先事项
-MIT 授权比 Apache 2.0 更重要
-你想要自建并完全控制
-成本是首要考量

特别是代理式代码（工具调用、自主文件编辑、多步骤工程任务），两者都不是最佳选项。考虑 Qwen3-Coder 作为开源选项，或 Claude Opus 作为目前的天花板。MiniMax M2.5、GLM-5 和 Kimi K2.5 在 SWE-bench 上也有不错的得分。

来源

保持更新

在我们发布新文章和节目时收到通知。没有垃圾邮件，只有信号。

内容过时或有误？AI 发展迅速，我们希望做到正确。请通过以下方式告诉我们 contact@hongkongaipodcast.com