什么是香港AI播客？

香港AI播客是与香港 AI 从业者的真实对话，涵盖研究、金融科技、机器人、空间计算、医疗和文化。它是草根的、社区驱动的，提供英文、繁体中文和简体中文版本。

香港AI播客的主持人是谁？

节目由周倩彤（Tanya Chou）担任主持，陈敖桂（Augustin Chan）担任共同主持，陈永杰（Ricky Chan）担任摄影总监。他们为每集节目带来好奇心和从业者的专业知识。

播客涵盖香港可用的 AI 工具、中国 AI 模型和平台、香港本地 AI 生态系统，以及 AI 从业者的实用指南。博客分为四大专栏：香港 AI 工具栈、中国 AI 格局、香港 AI 生态和从业者指南。

有。网站和所有文章均提供英文、繁体中文和简体中文版本。节目主要以英文和广东话录制。

首页/所有文章/stepfun-3-5-flash

中国 AI 格局

Hong Kong AI Podcast/2026-03-07/5 min read/StepFunMoEEfficiencyOpen SourceHong Kong

大多数 AI 模型的发布都专注于变得更大。StepFun 3.5 Flash 的有趣之处在于它专注于在更小的规模上变得更聪明。

这是一个 1960 亿参数的混合专家模型。但关键在于：每个输入只有 110 亿参数处于活跃状态。这意味着它运行快速且成本低廉，同时在 AIME 2025 上得分 97.3%，在 SWE-bench 上得分 74.4%。以 Apache 2.0 授权。

对于关注成本和延迟的香港开发者——基本上就是所有在构建实际产品的人——这是值得关注的模型。

传统模型对每个输入都启动所有参数。一个 200B 模型每个 token 进行 200B 次计算。这很强大，但昂贵且缓慢。

混合专家将模型分割成专门的「专家」。对于每个输入，路由机制会选择一小部分专家。StepFun 3.5 Flash 总共有 196B 参数，但每个 token 只通过 11B 的计算量进行路由。

结果是：你获得了 196B 参数中编码的知识，却只付出 11B 模型的速度和成本。这是当前环境中最佳的比率。

这些数字引起了人们的注意：

作为参考：AIME 上的 97.3% 使其与 DeepSeek R1 和其他前沿推理模型处于同一水平。但由于活跃参数数量较少，它的运行速度明显更快。

API 定价根据活跃参数而非总参数计算。一个 11B 活跃模型每个 token 的成本只是 200B+ 密集模型的一小部分。对于资金有限的初创公司——这描述了香港许多初创公司——这是实实在在省下的钱。

更少的活跃参数意味着更快的推理。如果你在构建对响应时间要求较高的面向使用者的应用，StepFun 3.5 Flash 以近乎即时的响应提供前沿级品质。

11B 活跃参数意味着你可以在比完整密集模型更简单的硬件上运行。单个高端 GPU 就能处理推理。对于出于隐私或合规原因而自行部署的香港团队，这大幅降低了门槛。

据报导 StepFun 正在寻求在香港交易所 IPO，加入 2026 年 1 月已在 HKEX 上市的 Zhipu (Z.ai) 和 MiniMax。香港正在成为中国 AI 公司首选的上市目的地——这些公司在本地上市意味着更好地取得其服务和生态系统。

API： 通过 StepFun 的平台提供。OpenAI 兼容的 API 格式。

Hugging Face： 完整权重以 Apache 2.0 授权可供下载。

NVIDIA NIM： 通过 NVIDIA 的推理微服务平台提供预优化部署。这是生产部署最简单的途径。

Ollama/vLLM： 社群量化版本可用于本地部署。

当你需要速度和成本效率而非原始能力时，选择它而非 DeepSeek V3.2。当你需要前沿级准确度时，选择它而非较小的模型。它处于大多数生产应用实际需要的甜蜜点——足够好的品质、足够快的速度、足够低的成本。

最好的模型并不总是最大的。有时候，能以 10% 的成本提供 97% 品质的模型才是最好的。这就是 StepFun 3.5 Flash。

对 AI 模型的效率前沿感兴趣？订阅 Hong Kong AI Podcast 了解更多关于塑造香港 AI 的工具和模型。

保持更新

在我们发布新文章和节目时收到通知。没有垃圾邮件，只有信号。

内容过时或有误？AI 发展迅速，我们希望做到正确。请通过以下方式告诉我们 contact@hongkongaipodcast.com