首页/所有文章/stepfun-3-5-flash
中国 AI 格局

StepFun 3.5 Flash:11B 活跃参数的以小博大之道

Hong Kong AI Podcast/2026-03-07/5 min read/StepFunMoEEfficiencyOpen SourceHong Kong

大多数 AI 模型的发布都专注于变得更大。StepFun 3.5 Flash 的有趣之处在于它专注于在更小的规模上变得更聪明。

这是一个 1960 亿参数的混合专家模型。但关键在于:每个输入只有 110 亿参数处于活跃状态。这意味着它运行快速且成本低廉,同时在 AIME 2025 上得分 97.3%,在 SWE-bench 上得分 74.4%。以 Apache 2.0 授权。

对于关注成本和延迟的香港开发者——基本上就是所有在构建实际产品的人——这是值得关注的模型。

MoE 技巧,简单解释

传统模型对每个输入都启动所有参数。一个 200B 模型每个 token 进行 200B 次计算。这很强大,但昂贵且缓慢。

混合专家将模型分割成专门的「专家」。对于每个输入,路由机制会选择一小部分专家。StepFun 3.5 Flash 总共有 196B 参数,但每个 token 只通过 11B 的计算量进行路由。

结果是:你获得了 196B 参数中编码的知识,却只付出 11B 模型的速度和成本。这是当前环境中最佳的比率。

基准测试

这些数字引起了人们的注意:

  • -AIME 2025: 97.3% ——这是一个严肃的数学竞赛基准测试
  • -SWE-bench: 74.4% ——真实世界的软件工程任务
  • -Apache 2.0 授权 ——可用于任何用途,商业用途,无限制

作为参考:AIME 上的 97.3% 使其与 DeepSeek R1 和其他前沿推理模型处于同一水平。但由于活跃参数数量较少,它的运行速度明显更快。

为什么这对香港很重要

成本

API 定价根据活跃参数而非总参数计算。一个 11B 活跃模型每个 token 的成本只是 200B+ 密集模型的一小部分。对于资金有限的初创公司——这描述了香港许多初创公司——这是实实在在省下的钱。

延迟

更少的活跃参数意味着更快的推理。如果你在构建对响应时间要求较高的面向使用者的应用,StepFun 3.5 Flash 以近乎即时的响应提供前沿级品质。

自行部署

11B 活跃参数意味着你可以在比完整密集模型更简单的硬件上运行。单个高端 GPU 就能处理推理。对于出于隐私或合规原因而自行部署的香港团队,这大幅降低了门槛。

HKEX 的关联

据报导 StepFun 正在寻求在香港交易所 IPO,加入 2026 年 1 月已在 HKEX 上市的 Zhipu (Z.ai) 和 MiniMax。香港正在成为中国 AI 公司首选的上市目的地——这些公司在本地上市意味着更好地取得其服务和生态系统。

如何使用

API: 通过 StepFun 的平台提供。OpenAI 兼容的 API 格式。

Hugging Face: 完整权重以 Apache 2.0 授权可供下载。

NVIDIA NIM: 通过 NVIDIA 的推理微服务平台提供预优化部署。这是生产部署最简单的途径。

Ollama/vLLM: 社群量化版本可用于本地部署。

什么时候选择 StepFun 3.5 Flash

当你需要速度和成本效率而非原始能力时,选择它而非 DeepSeek V3.2。当你需要前沿级准确度时,选择它而非较小的模型。它处于大多数生产应用实际需要的甜蜜点——足够好的品质、足够快的速度、足够低的成本。

最好的模型并不总是最大的。有时候,能以 10% 的成本提供 97% 品质的模型才是最好的。这就是 StepFun 3.5 Flash。



来源

对 AI 模型的效率前沿感兴趣?订阅 Hong Kong AI Podcast 了解更多关于塑造香港 AI 的工具和模型。

保持更新

在我们发布新文章和节目时收到通知。没有垃圾邮件,只有信号。

内容过时或有误?AI 发展迅速,我们希望做到正确。请通过以下方式告诉我们 contact@hongkongaipodcast.com