StepFun 3.5 Flash:11B 活跃参数的以小博大之道
大多数 AI 模型的发布都专注于变得更大。StepFun 3.5 Flash 的有趣之处在于它专注于在更小的规模上变得更聪明。
这是一个 1960 亿参数的混合专家模型。但关键在于:每个输入只有 110 亿参数处于活跃状态。这意味着它运行快速且成本低廉,同时在 AIME 2025 上得分 97.3%,在 SWE-bench 上得分 74.4%。以 Apache 2.0 授权。
对于关注成本和延迟的香港开发者——基本上就是所有在构建实际产品的人——这是值得关注的模型。
MoE 技巧,简单解释
传统模型对每个输入都启动所有参数。一个 200B 模型每个 token 进行 200B 次计算。这很强大,但昂贵且缓慢。
混合专家将模型分割成专门的「专家」。对于每个输入,路由机制会选择一小部分专家。StepFun 3.5 Flash 总共有 196B 参数,但每个 token 只通过 11B 的计算量进行路由。
结果是:你获得了 196B 参数中编码的知识,却只付出 11B 模型的速度和成本。这是当前环境中最佳的比率。
基准测试
这些数字引起了人们的注意:
- -AIME 2025: 97.3% ——这是一个严肃的数学竞赛基准测试
- -SWE-bench: 74.4% ——真实世界的软件工程任务
- -Apache 2.0 授权 ——可用于任何用途,商业用途,无限制
作为参考:AIME 上的 97.3% 使其与 DeepSeek R1 和其他前沿推理模型处于同一水平。但由于活跃参数数量较少,它的运行速度明显更快。
为什么这对香港很重要
成本
API 定价根据活跃参数而非总参数计算。一个 11B 活跃模型每个 token 的成本只是 200B+ 密集模型的一小部分。对于资金有限的初创公司——这描述了香港许多初创公司——这是实实在在省下的钱。
延迟
更少的活跃参数意味着更快的推理。如果你在构建对响应时间要求较高的面向使用者的应用,StepFun 3.5 Flash 以近乎即时的响应提供前沿级品质。
自行部署
11B 活跃参数意味着你可以在比完整密集模型更简单的硬件上运行。单个高端 GPU 就能处理推理。对于出于隐私或合规原因而自行部署的香港团队,这大幅降低了门槛。
HKEX 的关联
据报导 StepFun 正在寻求在香港交易所 IPO,加入 2026 年 1 月已在 HKEX 上市的 Zhipu (Z.ai) 和 MiniMax。香港正在成为中国 AI 公司首选的上市目的地——这些公司在本地上市意味着更好地取得其服务和生态系统。
如何使用
API: 通过 StepFun 的平台提供。OpenAI 兼容的 API 格式。
Hugging Face: 完整权重以 Apache 2.0 授权可供下载。
NVIDIA NIM: 通过 NVIDIA 的推理微服务平台提供预优化部署。这是生产部署最简单的途径。
Ollama/vLLM: 社群量化版本可用于本地部署。
什么时候选择 StepFun 3.5 Flash
当你需要速度和成本效率而非原始能力时,选择它而非 DeepSeek V3.2。当你需要前沿级准确度时,选择它而非较小的模型。它处于大多数生产应用实际需要的甜蜜点——足够好的品质、足够快的速度、足够低的成本。
最好的模型并不总是最大的。有时候,能以 10% 的成本提供 97% 品质的模型才是最好的。这就是 StepFun 3.5 Flash。
来源
- -Step 3.5 Flash — GitHub
- -Step 3.5 Flash — Hugging Face
- -Step 3.5 Flash Official Blog
- -Step 3.5 Flash Technical Report — arXiv
- -Step 3.5 Flash on OpenRouter
- -Benchmarks — DeepWiki
对 AI 模型的效率前沿感兴趣?订阅 Hong Kong AI Podcast 了解更多关于塑造香港 AI 的工具和模型。
在我们发布新文章和节目时收到通知。没有垃圾邮件,只有信号。