StepFun 3.5 Flash:11B 活躍參數的以小博大之道
大多數 AI 模型的發布都專注於變得更大。StepFun 3.5 Flash 的有趣之處在於它專注於在更小的規模上變得更聰明。
這是一個 1960 億參數的混合專家模型。但關鍵在於:每個輸入只有 110 億參數處於活躍狀態。這意味著它運行快速且成本低廉,同時在 AIME 2025 上得分 97.3%,在 SWE-bench 上得分 74.4%。以 Apache 2.0 授權。
對於關注成本和延遲的香港開發者——基本上就是所有在構建實際產品的人——這是值得關注的模型。
MoE 技巧,簡單解釋
傳統模型對每個輸入都啟動所有參數。一個 200B 模型每個 token 進行 200B 次計算。這很強大,但昂貴且緩慢。
混合專家將模型分割成專門的「專家」。對於每個輸入,路由機制會選擇一小部分專家。StepFun 3.5 Flash 總共有 196B 參數,但每個 token 只通過 11B 的計算量進行路由。
結果是:你獲得了 196B 參數中編碼的知識,卻只付出 11B 模型的速度和成本。這是當前環境中最佳的比率。
基準測試
這些數字引起了人們的注意:
- -AIME 2025: 97.3% ——這是一個嚴肅的數學競賽基準測試
- -SWE-bench: 74.4% ——真實世界的軟體工程任務
- -Apache 2.0 授權 ——可用於任何用途,商業用途,無限制
作為參考:AIME 上的 97.3% 使其與 DeepSeek R1 和其他前沿推理模型處於同一水平。但由於活躍參數數量較少,它的運行速度明顯更快。
為什麼這對香港很重要
成本
API 定價根據活躍參數而非總參數計算。一個 11B 活躍模型每個 token 的成本只是 200B+ 密集模型的一小部分。對於資金有限的初創公司——這描述了香港許多初創公司——這是實實在在省下的錢。
延遲
更少的活躍參數意味著更快的推理。如果你在構建對回應時間要求較高的面向使用者的應用,StepFun 3.5 Flash 以近乎即時的回應提供前沿級品質。
自行部署
11B 活躍參數意味著你可以在比完整密集模型更簡單的硬體上運行。單個高端 GPU 就能處理推理。對於出於隱私或合規原因而自行部署的香港團隊,這大幅降低了門檻。
HKEX 的關聯
據報導 StepFun 正在尋求在香港交易所 IPO,加入 2026 年 1 月已在 HKEX 上市的 Zhipu (Z.ai) 和 MiniMax。香港正在成為中國 AI 公司首選的上市目的地——這些公司在本地上市意味著更好地取得其服務和生態系統。
如何使用
API: 通過 StepFun 的平台提供。OpenAI 相容的 API 格式。
Hugging Face: 完整權重以 Apache 2.0 授權可供下載。
NVIDIA NIM: 通過 NVIDIA 的推理微服務平台提供預優化部署。這是生產部署最簡單的途徑。
Ollama/vLLM: 社群量化版本可用於本地部署。
什麼時候選擇 StepFun 3.5 Flash
當你需要速度和成本效率而非原始能力時,選擇它而非 DeepSeek V3.2。當你需要前沿級準確度時,選擇它而非較小的模型。它處於大多數生產應用實際需要的甜蜜點——足夠好的品質、足夠快的速度、足夠低的成本。
最好的模型並不總是最大的。有時候,能以 10% 的成本提供 97% 品質的模型才是最好的。這就是 StepFun 3.5 Flash。
來源
- -Step 3.5 Flash — GitHub
- -Step 3.5 Flash — Hugging Face
- -Step 3.5 Flash Official Blog
- -Step 3.5 Flash Technical Report — arXiv
- -Step 3.5 Flash on OpenRouter
- -Benchmarks — DeepWiki
對 AI 模型的效率前沿感興趣?訂閱 Hong Kong AI Podcast 了解更多關於塑造香港 AI 的工具和模型。
在我們發布新文章和節目時收到通知。沒有垃圾郵件,只有訊號。