什麼是香港AI播客？

香港AI播客是與香港 AI 從業者的真實對話，涵蓋研究、金融科技、機器人、空間計算、醫療和文化。它是草根的、社群驅動的，提供英文、繁體中文和簡體中文版本。

香港AI播客的主持人是誰？

節目由周倩彤（Tanya Chou）擔任主持，陳敖桂（Augustin Chan）擔任共同主持，陳永杰（Ricky Chan）擔任攝影總監。他們為每集節目帶來好奇心和從業者的專業知識。

播客涵蓋香港可用的 AI 工具、中國 AI 模型和平台、香港本地 AI 生態系統，以及 AI 從業者的實用指南。網誌分為四大專欄：香港 AI 工具棧、中國 AI 格局、香港 AI 生態和從業者指南。

有。網站和所有文章均提供英文、繁體中文和簡體中文版本。節目主要以英文和廣東話錄製。

首頁/所有文章/stepfun-3-5-flash

中國 AI 格局

Hong Kong AI Podcast/2026-03-07/5 min read/StepFunMoEEfficiencyOpen SourceHong Kong

大多數 AI 模型的發布都專注於變得更大。StepFun 3.5 Flash 的有趣之處在於它專注於在更小的規模上變得更聰明。

這是一個 1960 億參數的混合專家模型。但關鍵在於：每個輸入只有 110 億參數處於活躍狀態。這意味著它運行快速且成本低廉，同時在 AIME 2025 上得分 97.3%，在 SWE-bench 上得分 74.4%。以 Apache 2.0 授權。

對於關注成本和延遲的香港開發者——基本上就是所有在構建實際產品的人——這是值得關注的模型。

傳統模型對每個輸入都啟動所有參數。一個 200B 模型每個 token 進行 200B 次計算。這很強大，但昂貴且緩慢。

混合專家將模型分割成專門的「專家」。對於每個輸入，路由機制會選擇一小部分專家。StepFun 3.5 Flash 總共有 196B 參數，但每個 token 只通過 11B 的計算量進行路由。

結果是：你獲得了 196B 參數中編碼的知識，卻只付出 11B 模型的速度和成本。這是當前環境中最佳的比率。

這些數字引起了人們的注意：

作為參考：AIME 上的 97.3% 使其與 DeepSeek R1 和其他前沿推理模型處於同一水平。但由於活躍參數數量較少，它的運行速度明顯更快。

API 定價根據活躍參數而非總參數計算。一個 11B 活躍模型每個 token 的成本只是 200B+ 密集模型的一小部分。對於資金有限的初創公司——這描述了香港許多初創公司——這是實實在在省下的錢。

更少的活躍參數意味著更快的推理。如果你在構建對回應時間要求較高的面向使用者的應用，StepFun 3.5 Flash 以近乎即時的回應提供前沿級品質。

11B 活躍參數意味著你可以在比完整密集模型更簡單的硬體上運行。單個高端 GPU 就能處理推理。對於出於隱私或合規原因而自行部署的香港團隊，這大幅降低了門檻。

據報導 StepFun 正在尋求在香港交易所 IPO，加入 2026 年 1 月已在 HKEX 上市的 Zhipu (Z.ai) 和 MiniMax。香港正在成為中國 AI 公司首選的上市目的地——這些公司在本地上市意味著更好地取得其服務和生態系統。

API： 通過 StepFun 的平台提供。OpenAI 相容的 API 格式。

Hugging Face： 完整權重以 Apache 2.0 授權可供下載。

NVIDIA NIM： 通過 NVIDIA 的推理微服務平台提供預優化部署。這是生產部署最簡單的途徑。

Ollama/vLLM： 社群量化版本可用於本地部署。

當你需要速度和成本效率而非原始能力時，選擇它而非 DeepSeek V3.2。當你需要前沿級準確度時，選擇它而非較小的模型。它處於大多數生產應用實際需要的甜蜜點——足夠好的品質、足夠快的速度、足夠低的成本。

最好的模型並不總是最大的。有時候，能以 10% 的成本提供 97% 品質的模型才是最好的。這就是 StepFun 3.5 Flash。

對 AI 模型的效率前沿感興趣？訂閱 Hong Kong AI Podcast 了解更多關於塑造香港 AI 的工具和模型。

保持更新

在我們發布新文章和節目時收到通知。沒有垃圾郵件，只有訊號。

內容過時或有誤？AI 發展迅速，我們希望做到正確。請通過以下方式告訴我們 contact@hongkongaipodcast.com