什麼是香港AI播客？

香港AI播客是與香港 AI 從業者的真實對話，涵蓋研究、金融科技、機器人、空間計算、醫療和文化。它是草根的、社群驅動的，提供英文、繁體中文和簡體中文版本。

香港AI播客的主持人是誰？

節目由周倩彤（Tanya Chou）擔任主持，陳敖桂（Augustin Chan）擔任共同主持，陳永杰（Ricky Chan）擔任攝影總監。他們為每集節目帶來好奇心和從業者的專業知識。

香港AI播客涵蓋哪些主題？

播客涵蓋香港可用的 AI 工具、中國 AI 模型和平台、香港本地 AI 生態系統，以及 AI 從業者的實用指南。網誌分為四大專欄：香港 AI 工具棧、中國 AI 格局、香港 AI 生態和從業者指南。

香港AI播客有中文版本嗎？

有。網站和所有文章均提供英文、繁體中文和簡體中文版本。節目主要以英文和廣東話錄製。

首頁/所有文章/self-hosting-deepseek-hk

從業者指南

在香港自建 DeepSeek：實用指南

Hong Kong AI Podcast/2026-03-07/7 min read/DeepSeekSelf-HostingOllamavLLMHong Kong

你可以在香港毫無問題地使用 DeepSeek 的 API。但有些團隊想要更多：資料留在自己的基礎設施上、不依賴 API、無逐 token 計費、不受服務變更風險影響。自建部署可以滿足所有這些需求。

以下是如何在自己的硬體上運行 DeepSeek 模型，從 MacBook 到生產級 GPU 叢集。

選擇你的模型

並非每個 DeepSeek 模型都適合自建。以下是現實的分析：

DeepSeek-Coder-V2（16B）——可在 32GB RAM 的 MacBook Pro 上運行。非常適合程式碼任務。大多數人從這裡開始。

DeepSeek-V2.5（236B MoE，約 21B 活躍）——需要 24GB+ VRAM 的 GPU（RTX 4090 或 A100）。品質與資源需求的良好平衡。

DeepSeek-V3.2（671B MoE，約 37B 活躍）——需要多張高階 GPU 或雲端部署。不適合筆記型電腦或單 GPU 設置，但對有預算的團隊來說是可行的。

DeepSeek-R1——推理模型。有各種尺寸可用，從可在消費級硬體上運行的精簡版本，到需要強大算力的完整模型。

路徑一：在筆記型電腦上使用 Ollama

最簡單的入門方式。大約只需 5 分鐘。

你需要的： 一台搭載 Apple Silicon（M1 或更新）且至少 16GB RAM 的 Mac。較大模型建議 32GB。或者一台配備不錯 GPU 的 Linux/Windows 機器。

安裝 Ollama： 從 ollama.com 下載。一個安裝程式，無依賴項。（GitHub）

拉取模型： 打開終端機並拉取 DeepSeek 模型。Ollama 會自動處理量化和優化。下載大小取決於模型，通常為數 GB。

運行： 從終端機啟動對話。或者運行 Ollama 伺服器，並連接 Cursor、OpenCode 或任何支援 OpenAI 相容 API 端點的工具。

預期效果： DeepSeek-Coder 16B 在 M2 MacBook Pro 上運行流暢。回應速度比 API 慢（每秒數個 token，而非近乎即時），但完全可用於程式碼輔助和一般查詢。你用速度換取了隱私和零成本。

路徑二：在 GPU 伺服器上使用 vLLM

適合生產用途或需要更快推理速度的團隊。

你需要的： 一台配備 NVIDIA GPU 的伺服器或雲端實例。較小模型至少需要 24GB VRAM，較大模型需要 80GB+。

香港可存取的雲端選項：

-[Alibaba Cloud ECS](https://www.alibabacloud.com/product/gpu/pricing) GPU 實例（地理位置最近）
-[Lambda Labs](https://lambda.ai/pricing)（美國，但無地理限制，H100 每小時 $2.99）
-[vast.ai](https://vast.ai/pricing)（GPU 租賃市場，最便宜的選項，起價 $0.06/小時）
-數碼港超算中心（如果你有資格存取）

安裝 vLLM： 設置 Python 環境，安裝 vLLM。它處理模型載入、量化和服務。（GitHub）

部署模型： vLLM 提供 OpenAI 相容的 API 端點。將你的應用程式指向此端點，就像指向 DeepSeek 的 API 或 OpenAI 的 API 一樣。

預期效果： 搭配 4090 或 A100 的 vLLM 可提供接近 API 速度的回應。它支援批次處理（同時服務多個使用者）、串流及所有生產所需功能。雲端 A100 的典型費用：每小時 $1-2。

路徑三：llama.cpp 用於邊緣部署

適合在受限硬體上運行模型——邊緣裝置、舊機器或最小化的雲端實例。

你需要的： 幾乎任何東西。llama.cpp 在 CPU 上運行，這意味著任何伺服器或筆記型電腦都可以運行它。GPU 加速是可選的。

預期效果： 大多數情況下比 Ollama（內部使用 llama.cpp 但有更好的優化）慢，但 llama.cpp 讓你對量化等級和記憶體使用有最大的控制權。當你需要將模型塞進嚴格的記憶體限制時非常有用。

隱私與合規考量

香港團隊自建的主要原因：

資料主權。 你的提示詞和資料永遠不會離開你的基礎設施。對於金融、醫療和法律應用，這可能是監管要求。

無 API 條款。 自建時，你受 MIT 授權（寬鬆）約束，而非 API 服務條款（可能隨時變更）。你永久控制模型。

規模化成本。 API 按 token 計費。自建有固定成本（硬體或雲端租用）。在高使用量——每天數千個請求——的情況下，自建顯著更便宜。

可用性。 不依賴外部服務。如果 DeepSeek 的 API 當機或變更定價，你自建的模型繼續運行。

混合方案

實用的方法是混合式——而非全面自建：

-API 用於開發和測試（快速，無需管理基礎設施）
-自建用於生產（成本控制、隱私、可靠性）
-筆記型電腦上的 Ollama 用於離線工作和實驗

這讓你在開發期間擁有 API 存取的速度，在生產環境中擁有自建的控制權。OpenAI 相容的 API 格式意味著在 API 和自建之間切換只需更改端點 URL。

費用多少

筆記型電腦上的 Ollama： 免費（你已經擁有硬體） 雲端 GPU 上的 vLLM： 推理每小時 $1-3，較大模型每小時 $5-10 專用 GPU 伺服器： 一次性 $2,000-10,000，配備 RTX 4090 或 A100 的機器

與 API 費用比較：DeepSeek API 大量使用可能每月花費 $100-500。當你的月 API 帳單超過硬體攤銷成本時，自建就有經濟意義。

對於香港大多數小團隊和初創公司，最佳方案是：筆記型電腦上的 Ollama 用於開發，DeepSeek API 用於生產，達到規模時再自建。

來源

在香港運行自己的 AI 基礎設施？我們很想了解你的配置。訂閱 Hong Kong AI Podcast 或透過 contact@hongkongaipodcast.com 聯繫我們。

保持更新

在我們發布新文章和節目時收到通知。沒有垃圾郵件，只有訊號。

內容過時或有誤？AI 發展迅速，我們希望做到正確。請通過以下方式告訴我們 contact@hongkongaipodcast.com