首頁/所有文章/self-hosting-deepseek-hk
從業者指南

在香港自建 DeepSeek:實用指南

Hong Kong AI Podcast/2026-03-07/7 min read/DeepSeekSelf-HostingOllamavLLMHong Kong

你可以在香港毫無問題地使用 DeepSeek 的 API。但有些團隊想要更多:資料留在自己的基礎設施上、不依賴 API、無逐 token 計費、不受服務變更風險影響。自建部署可以滿足所有這些需求。

以下是如何在自己的硬體上運行 DeepSeek 模型,從 MacBook 到生產級 GPU 叢集。

選擇你的模型

並非每個 DeepSeek 模型都適合自建。以下是現實的分析:

DeepSeek-Coder-V2(16B)——可在 32GB RAM 的 MacBook Pro 上運行。非常適合程式碼任務。大多數人從這裡開始。

DeepSeek-V2.5(236B MoE,約 21B 活躍)——需要 24GB+ VRAM 的 GPU(RTX 4090 或 A100)。品質與資源需求的良好平衡。

DeepSeek-V3.2(671B MoE,約 37B 活躍)——需要多張高階 GPU 或雲端部署。不適合筆記型電腦或單 GPU 設置,但對有預算的團隊來說是可行的。

DeepSeek-R1——推理模型。有各種尺寸可用,從可在消費級硬體上運行的精簡版本,到需要強大算力的完整模型。

路徑一:在筆記型電腦上使用 Ollama

最簡單的入門方式。大約只需 5 分鐘。

你需要的: 一台搭載 Apple Silicon(M1 或更新)且至少 16GB RAM 的 Mac。較大模型建議 32GB。或者一台配備不錯 GPU 的 Linux/Windows 機器。

安裝 Ollama:ollama.com 下載。一個安裝程式,無依賴項。(GitHub

拉取模型: 打開終端機並拉取 DeepSeek 模型。Ollama 會自動處理量化和優化。下載大小取決於模型,通常為數 GB。

運行: 從終端機啟動對話。或者運行 Ollama 伺服器,並連接 Cursor、OpenCode 或任何支援 OpenAI 相容 API 端點的工具。

預期效果: DeepSeek-Coder 16B 在 M2 MacBook Pro 上運行流暢。回應速度比 API 慢(每秒數個 token,而非近乎即時),但完全可用於程式碼輔助和一般查詢。你用速度換取了隱私和零成本。

路徑二:在 GPU 伺服器上使用 vLLM

適合生產用途或需要更快推理速度的團隊。

你需要的: 一台配備 NVIDIA GPU 的伺服器或雲端實例。較小模型至少需要 24GB VRAM,較大模型需要 80GB+。

香港可存取的雲端選項:

  • -[Alibaba Cloud ECS](https://www.alibabacloud.com/product/gpu/pricing) GPU 實例(地理位置最近)
  • -[Lambda Labs](https://lambda.ai/pricing)(美國,但無地理限制,H100 每小時 $2.99)
  • -[vast.ai](https://vast.ai/pricing)(GPU 租賃市場,最便宜的選項,起價 $0.06/小時)
  • -數碼港超算中心(如果你有資格存取)

安裝 vLLM: 設置 Python 環境,安裝 vLLM。它處理模型載入、量化和服務。(GitHub

部署模型: vLLM 提供 OpenAI 相容的 API 端點。將你的應用程式指向此端點,就像指向 DeepSeek 的 API 或 OpenAI 的 API 一樣。

預期效果: 搭配 4090 或 A100 的 vLLM 可提供接近 API 速度的回應。它支援批次處理(同時服務多個使用者)、串流及所有生產所需功能。雲端 A100 的典型費用:每小時 $1-2。

路徑三:llama.cpp 用於邊緣部署

適合在受限硬體上運行模型——邊緣裝置、舊機器或最小化的雲端實例。

你需要的: 幾乎任何東西。llama.cpp 在 CPU 上運行,這意味著任何伺服器或筆記型電腦都可以運行它。GPU 加速是可選的。

預期效果: 大多數情況下比 Ollama(內部使用 llama.cpp 但有更好的優化)慢,但 llama.cpp 讓你對量化等級和記憶體使用有最大的控制權。當你需要將模型塞進嚴格的記憶體限制時非常有用。

隱私與合規考量

香港團隊自建的主要原因:

資料主權。 你的提示詞和資料永遠不會離開你的基礎設施。對於金融、醫療和法律應用,這可能是監管要求。

無 API 條款。 自建時,你受 MIT 授權(寬鬆)約束,而非 API 服務條款(可能隨時變更)。你永久控制模型。

規模化成本。 API 按 token 計費。自建有固定成本(硬體或雲端租用)。在高使用量——每天數千個請求——的情況下,自建顯著更便宜。

可用性。 不依賴外部服務。如果 DeepSeek 的 API 當機或變更定價,你自建的模型繼續運行。

混合方案

實用的方法是混合式——而非全面自建:

  • -API 用於開發和測試(快速,無需管理基礎設施)
  • -自建用於生產(成本控制、隱私、可靠性)
  • -筆記型電腦上的 Ollama 用於離線工作和實驗

這讓你在開發期間擁有 API 存取的速度,在生產環境中擁有自建的控制權。OpenAI 相容的 API 格式意味著在 API 和自建之間切換只需更改端點 URL。

費用多少

筆記型電腦上的 Ollama: 免費(你已經擁有硬體) 雲端 GPU 上的 vLLM: 推理每小時 $1-3,較大模型每小時 $5-10 專用 GPU 伺服器: 一次性 $2,000-10,000,配備 RTX 4090 或 A100 的機器

與 API 費用比較:DeepSeek API 大量使用可能每月花費 $100-500。當你的月 API 帳單超過硬體攤銷成本時,自建就有經濟意義。

對於香港大多數小團隊和初創公司,最佳方案是:筆記型電腦上的 Ollama 用於開發,DeepSeek API 用於生產,達到規模時再自建。



來源

在香港運行自己的 AI 基礎設施?我們很想了解你的配置。訂閱 Hong Kong AI Podcast 或透過 contact@hongkongaipodcast.com 聯繫我們。

保持更新

在我們發布新文章和節目時收到通知。沒有垃圾郵件,只有訊號。

內容過時或有誤?AI 發展迅速,我們希望做到正確。請通過以下方式告訴我們 contact@hongkongaipodcast.com