首页/所有文章/self-hosting-deepseek-hk
从业者指南

在香港自建 DeepSeek:实用指南

Hong Kong AI Podcast/2026-03-07/7 min read/DeepSeekSelf-HostingOllamavLLMHong Kong

你可以在香港毫无问题地使用 DeepSeek 的 API。但有些团队想要更多:数据留在自己的基础设施上、不依赖 API、无逐 token 计费、不受服务变更风险影响。自建部署可以满足所有这些需求。

以下是如何在自己的硬件上运行 DeepSeek 模型,从 MacBook 到生产级 GPU 集群。

选择你的模型

并非每个 DeepSeek 模型都适合自建。以下是现实的分析:

DeepSeek-Coder-V2(16B)——可在 32GB RAM 的 MacBook Pro 上运行。非常适合代码任务。大多数人从这里开始。

DeepSeek-V2.5(236B MoE,约 21B 活跃)——需要 24GB+ VRAM 的 GPU(RTX 4090 或 A100)。品质与资源需求的良好平衡。

DeepSeek-V3.2(671B MoE,约 37B 活跃)——需要多张高端 GPU 或云端部署。不适合笔记本电脑或单 GPU 设置,但对有预算的团队来说是可行的。

DeepSeek-R1——推理模型。有各种尺寸可用,从可在消费级硬件上运行的精简版本,到需要强大算力的完整模型。

路径一:在笔记本电脑上使用 Ollama

最简单的入门方式。大约只需 5 分钟。

你需要的: 一台搭载 Apple Silicon(M1 或更新)且至少 16GB RAM 的 Mac。较大模型建议 32GB。或者一台配备不错 GPU 的 Linux/Windows 机器。

安装 Ollama:ollama.com 下载。一个安装程序,无依赖项。(GitHub

拉取模型: 打开终端并拉取 DeepSeek 模型。Ollama 会自动处理量化和优化。下载大小取决于模型,通常为数 GB。

运行: 从终端启动对话。或者运行 Ollama 服务器,并连接 Cursor、OpenCode 或任何支持 OpenAI 兼容 API 端点的工具。

预期效果: DeepSeek-Coder 16B 在 M2 MacBook Pro 上运行流畅。响应速度比 API 慢(每秒数个 token,而非近乎即时),但完全可用于代码辅助和一般查询。你用速度换取了隐私和零成本。

路径二:在 GPU 服务器上使用 vLLM

适合生产用途或需要更快推理速度的团队。

你需要的: 一台配备 NVIDIA GPU 的服务器或云端实例。较小模型至少需要 24GB VRAM,较大模型需要 80GB+。

香港可访问的云端选项:

  • -[Alibaba Cloud ECS](https://www.alibabacloud.com/product/gpu/pricing) GPU 实例(地理位置最近)
  • -[Lambda Labs](https://lambda.ai/pricing)(美国,但无地理限制,H100 每小时 $2.99)
  • -[vast.ai](https://vast.ai/pricing)(GPU 租赁市场,最便宜的选项,起价 $0.06/小时)
  • -数码港超算中心(如果你有资格访问)

安装 vLLM: 设置 Python 环境,安装 vLLM。它处理模型载入、量化和服务。(GitHub

部署模型: vLLM 提供 OpenAI 兼容的 API 端点。将你的应用程序指向此端点,就像指向 DeepSeek 的 API 或 OpenAI 的 API 一样。

预期效果: 搭配 4090 或 A100 的 vLLM 可提供接近 API 速度的响应。它支持批处理(同时服务多个用户)、流式传输及所有生产所需功能。云端 A100 的典型费用:每小时 $1-2。

路径三:llama.cpp 用于边缘部署

适合在受限硬件上运行模型——边缘设备、旧机器或最小化的云端实例。

你需要的: 几乎任何东西。llama.cpp 在 CPU 上运行,这意味着任何服务器或笔记本电脑都可以运行它。GPU 加速是可选的。

预期效果: 大多数情况下比 Ollama(内部使用 llama.cpp 但有更好的优化)慢,但 llama.cpp 让你对量化等级和内存使用有最大的控制权。当你需要将模型塞进严格的内存限制时非常有用。

隐私与合规考量

香港团队自建的主要原因:

数据主权。 你的提示词和数据永远不会离开你的基础设施。对于金融、医疗和法律应用,这可能是监管要求。

无 API 条款。 自建时,你受 MIT 授权(宽松)约束,而非 API 服务条款(可能随时变更)。你永久控制模型。

规模化成本。 API 按 token 计费。自建有固定成本(硬件或云端租用)。在高使用量——每天数千个请求——的情况下,自建显著更便宜。

可用性。 不依赖外部服务。如果 DeepSeek 的 API 宕机或变更定价,你自建的模型继续运行。

混合方案

实用的方法是混合式——而非全面自建:

  • -API 用于开发和测试(快速,无需管理基础设施)
  • -自建用于生产(成本控制、隐私、可靠性)
  • -笔记本电脑上的 Ollama 用于离线工作和实验

这让你在开发期间拥有 API 访问的速度,在生产环境中拥有自建的控制权。OpenAI 兼容的 API 格式意味着在 API 和自建之间切换只需更改端点 URL。

费用多少

笔记本电脑上的 Ollama: 免费(你已经拥有硬件) 云端 GPU 上的 vLLM: 推理每小时 $1-3,较大模型每小时 $5-10 专用 GPU 服务器: 一次性 $2,000-10,000,配备 RTX 4090 或 A100 的机器

与 API 费用比较:DeepSeek API 大量使用可能每月花费 $100-500。当你的月 API 账单超过硬件摊销成本时,自建就有经济意义。

对于香港大多数小团队和初创公司,最佳方案是:笔记本电脑上的 Ollama 用于开发,DeepSeek API 用于生产,达到规模时再自建。



来源

在香港运行自己的 AI 基础设施?我们很想了解你的配置。订阅 Hong Kong AI Podcast 或通过 contact@hongkongaipodcast.com 联系我们。

保持更新

在我们发布新文章和节目时收到通知。没有垃圾邮件,只有信号。

内容过时或有误?AI 发展迅速,我们希望做到正确。请通过以下方式告诉我们 contact@hongkongaipodcast.com