在香港自建 DeepSeek:实用指南
你可以在香港毫无问题地使用 DeepSeek 的 API。但有些团队想要更多:数据留在自己的基础设施上、不依赖 API、无逐 token 计费、不受服务变更风险影响。自建部署可以满足所有这些需求。
以下是如何在自己的硬件上运行 DeepSeek 模型,从 MacBook 到生产级 GPU 集群。
选择你的模型
并非每个 DeepSeek 模型都适合自建。以下是现实的分析:
DeepSeek-Coder-V2(16B)——可在 32GB RAM 的 MacBook Pro 上运行。非常适合代码任务。大多数人从这里开始。
DeepSeek-V2.5(236B MoE,约 21B 活跃)——需要 24GB+ VRAM 的 GPU(RTX 4090 或 A100)。品质与资源需求的良好平衡。
DeepSeek-V3.2(671B MoE,约 37B 活跃)——需要多张高端 GPU 或云端部署。不适合笔记本电脑或单 GPU 设置,但对有预算的团队来说是可行的。
DeepSeek-R1——推理模型。有各种尺寸可用,从可在消费级硬件上运行的精简版本,到需要强大算力的完整模型。
路径一:在笔记本电脑上使用 Ollama
最简单的入门方式。大约只需 5 分钟。
你需要的: 一台搭载 Apple Silicon(M1 或更新)且至少 16GB RAM 的 Mac。较大模型建议 32GB。或者一台配备不错 GPU 的 Linux/Windows 机器。
安装 Ollama: 从 ollama.com 下载。一个安装程序,无依赖项。(GitHub)
拉取模型: 打开终端并拉取 DeepSeek 模型。Ollama 会自动处理量化和优化。下载大小取决于模型,通常为数 GB。
运行: 从终端启动对话。或者运行 Ollama 服务器,并连接 Cursor、OpenCode 或任何支持 OpenAI 兼容 API 端点的工具。
预期效果: DeepSeek-Coder 16B 在 M2 MacBook Pro 上运行流畅。响应速度比 API 慢(每秒数个 token,而非近乎即时),但完全可用于代码辅助和一般查询。你用速度换取了隐私和零成本。
路径二:在 GPU 服务器上使用 vLLM
适合生产用途或需要更快推理速度的团队。
你需要的: 一台配备 NVIDIA GPU 的服务器或云端实例。较小模型至少需要 24GB VRAM,较大模型需要 80GB+。
香港可访问的云端选项:
- -[Alibaba Cloud ECS](https://www.alibabacloud.com/product/gpu/pricing) GPU 实例(地理位置最近)
- -[Lambda Labs](https://lambda.ai/pricing)(美国,但无地理限制,H100 每小时 $2.99)
- -[vast.ai](https://vast.ai/pricing)(GPU 租赁市场,最便宜的选项,起价 $0.06/小时)
- -数码港超算中心(如果你有资格访问)
安装 vLLM: 设置 Python 环境,安装 vLLM。它处理模型载入、量化和服务。(GitHub)
部署模型: vLLM 提供 OpenAI 兼容的 API 端点。将你的应用程序指向此端点,就像指向 DeepSeek 的 API 或 OpenAI 的 API 一样。
预期效果: 搭配 4090 或 A100 的 vLLM 可提供接近 API 速度的响应。它支持批处理(同时服务多个用户)、流式传输及所有生产所需功能。云端 A100 的典型费用:每小时 $1-2。
路径三:llama.cpp 用于边缘部署
适合在受限硬件上运行模型——边缘设备、旧机器或最小化的云端实例。
你需要的: 几乎任何东西。llama.cpp 在 CPU 上运行,这意味着任何服务器或笔记本电脑都可以运行它。GPU 加速是可选的。
预期效果: 大多数情况下比 Ollama(内部使用 llama.cpp 但有更好的优化)慢,但 llama.cpp 让你对量化等级和内存使用有最大的控制权。当你需要将模型塞进严格的内存限制时非常有用。
隐私与合规考量
香港团队自建的主要原因:
数据主权。 你的提示词和数据永远不会离开你的基础设施。对于金融、医疗和法律应用,这可能是监管要求。
无 API 条款。 自建时,你受 MIT 授权(宽松)约束,而非 API 服务条款(可能随时变更)。你永久控制模型。
规模化成本。 API 按 token 计费。自建有固定成本(硬件或云端租用)。在高使用量——每天数千个请求——的情况下,自建显著更便宜。
可用性。 不依赖外部服务。如果 DeepSeek 的 API 宕机或变更定价,你自建的模型继续运行。
混合方案
实用的方法是混合式——而非全面自建:
- -API 用于开发和测试(快速,无需管理基础设施)
- -自建用于生产(成本控制、隐私、可靠性)
- -笔记本电脑上的 Ollama 用于离线工作和实验
这让你在开发期间拥有 API 访问的速度,在生产环境中拥有自建的控制权。OpenAI 兼容的 API 格式意味着在 API 和自建之间切换只需更改端点 URL。
费用多少
笔记本电脑上的 Ollama: 免费(你已经拥有硬件) 云端 GPU 上的 vLLM: 推理每小时 $1-3,较大模型每小时 $5-10 专用 GPU 服务器: 一次性 $2,000-10,000,配备 RTX 4090 或 A100 的机器
与 API 费用比较:DeepSeek API 大量使用可能每月花费 $100-500。当你的月 API 账单超过硬件摊销成本时,自建就有经济意义。
对于香港大多数小团队和初创公司,最佳方案是:笔记本电脑上的 Ollama 用于开发,DeepSeek API 用于生产,达到规模时再自建。
来源
- -Ollama — Official Site
- -Ollama — GitHub
- -DeepSeek-R1 on Ollama
- -vLLM — Official Site
- -vLLM — GitHub
- -GPU Requirements for DeepSeek Models — APXML
- -Alibaba Cloud GPU Pricing
- -Lambda Labs Pricing
- -Vast.ai Pricing
在香港运行自己的 AI 基础设施?我们很想了解你的配置。订阅 Hong Kong AI Podcast 或通过 contact@hongkongaipodcast.com 联系我们。
在我们发布新文章和节目时收到通知。没有垃圾邮件,只有信号。