什么是香港AI播客？

香港AI播客是与香港 AI 从业者的真实对话，涵盖研究、金融科技、机器人、空间计算、医疗和文化。它是草根的、社区驱动的，提供英文、繁体中文和简体中文版本。

香港AI播客的主持人是谁？

节目由周倩彤（Tanya Chou）担任主持，陈敖桂（Augustin Chan）担任共同主持，陈永杰（Ricky Chan）担任摄影总监。他们为每集节目带来好奇心和从业者的专业知识。

香港AI播客涵盖哪些主题？

播客涵盖香港可用的 AI 工具、中国 AI 模型和平台、香港本地 AI 生态系统，以及 AI 从业者的实用指南。博客分为四大专栏：香港 AI 工具栈、中国 AI 格局、香港 AI 生态和从业者指南。

香港AI播客有中文版本吗？

有。网站和所有文章均提供英文、繁体中文和简体中文版本。节目主要以英文和广东话录制。

首页/所有文章/self-hosting-deepseek-hk

从业者指南

在香港自建 DeepSeek：实用指南

Hong Kong AI Podcast/2026-03-07/7 min read/DeepSeekSelf-HostingOllamavLLMHong Kong

你可以在香港毫无问题地使用 DeepSeek 的 API。但有些团队想要更多：数据留在自己的基础设施上、不依赖 API、无逐 token 计费、不受服务变更风险影响。自建部署可以满足所有这些需求。

以下是如何在自己的硬件上运行 DeepSeek 模型，从 MacBook 到生产级 GPU 集群。

选择你的模型

并非每个 DeepSeek 模型都适合自建。以下是现实的分析：

DeepSeek-Coder-V2（16B）——可在 32GB RAM 的 MacBook Pro 上运行。非常适合代码任务。大多数人从这里开始。

DeepSeek-V2.5（236B MoE，约 21B 活跃）——需要 24GB+ VRAM 的 GPU（RTX 4090 或 A100）。品质与资源需求的良好平衡。

DeepSeek-V3.2（671B MoE，约 37B 活跃）——需要多张高端 GPU 或云端部署。不适合笔记本电脑或单 GPU 设置，但对有预算的团队来说是可行的。

DeepSeek-R1——推理模型。有各种尺寸可用，从可在消费级硬件上运行的精简版本，到需要强大算力的完整模型。

路径一：在笔记本电脑上使用 Ollama

最简单的入门方式。大约只需 5 分钟。

你需要的： 一台搭载 Apple Silicon（M1 或更新）且至少 16GB RAM 的 Mac。较大模型建议 32GB。或者一台配备不错 GPU 的 Linux/Windows 机器。

安装 Ollama： 从 ollama.com 下载。一个安装程序，无依赖项。（GitHub）

拉取模型： 打开终端并拉取 DeepSeek 模型。Ollama 会自动处理量化和优化。下载大小取决于模型，通常为数 GB。

运行： 从终端启动对话。或者运行 Ollama 服务器，并连接 Cursor、OpenCode 或任何支持 OpenAI 兼容 API 端点的工具。

预期效果： DeepSeek-Coder 16B 在 M2 MacBook Pro 上运行流畅。响应速度比 API 慢（每秒数个 token，而非近乎即时），但完全可用于代码辅助和一般查询。你用速度换取了隐私和零成本。

路径二：在 GPU 服务器上使用 vLLM

适合生产用途或需要更快推理速度的团队。

你需要的： 一台配备 NVIDIA GPU 的服务器或云端实例。较小模型至少需要 24GB VRAM，较大模型需要 80GB+。

香港可访问的云端选项：

-[Alibaba Cloud ECS](https://www.alibabacloud.com/product/gpu/pricing) GPU 实例（地理位置最近）
-[Lambda Labs](https://lambda.ai/pricing)（美国，但无地理限制，H100 每小时 $2.99）
-[vast.ai](https://vast.ai/pricing)（GPU 租赁市场，最便宜的选项，起价 $0.06/小时）
-数码港超算中心（如果你有资格访问）

安装 vLLM： 设置 Python 环境，安装 vLLM。它处理模型载入、量化和服务。（GitHub）

部署模型： vLLM 提供 OpenAI 兼容的 API 端点。将你的应用程序指向此端点，就像指向 DeepSeek 的 API 或 OpenAI 的 API 一样。

预期效果： 搭配 4090 或 A100 的 vLLM 可提供接近 API 速度的响应。它支持批处理（同时服务多个用户）、流式传输及所有生产所需功能。云端 A100 的典型费用：每小时 $1-2。

路径三：llama.cpp 用于边缘部署

适合在受限硬件上运行模型——边缘设备、旧机器或最小化的云端实例。

你需要的： 几乎任何东西。llama.cpp 在 CPU 上运行，这意味着任何服务器或笔记本电脑都可以运行它。GPU 加速是可选的。

预期效果： 大多数情况下比 Ollama（内部使用 llama.cpp 但有更好的优化）慢，但 llama.cpp 让你对量化等级和内存使用有最大的控制权。当你需要将模型塞进严格的内存限制时非常有用。

隐私与合规考量

香港团队自建的主要原因：

数据主权。 你的提示词和数据永远不会离开你的基础设施。对于金融、医疗和法律应用，这可能是监管要求。

无 API 条款。 自建时，你受 MIT 授权（宽松）约束，而非 API 服务条款（可能随时变更）。你永久控制模型。

规模化成本。 API 按 token 计费。自建有固定成本（硬件或云端租用）。在高使用量——每天数千个请求——的情况下，自建显著更便宜。

可用性。 不依赖外部服务。如果 DeepSeek 的 API 宕机或变更定价，你自建的模型继续运行。

混合方案

实用的方法是混合式——而非全面自建：

-API 用于开发和测试（快速，无需管理基础设施）
-自建用于生产（成本控制、隐私、可靠性）
-笔记本电脑上的 Ollama 用于离线工作和实验

这让你在开发期间拥有 API 访问的速度，在生产环境中拥有自建的控制权。OpenAI 兼容的 API 格式意味着在 API 和自建之间切换只需更改端点 URL。

费用多少

笔记本电脑上的 Ollama： 免费（你已经拥有硬件） 云端 GPU 上的 vLLM： 推理每小时 $1-3，较大模型每小时 $5-10 专用 GPU 服务器： 一次性 $2,000-10,000，配备 RTX 4090 或 A100 的机器

与 API 费用比较：DeepSeek API 大量使用可能每月花费 $100-500。当你的月 API 账单超过硬件摊销成本时，自建就有经济意义。

对于香港大多数小团队和初创公司，最佳方案是：笔记本电脑上的 Ollama 用于开发，DeepSeek API 用于生产，达到规模时再自建。

来源

在香港运行自己的 AI 基础设施？我们很想了解你的配置。订阅 Hong Kong AI Podcast 或通过 contact@hongkongaipodcast.com 联系我们。

保持更新

在我们发布新文章和节目时收到通知。没有垃圾邮件，只有信号。

内容过时或有误？AI 发展迅速，我们希望做到正确。请通过以下方式告诉我们 contact@hongkongaipodcast.com