什么是香港AI播客？

香港AI播客是与香港 AI 从业者的真实对话，涵盖研究、金融科技、机器人、空间计算、医疗和文化。它是草根的、社区驱动的，提供英文、繁体中文和简体中文版本。

香港AI播客的主持人是谁？

节目由周倩彤（Tanya Chou）担任主持，陈敖桂（Augustin Chan）担任共同主持，陈永杰（Ricky Chan）担任摄影总监。他们为每集节目带来好奇心和从业者的专业知识。

香港AI播客涵盖哪些主题？

播客涵盖香港可用的 AI 工具、中国 AI 模型和平台、香港本地 AI 生态系统，以及 AI 从业者的实用指南。博客分为四大专栏：香港 AI 工具栈、中国 AI 格局、香港 AI 生态和从业者指南。

香港AI播客有中文版本吗？

有。网站和所有文章均提供英文、繁体中文和简体中文版本。节目主要以英文和广东话录制。

首页/所有文章/vllm-lmstudio-llamacpp

从业者指南

vLLM vs LM Studio vs llama.cpp：如何在香港自建 AI 模型

Hong Kong AI Podcast/2026-03-07/7 min read/vLLMLM Studiollama.cppSelf-HostingHong Kong

如果你要在香港自建 AI 模型——这越来越是明智之举——你需要选择一个推理引擎。三个主要选项是 vLLM、LM Studio 和 llama.cpp（通常通过 Ollama）。每个都有明确的使用场景。

以下是何时使用哪个。

快速回答

LM Studio——你想要在 Mac 或 PC 上使用图形界面。下载模型、按下运行、开始对话。不需要终端。

Ollama（llama.cpp）——你想要在笔记本电脑或轻量级服务器上使用命令行。一个指令即可拉取和运行模型。非常适合开发。

vLLM——你需要生产级服务。多用户、高吞吐量、批处理、GPU 优化。这是严肃的选项。

LM Studio：桌面应用程序

它是什么

LM Studio 是一个用于本地运行 LLM 的桌面应用程序。支持 Mac、Windows 和 Linux。它提供可视化界面来下载、管理和与模型对话。

何时使用

-你不是开发者（或者你是，但只想和模型聊聊天）
-你想从可视化目录中浏览和下载模型
-你想并排比较不同模型
-你使用 Mac 且想要最简单的设置方式

工作原理

下载应用程序。浏览模型库（它索引 Hugging Face）。点击下载模型。点击运行。对话。就是这样。

LM Studio 自动处理量化选择、内存管理和 GPU 加速。如果你想连接其他工具，它也提供本地 API 服务器。

优势

-精美的图形界面
-模型探索和管理
-并排模型比较
-自动硬件优化
-本地 API 服务器用于工具整合

限制

-仅限桌面（无无头服务器选项）
-非为生产服务设计
-专注单一用户
-有限的批处理

Ollama（底层是 llama.cpp）

它是什么

Ollama 是一个 CLI 工具，以友善的界面包装 llama.cpp。一个指令安装，一个指令运行模型。它在 localhost 上提供 OpenAI 兼容的 API。

何时使用

-你偏好使用终端
-你在本地开发且需要一个快速模型来测试
-你想通过 SSH 在远程服务器上运行模型
-你需要一个 OpenAI 兼容端点用于本地开发
-你想要离线 AI（在港铁通勤、Wi-Fi 不稳时）

工作原理

安装 Ollama。按名称拉取模型。运行。Ollama 处理下载、量化和服务。它在 localhost:11434 提供与 OpenAI 格式兼容的 API——所以 Cursor、OpenCode 和其他工具可以直接连接。

优势

-最简单的 CLI 体验
-庞大的模型库
-开箱即用的 OpenAI 兼容 API
-可在 CPU 上运行（不需要 GPU，但 GPU 有帮助）
-低资源开销
-非常适合 Apple Silicon Mac

限制

-默认同时只能运行一个模型
-有限的批处理和吞吐量优化
-不适合高并发生产环境
-与手动 llama.cpp 相比，量化选项较基本

原生 llama.cpp

Ollama 包装了 llama.cpp，但你可以直接使用 llama.cpp 以获得更多控制。这让你拥有细粒度的量化选项、自定义采样参数，以及在特殊硬件上运行的能力。代价是更多的手动设置。

在以下情况使用原生 llama.cpp：

-你需要特定的量化（Q4_K_M、Q5_K_S 等）
-你在不寻常的硬件上部署
-你需要对推理参数有最大控制
-你在构建自定义推理管线

vLLM：生产级服务

它是什么

vLLM 是一个专为生产服务设计的高吞吐量推理引擎。它使用 PagedAttention 实现高效内存管理，并支持连续批处理来处理多个并发请求。

何时使用

-多个用户访问同一模型
-你需要高吞吐量（每小时数百或数千个请求）
-你在为团队或产品提供模型作为内部 API
-你有 GPU 且想要最大利用率
-你需要生产功能：健康检查、指标、自动扩展

工作原理

安装 vLLM（Python 套件）。指向一个模型（Hugging Face ID 或本地路径）。它将模型载入到你的 GPU 上并开始提供 OpenAI 兼容的 API。

vLLM 的 PagedAttention 算法管理 GPU 内存的方式就像操作系统管理 RAM 一样——随着请求的到来和结束动态分配和释放内存块。这意味着它可以在相同的硬件上服务更多的并发请求。

优势

-三个选项中最高的吞吐量
-连续批处理（高效处理并发请求）
-PagedAttention 提升内存效率
-张量并行（将一个模型分割到多个 GPU）
-管线并行（运行多个模型）
-OpenAI 兼容 API
-生产级可靠性

限制

-需要 NVIDIA GPU（CUDA）
-设置比 Ollama 更复杂
-对于单用户本地开发来说过于强大
-较高的基础资源需求

决策矩阵

场景	工具	原因
在 Mac 上探索模型	LM Studio	可视化、简单、不需要终端
本地开发 + 测试	Ollama	简单 CLI、快速设置、足够的速度
在港铁上离线写代码	Ollama	在笔记本电脑上运行、无需网络
内部团队 API	vLLM	处理多用户、高吞吐量
生产环境面向客户	vLLM	可靠性、批处理、监控
SSH 连线远程服务器	Ollama 或 vLLM	Ollama 用于快速测试，vLLM 用于服务
最大控制	llama.cpp	自定义量化、特殊硬件
成本敏感的生产环境	vLLM	更好的硬件利用率 = 更低的每查询成本

香港自建技术堆栈

以下是一个实用的香港自建技术堆栈：

开发者笔记本电脑： Ollama 搭配 DeepSeek-Coder 或 Qwen 7B/14B。足够快的代码辅助，可离线运行。

团队推理服务器： 在配备 A100 或 4090 的机器上运行 vLLM，服务 DeepSeek-V3.2 或 Qwen3-235B。整个团队将工具指向此端点。

生产环境： 云端 GPU（Alibaba Cloud 或 Lambda Labs）上的 vLLM，配备负载均衡和监控。多个模型副本确保冗余。

实验： 某人 Mac 上的 LM Studio，用于在团队承诺部署之前试用新模型。

关键洞见：你可能会使用不止一个这些工具。它们在不同阶段服务于不同目的。Ollama 用于开发、vLLM 用于生产、LM Studio 用于探索。这不是冗余——这是为每项工作选择正确的工具。

来源

在香港自建 AI 模型？与我们分享你的配置。订阅 Hong Kong AI Podcast 或通过 contact@hongkongaipodcast.com 联系我们。

保持更新

在我们发布新文章和节目时收到通知。没有垃圾邮件，只有信号。

内容过时或有误？AI 发展迅速，我们希望做到正确。请通过以下方式告诉我们 contact@hongkongaipodcast.com