vLLM vs LM Studio vs llama.cpp:如何在香港自建 AI 模型
如果你要在香港自建 AI 模型——这越来越是明智之举——你需要选择一个推理引擎。三个主要选项是 vLLM、LM Studio 和 llama.cpp(通常通过 Ollama)。每个都有明确的使用场景。
以下是何时使用哪个。
快速回答
LM Studio——你想要在 Mac 或 PC 上使用图形界面。下载模型、按下运行、开始对话。不需要终端。
Ollama(llama.cpp)——你想要在笔记本电脑或轻量级服务器上使用命令行。一个指令即可拉取和运行模型。非常适合开发。
vLLM——你需要生产级服务。多用户、高吞吐量、批处理、GPU 优化。这是严肃的选项。
LM Studio:桌面应用程序
它是什么
LM Studio 是一个用于本地运行 LLM 的桌面应用程序。支持 Mac、Windows 和 Linux。它提供可视化界面来下载、管理和与模型对话。
何时使用
- -你不是开发者(或者你是,但只想和模型聊聊天)
- -你想从可视化目录中浏览和下载模型
- -你想并排比较不同模型
- -你使用 Mac 且想要最简单的设置方式
工作原理
下载应用程序。浏览模型库(它索引 Hugging Face)。点击下载模型。点击运行。对话。就是这样。
LM Studio 自动处理量化选择、内存管理和 GPU 加速。如果你想连接其他工具,它也提供本地 API 服务器。
优势
- -精美的图形界面
- -模型探索和管理
- -并排模型比较
- -自动硬件优化
- -本地 API 服务器用于工具整合
限制
- -仅限桌面(无无头服务器选项)
- -非为生产服务设计
- -专注单一用户
- -有限的批处理
Ollama(底层是 llama.cpp)
它是什么
Ollama 是一个 CLI 工具,以友善的界面包装 llama.cpp。一个指令安装,一个指令运行模型。它在 localhost 上提供 OpenAI 兼容的 API。
何时使用
- -你偏好使用终端
- -你在本地开发且需要一个快速模型来测试
- -你想通过 SSH 在远程服务器上运行模型
- -你需要一个 OpenAI 兼容端点用于本地开发
- -你想要离线 AI(在港铁通勤、Wi-Fi 不稳时)
工作原理
安装 Ollama。按名称拉取模型。运行。Ollama 处理下载、量化和服务。它在 localhost:11434 提供与 OpenAI 格式兼容的 API——所以 Cursor、OpenCode 和其他工具可以直接连接。
优势
- -最简单的 CLI 体验
- -庞大的模型库
- -开箱即用的 OpenAI 兼容 API
- -可在 CPU 上运行(不需要 GPU,但 GPU 有帮助)
- -低资源开销
- -非常适合 Apple Silicon Mac
限制
- -默认同时只能运行一个模型
- -有限的批处理和吞吐量优化
- -不适合高并发生产环境
- -与手动 llama.cpp 相比,量化选项较基本
原生 llama.cpp
Ollama 包装了 llama.cpp,但你可以直接使用 llama.cpp 以获得更多控制。这让你拥有细粒度的量化选项、自定义采样参数,以及在特殊硬件上运行的能力。代价是更多的手动设置。
在以下情况使用原生 llama.cpp:
- -你需要特定的量化(Q4_K_M、Q5_K_S 等)
- -你在不寻常的硬件上部署
- -你需要对推理参数有最大控制
- -你在构建自定义推理管线
vLLM:生产级服务
它是什么
vLLM 是一个专为生产服务设计的高吞吐量推理引擎。它使用 PagedAttention 实现高效内存管理,并支持连续批处理来处理多个并发请求。
何时使用
- -多个用户访问同一模型
- -你需要高吞吐量(每小时数百或数千个请求)
- -你在为团队或产品提供模型作为内部 API
- -你有 GPU 且想要最大利用率
- -你需要生产功能:健康检查、指标、自动扩展
工作原理
安装 vLLM(Python 套件)。指向一个模型(Hugging Face ID 或本地路径)。它将模型载入到你的 GPU 上并开始提供 OpenAI 兼容的 API。
vLLM 的 PagedAttention 算法管理 GPU 内存的方式就像操作系统管理 RAM 一样——随着请求的到来和结束动态分配和释放内存块。这意味着它可以在相同的硬件上服务更多的并发请求。
优势
- -三个选项中最高的吞吐量
- -连续批处理(高效处理并发请求)
- -PagedAttention 提升内存效率
- -张量并行(将一个模型分割到多个 GPU)
- -管线并行(运行多个模型)
- -OpenAI 兼容 API
- -生产级可靠性
限制
- -需要 NVIDIA GPU(CUDA)
- -设置比 Ollama 更复杂
- -对于单用户本地开发来说过于强大
- -较高的基础资源需求
决策矩阵
| 场景 | 工具 | 原因 |
|---|---|---|
| 在 Mac 上探索模型 | LM Studio | 可视化、简单、不需要终端 |
| 本地开发 + 测试 | Ollama | 简单 CLI、快速设置、足够的速度 |
| 在港铁上离线写代码 | Ollama | 在笔记本电脑上运行、无需网络 |
| 内部团队 API | vLLM | 处理多用户、高吞吐量 |
| 生产环境面向客户 | vLLM | 可靠性、批处理、监控 |
| SSH 连线远程服务器 | Ollama 或 vLLM | Ollama 用于快速测试,vLLM 用于服务 |
| 最大控制 | llama.cpp | 自定义量化、特殊硬件 |
| 成本敏感的生产环境 | vLLM | 更好的硬件利用率 = 更低的每查询成本 |
香港自建技术堆栈
以下是一个实用的香港自建技术堆栈:
开发者笔记本电脑: Ollama 搭配 DeepSeek-Coder 或 Qwen 7B/14B。足够快的代码辅助,可离线运行。
团队推理服务器: 在配备 A100 或 4090 的机器上运行 vLLM,服务 DeepSeek-V3.2 或 Qwen3-235B。整个团队将工具指向此端点。
生产环境: 云端 GPU(Alibaba Cloud 或 Lambda Labs)上的 vLLM,配备负载均衡和监控。多个模型副本确保冗余。
实验: 某人 Mac 上的 LM Studio,用于在团队承诺部署之前试用新模型。
关键洞见:你可能会使用不止一个这些工具。它们在不同阶段服务于不同目的。Ollama 用于开发、vLLM 用于生产、LM Studio 用于探索。这不是冗余——这是为每项工作选择正确的工具。
来源
- -vLLM — GitHub
- -vLLM Documentation
- -LM Studio — Official Site
- -llama.cpp — GitHub
- -Ollama — Official Site
- -PagedAttention: Efficient Memory Management for LLM Serving — arXiv
在香港自建 AI 模型?与我们分享你的配置。订阅 Hong Kong AI Podcast 或通过 contact@hongkongaipodcast.com 联系我们。
在我们发布新文章和节目时收到通知。没有垃圾邮件,只有信号。