vLLM vs LM Studio vs llama.cpp:如何在香港自建 AI 模型
如果你要在香港自建 AI 模型——這越來越是明智之舉——你需要選擇一個推理引擎。三個主要選項是 vLLM、LM Studio 和 llama.cpp(通常透過 Ollama)。每個都有明確的使用場景。
以下是何時使用哪個。
快速回答
LM Studio——你想要在 Mac 或 PC 上使用圖形介面。下載模型、按下運行、開始對話。不需要終端機。
Ollama(llama.cpp)——你想要在筆記型電腦或輕量級伺服器上使用命令列。一個指令即可拉取和運行模型。非常適合開發。
vLLM——你需要生產級服務。多使用者、高吞吐量、批次處理、GPU 優化。這是嚴肅的選項。
LM Studio:桌面應用程式
它是什麼
LM Studio 是一個用於本地運行 LLM 的桌面應用程式。支援 Mac、Windows 和 Linux。它提供視覺化介面來下載、管理和與模型對話。
何時使用
- -你不是開發者(或者你是,但只想和模型聊聊天)
- -你想從視覺化目錄中瀏覽和下載模型
- -你想並排比較不同模型
- -你使用 Mac 且想要最簡單的設置方式
工作原理
下載應用程式。瀏覽模型庫(它索引 Hugging Face)。點擊下載模型。點擊運行。對話。就是這樣。
LM Studio 自動處理量化選擇、記憶體管理和 GPU 加速。如果你想連接其他工具,它也提供本地 API 伺服器。
優勢
- -精美的圖形介面
- -模型探索和管理
- -並排模型比較
- -自動硬體優化
- -本地 API 伺服器用於工具整合
限制
- -僅限桌面(無無頭伺服器選項)
- -非為生產服務設計
- -專注單一使用者
- -有限的批次處理
Ollama(底層是 llama.cpp)
它是什麼
Ollama 是一個 CLI 工具,以友善的介面包裝 llama.cpp。一個指令安裝,一個指令運行模型。它在 localhost 上提供 OpenAI 相容的 API。
何時使用
- -你偏好使用終端機
- -你在本地開發且需要一個快速模型來測試
- -你想透過 SSH 在遠端伺服器上運行模型
- -你需要一個 OpenAI 相容端點用於本地開發
- -你想要離線 AI(在港鐵通勤、Wi-Fi 不穩時)
工作原理
安裝 Ollama。按名稱拉取模型。運行。Ollama 處理下載、量化和服務。它在 localhost:11434 提供與 OpenAI 格式相容的 API——所以 Cursor、OpenCode 和其他工具可以直接連接。
優勢
- -最簡單的 CLI 體驗
- -龐大的模型庫
- -開箱即用的 OpenAI 相容 API
- -可在 CPU 上運行(不需要 GPU,但 GPU 有幫助)
- -低資源開銷
- -非常適合 Apple Silicon Mac
限制
- -預設同時只能運行一個模型
- -有限的批次處理和吞吐量優化
- -不適合高並發生產環境
- -與手動 llama.cpp 相比,量化選項較基本
原生 llama.cpp
Ollama 包裝了 llama.cpp,但你可以直接使用 llama.cpp 以獲得更多控制。這讓你擁有細粒度的量化選項、自訂取樣參數,以及在特殊硬體上運行的能力。代價是更多的手動設置。
在以下情況使用原生 llama.cpp:
- -你需要特定的量化(Q4_K_M、Q5_K_S 等)
- -你在不尋常的硬體上部署
- -你需要對推理參數有最大控制
- -你在構建自訂推理管線
vLLM:生產級服務
它是什麼
vLLM 是一個專為生產服務設計的高吞吐量推理引擎。它使用 PagedAttention 實現高效記憶體管理,並支援連續批次處理來處理多個並發請求。
何時使用
- -多個使用者存取同一模型
- -你需要高吞吐量(每小時數百或數千個請求)
- -你在為團隊或產品提供模型作為內部 API
- -你有 GPU 且想要最大利用率
- -你需要生產功能:健康檢查、指標、自動擴展
工作原理
安裝 vLLM(Python 套件)。指向一個模型(Hugging Face ID 或本地路徑)。它將模型載入到你的 GPU 上並開始提供 OpenAI 相容的 API。
vLLM 的 PagedAttention 演算法管理 GPU 記憶體的方式就像作業系統管理 RAM 一樣——隨著請求的到來和結束動態分配和釋放記憶體區塊。這意味著它可以在相同的硬體上服務更多的並發請求。
優勢
- -三個選項中最高的吞吐量
- -連續批次處理(高效處理並發請求)
- -PagedAttention 提升記憶體效率
- -張量平行(將一個模型分割到多個 GPU)
- -管線平行(運行多個模型)
- -OpenAI 相容 API
- -生產級可靠性
限制
- -需要 NVIDIA GPU(CUDA)
- -設置比 Ollama 更複雜
- -對於單使用者本地開發來說過於強大
- -較高的基礎資源需求
決策矩陣
| 場景 | 工具 | 原因 |
|---|---|---|
| 在 Mac 上探索模型 | LM Studio | 視覺化、簡單、不需要終端機 |
| 本地開發 + 測試 | Ollama | 簡單 CLI、快速設置、足夠的速度 |
| 在港鐵上離線寫程式 | Ollama | 在筆記型電腦上運行、無需網路 |
| 內部團隊 API | vLLM | 處理多使用者、高吞吐量 |
| 生產環境面向客戶 | vLLM | 可靠性、批次處理、監控 |
| SSH 連線遠端伺服器 | Ollama 或 vLLM | Ollama 用於快速測試,vLLM 用於服務 |
| 最大控制 | llama.cpp | 自訂量化、特殊硬體 |
| 成本敏感的生產環境 | vLLM | 更好的硬體利用率 = 更低的每查詢成本 |
香港自建技術堆疊
以下是一個實用的香港自建技術堆疊:
開發者筆記型電腦: Ollama 搭配 DeepSeek-Coder 或 Qwen 7B/14B。足夠快的程式碼輔助,可離線運行。
團隊推理伺服器: 在配備 A100 或 4090 的機器上運行 vLLM,服務 DeepSeek-V3.2 或 Qwen3-235B。整個團隊將工具指向此端點。
生產環境: 雲端 GPU(Alibaba Cloud 或 Lambda Labs)上的 vLLM,配備負載平衡和監控。多個模型副本確保冗餘。
實驗: 某人 Mac 上的 LM Studio,用於在團隊承諾部署之前試用新模型。
關鍵洞見:你可能會使用不止一個這些工具。它們在不同階段服務於不同目的。Ollama 用於開發、vLLM 用於生產、LM Studio 用於探索。這不是冗餘——這是為每項工作選擇正確的工具。
來源
- -vLLM — GitHub
- -vLLM Documentation
- -LM Studio — Official Site
- -llama.cpp — GitHub
- -Ollama — Official Site
- -PagedAttention: Efficient Memory Management for LLM Serving — arXiv
在香港自建 AI 模型?與我們分享你的配置。訂閱 Hong Kong AI Podcast 或透過 contact@hongkongaipodcast.com 聯繫我們。
在我們發布新文章和節目時收到通知。沒有垃圾郵件,只有訊號。