首頁/所有文章/vllm-lmstudio-llamacpp
從業者指南

vLLM vs LM Studio vs llama.cpp:如何在香港自建 AI 模型

Hong Kong AI Podcast/2026-03-07/7 min read/vLLMLM Studiollama.cppSelf-HostingHong Kong

如果你要在香港自建 AI 模型——這越來越是明智之舉——你需要選擇一個推理引擎。三個主要選項是 vLLM、LM Studio 和 llama.cpp(通常透過 Ollama)。每個都有明確的使用場景。

以下是何時使用哪個。

快速回答

LM Studio——你想要在 Mac 或 PC 上使用圖形介面。下載模型、按下運行、開始對話。不需要終端機。

Ollama(llama.cpp)——你想要在筆記型電腦或輕量級伺服器上使用命令列。一個指令即可拉取和運行模型。非常適合開發。

vLLM——你需要生產級服務。多使用者、高吞吐量、批次處理、GPU 優化。這是嚴肅的選項。

LM Studio:桌面應用程式

它是什麼

LM Studio 是一個用於本地運行 LLM 的桌面應用程式。支援 Mac、Windows 和 Linux。它提供視覺化介面來下載、管理和與模型對話。

何時使用

  • -你不是開發者(或者你是,但只想和模型聊聊天)
  • -你想從視覺化目錄中瀏覽和下載模型
  • -你想並排比較不同模型
  • -你使用 Mac 且想要最簡單的設置方式

工作原理

下載應用程式。瀏覽模型庫(它索引 Hugging Face)。點擊下載模型。點擊運行。對話。就是這樣。

LM Studio 自動處理量化選擇、記憶體管理和 GPU 加速。如果你想連接其他工具,它也提供本地 API 伺服器。

優勢

  • -精美的圖形介面
  • -模型探索和管理
  • -並排模型比較
  • -自動硬體優化
  • -本地 API 伺服器用於工具整合

限制

  • -僅限桌面(無無頭伺服器選項)
  • -非為生產服務設計
  • -專注單一使用者
  • -有限的批次處理

Ollama(底層是 llama.cpp)

它是什麼

Ollama 是一個 CLI 工具,以友善的介面包裝 llama.cpp。一個指令安裝,一個指令運行模型。它在 localhost 上提供 OpenAI 相容的 API。

何時使用

  • -你偏好使用終端機
  • -你在本地開發且需要一個快速模型來測試
  • -你想透過 SSH 在遠端伺服器上運行模型
  • -你需要一個 OpenAI 相容端點用於本地開發
  • -你想要離線 AI(在港鐵通勤、Wi-Fi 不穩時)

工作原理

安裝 Ollama。按名稱拉取模型。運行。Ollama 處理下載、量化和服務。它在 localhost:11434 提供與 OpenAI 格式相容的 API——所以 Cursor、OpenCode 和其他工具可以直接連接。

優勢

  • -最簡單的 CLI 體驗
  • -龐大的模型庫
  • -開箱即用的 OpenAI 相容 API
  • -可在 CPU 上運行(不需要 GPU,但 GPU 有幫助)
  • -低資源開銷
  • -非常適合 Apple Silicon Mac

限制

  • -預設同時只能運行一個模型
  • -有限的批次處理和吞吐量優化
  • -不適合高並發生產環境
  • -與手動 llama.cpp 相比,量化選項較基本

原生 llama.cpp

Ollama 包裝了 llama.cpp,但你可以直接使用 llama.cpp 以獲得更多控制。這讓你擁有細粒度的量化選項、自訂取樣參數,以及在特殊硬體上運行的能力。代價是更多的手動設置。

在以下情況使用原生 llama.cpp:

  • -你需要特定的量化(Q4_K_M、Q5_K_S 等)
  • -你在不尋常的硬體上部署
  • -你需要對推理參數有最大控制
  • -你在構建自訂推理管線

vLLM:生產級服務

它是什麼

vLLM 是一個專為生產服務設計的高吞吐量推理引擎。它使用 PagedAttention 實現高效記憶體管理,並支援連續批次處理來處理多個並發請求。

何時使用

  • -多個使用者存取同一模型
  • -你需要高吞吐量(每小時數百或數千個請求)
  • -你在為團隊或產品提供模型作為內部 API
  • -你有 GPU 且想要最大利用率
  • -你需要生產功能:健康檢查、指標、自動擴展

工作原理

安裝 vLLM(Python 套件)。指向一個模型(Hugging Face ID 或本地路徑)。它將模型載入到你的 GPU 上並開始提供 OpenAI 相容的 API。

vLLM 的 PagedAttention 演算法管理 GPU 記憶體的方式就像作業系統管理 RAM 一樣——隨著請求的到來和結束動態分配和釋放記憶體區塊。這意味著它可以在相同的硬體上服務更多的並發請求。

優勢

  • -三個選項中最高的吞吐量
  • -連續批次處理(高效處理並發請求)
  • -PagedAttention 提升記憶體效率
  • -張量平行(將一個模型分割到多個 GPU)
  • -管線平行(運行多個模型)
  • -OpenAI 相容 API
  • -生產級可靠性

限制

  • -需要 NVIDIA GPU(CUDA)
  • -設置比 Ollama 更複雜
  • -對於單使用者本地開發來說過於強大
  • -較高的基礎資源需求

決策矩陣

場景工具原因
在 Mac 上探索模型LM Studio視覺化、簡單、不需要終端機
本地開發 + 測試Ollama簡單 CLI、快速設置、足夠的速度
在港鐵上離線寫程式Ollama在筆記型電腦上運行、無需網路
內部團隊 APIvLLM處理多使用者、高吞吐量
生產環境面向客戶vLLM可靠性、批次處理、監控
SSH 連線遠端伺服器Ollama 或 vLLMOllama 用於快速測試,vLLM 用於服務
最大控制llama.cpp自訂量化、特殊硬體
成本敏感的生產環境vLLM更好的硬體利用率 = 更低的每查詢成本

香港自建技術堆疊

以下是一個實用的香港自建技術堆疊:

開發者筆記型電腦: Ollama 搭配 DeepSeek-Coder 或 Qwen 7B/14B。足夠快的程式碼輔助,可離線運行。

團隊推理伺服器: 在配備 A100 或 4090 的機器上運行 vLLM,服務 DeepSeek-V3.2 或 Qwen3-235B。整個團隊將工具指向此端點。

生產環境: 雲端 GPU(Alibaba Cloud 或 Lambda Labs)上的 vLLM,配備負載平衡和監控。多個模型副本確保冗餘。

實驗: 某人 Mac 上的 LM Studio,用於在團隊承諾部署之前試用新模型。

關鍵洞見:你可能會使用不止一個這些工具。它們在不同階段服務於不同目的。Ollama 用於開發、vLLM 用於生產、LM Studio 用於探索。這不是冗餘——這是為每項工作選擇正確的工具。


來源

在香港自建 AI 模型?與我們分享你的配置。訂閱 Hong Kong AI Podcast 或透過 contact@hongkongaipodcast.com 聯繫我們。

保持更新

在我們發布新文章和節目時收到通知。沒有垃圾郵件,只有訊號。

內容過時或有誤?AI 發展迅速,我們希望做到正確。請通過以下方式告訴我們 contact@hongkongaipodcast.com