什麼是香港AI播客？

香港AI播客是與香港 AI 從業者的真實對話，涵蓋研究、金融科技、機器人、空間計算、醫療和文化。它是草根的、社群驅動的，提供英文、繁體中文和簡體中文版本。

香港AI播客的主持人是誰？

節目由周倩彤（Tanya Chou）擔任主持，陳敖桂（Augustin Chan）擔任共同主持，陳永杰（Ricky Chan）擔任攝影總監。他們為每集節目帶來好奇心和從業者的專業知識。

香港AI播客涵蓋哪些主題？

播客涵蓋香港可用的 AI 工具、中國 AI 模型和平台、香港本地 AI 生態系統，以及 AI 從業者的實用指南。網誌分為四大專欄：香港 AI 工具棧、中國 AI 格局、香港 AI 生態和從業者指南。

香港AI播客有中文版本嗎？

有。網站和所有文章均提供英文、繁體中文和簡體中文版本。節目主要以英文和廣東話錄製。

首頁/所有文章/vllm-lmstudio-llamacpp

從業者指南

vLLM vs LM Studio vs llama.cpp：如何在香港自建 AI 模型

Hong Kong AI Podcast/2026-03-07/7 min read/vLLMLM Studiollama.cppSelf-HostingHong Kong

如果你要在香港自建 AI 模型——這越來越是明智之舉——你需要選擇一個推理引擎。三個主要選項是 vLLM、LM Studio 和 llama.cpp（通常透過 Ollama）。每個都有明確的使用場景。

以下是何時使用哪個。

快速回答

LM Studio——你想要在 Mac 或 PC 上使用圖形介面。下載模型、按下運行、開始對話。不需要終端機。

Ollama（llama.cpp）——你想要在筆記型電腦或輕量級伺服器上使用命令列。一個指令即可拉取和運行模型。非常適合開發。

vLLM——你需要生產級服務。多使用者、高吞吐量、批次處理、GPU 優化。這是嚴肅的選項。

LM Studio：桌面應用程式

它是什麼

LM Studio 是一個用於本地運行 LLM 的桌面應用程式。支援 Mac、Windows 和 Linux。它提供視覺化介面來下載、管理和與模型對話。

何時使用

-你不是開發者（或者你是，但只想和模型聊聊天）
-你想從視覺化目錄中瀏覽和下載模型
-你想並排比較不同模型
-你使用 Mac 且想要最簡單的設置方式

工作原理

下載應用程式。瀏覽模型庫（它索引 Hugging Face）。點擊下載模型。點擊運行。對話。就是這樣。

LM Studio 自動處理量化選擇、記憶體管理和 GPU 加速。如果你想連接其他工具，它也提供本地 API 伺服器。

優勢

-精美的圖形介面
-模型探索和管理
-並排模型比較
-自動硬體優化
-本地 API 伺服器用於工具整合

限制

-僅限桌面（無無頭伺服器選項）
-非為生產服務設計
-專注單一使用者
-有限的批次處理

Ollama（底層是 llama.cpp）

它是什麼

Ollama 是一個 CLI 工具，以友善的介面包裝 llama.cpp。一個指令安裝，一個指令運行模型。它在 localhost 上提供 OpenAI 相容的 API。

何時使用

-你偏好使用終端機
-你在本地開發且需要一個快速模型來測試
-你想透過 SSH 在遠端伺服器上運行模型
-你需要一個 OpenAI 相容端點用於本地開發
-你想要離線 AI（在港鐵通勤、Wi-Fi 不穩時）

工作原理

安裝 Ollama。按名稱拉取模型。運行。Ollama 處理下載、量化和服務。它在 localhost:11434 提供與 OpenAI 格式相容的 API——所以 Cursor、OpenCode 和其他工具可以直接連接。

優勢

-最簡單的 CLI 體驗
-龐大的模型庫
-開箱即用的 OpenAI 相容 API
-可在 CPU 上運行（不需要 GPU，但 GPU 有幫助）
-低資源開銷
-非常適合 Apple Silicon Mac

限制

-預設同時只能運行一個模型
-有限的批次處理和吞吐量優化
-不適合高並發生產環境
-與手動 llama.cpp 相比，量化選項較基本

原生 llama.cpp

Ollama 包裝了 llama.cpp，但你可以直接使用 llama.cpp 以獲得更多控制。這讓你擁有細粒度的量化選項、自訂取樣參數，以及在特殊硬體上運行的能力。代價是更多的手動設置。

在以下情況使用原生 llama.cpp：

-你需要特定的量化（Q4_K_M、Q5_K_S 等）
-你在不尋常的硬體上部署
-你需要對推理參數有最大控制
-你在構建自訂推理管線

vLLM：生產級服務

它是什麼

vLLM 是一個專為生產服務設計的高吞吐量推理引擎。它使用 PagedAttention 實現高效記憶體管理，並支援連續批次處理來處理多個並發請求。

何時使用

-多個使用者存取同一模型
-你需要高吞吐量（每小時數百或數千個請求）
-你在為團隊或產品提供模型作為內部 API
-你有 GPU 且想要最大利用率
-你需要生產功能：健康檢查、指標、自動擴展

工作原理

安裝 vLLM（Python 套件）。指向一個模型（Hugging Face ID 或本地路徑）。它將模型載入到你的 GPU 上並開始提供 OpenAI 相容的 API。

vLLM 的 PagedAttention 演算法管理 GPU 記憶體的方式就像作業系統管理 RAM 一樣——隨著請求的到來和結束動態分配和釋放記憶體區塊。這意味著它可以在相同的硬體上服務更多的並發請求。

優勢

-三個選項中最高的吞吐量
-連續批次處理（高效處理並發請求）
-PagedAttention 提升記憶體效率
-張量平行（將一個模型分割到多個 GPU）
-管線平行（運行多個模型）
-OpenAI 相容 API
-生產級可靠性

限制

-需要 NVIDIA GPU（CUDA）
-設置比 Ollama 更複雜
-對於單使用者本地開發來說過於強大
-較高的基礎資源需求

決策矩陣

場景	工具	原因
在 Mac 上探索模型	LM Studio	視覺化、簡單、不需要終端機
本地開發 + 測試	Ollama	簡單 CLI、快速設置、足夠的速度
在港鐵上離線寫程式	Ollama	在筆記型電腦上運行、無需網路
內部團隊 API	vLLM	處理多使用者、高吞吐量
生產環境面向客戶	vLLM	可靠性、批次處理、監控
SSH 連線遠端伺服器	Ollama 或 vLLM	Ollama 用於快速測試，vLLM 用於服務
最大控制	llama.cpp	自訂量化、特殊硬體
成本敏感的生產環境	vLLM	更好的硬體利用率 = 更低的每查詢成本

香港自建技術堆疊

以下是一個實用的香港自建技術堆疊：

開發者筆記型電腦： Ollama 搭配 DeepSeek-Coder 或 Qwen 7B/14B。足夠快的程式碼輔助，可離線運行。

團隊推理伺服器： 在配備 A100 或 4090 的機器上運行 vLLM，服務 DeepSeek-V3.2 或 Qwen3-235B。整個團隊將工具指向此端點。

生產環境： 雲端 GPU（Alibaba Cloud 或 Lambda Labs）上的 vLLM，配備負載平衡和監控。多個模型副本確保冗餘。

實驗： 某人 Mac 上的 LM Studio，用於在團隊承諾部署之前試用新模型。

關鍵洞見：你可能會使用不止一個這些工具。它們在不同階段服務於不同目的。Ollama 用於開發、vLLM 用於生產、LM Studio 用於探索。這不是冗餘——這是為每項工作選擇正確的工具。

來源

在香港自建 AI 模型？與我們分享你的配置。訂閱 Hong Kong AI Podcast 或透過 contact@hongkongaipodcast.com 聯繫我們。

保持更新

在我們發布新文章和節目時收到通知。沒有垃圾郵件，只有訊號。

內容過時或有誤？AI 發展迅速，我們希望做到正確。請通過以下方式告訴我們 contact@hongkongaipodcast.com