AI(LLM)架設核心思考與規畫心態說明4：Q：樹莓派這麼小不拉機可以當AI主機嗎？

10月 09, 2025

Q:以樹莓派5 Model B，RAM 16GB 來說，有推薦使用哪個嗎？

Ans:

樹莓派 5 (Raspberry Pi 5) 搭配 16GB RAM 的性能，已經足以運行一些經過優化的開源大型語言模型了。這絕對是個非常有趣的專案！

核心關鍵： 因為樹莓派沒有 NVIDIA GPU，我們無法使用 CUDA 進行加速。因此，整個運行的關鍵在於 CPU 推論 (Inference)。為此，我們需要滿足兩個條件：

使用 llama.cpp 框架： 這是一個用 C++ 編寫的、專為在 CPU (包括 ARM 架構的樹莓派) 上高效運行 LLM 而生的神級專案。
使用 GGUF 格式的模型： 這是 llama.cpp 使用的特定模型格式，它經過量化 (Quantization)，大幅減少了模型大小和 RAM 佔用，同時對 CPU 非常友好。

基於這個原則，我從 Hugging Face 為您挑選了幾款非常適合在樹莓派 5 上運行的模型，並給出明確的推薦順序。

模型推薦 (從最推薦到可嘗試)

🥇 1. 最佳綜合推薦：`Qwen1.5-1.8B-Chat-GGUF`

Hugging Face Repo: Qwen/Qwen1.5-1.8B-Chat-GGUF
推薦理由：
- 優秀的中英文能力： 這是阿里巴巴開發的 Qwen 系列，對繁體中文和英文的支援都非常好，在小型模型中表現頂尖。既然您用中文提問，這款模型會是體驗最好的。
- 完美的尺寸： 18億 (1.8B) 參數大小非常適合樹莓派。量化後佔用的 RAM 適中，能提供不錯的推論速度。
- 活躍的社群： Qwen 系列非常受歡迎，更新和社群支援都很充足。
建議下載檔案： qwen1_5-1_8b-chat-q4_k_m.gguf (約 1.1 GB)。Q4_K_M 是個兼顧了品質和性能的絕佳量化等級。

🥈 2. 英文性能標竿：`google/gemma-2b-it-gguf`

Hugging Face Repo: google/gemma-2b-it-gguf
推薦理由：
- Google 出品： Gemma 是 Google DeepMind 的力作，2B (20億) 參數版本的效率和品質都備受讚譽。
- 指令遵循能力強： -it (Instruction Tuned) 版本非常擅長遵循指令和進行對話。
- 輕量高效： 在英文的邏輯推理和程式碼能力上，它可能是這個尺寸中最頂尖的模型之一。
建議下載檔案： gemma-2b-it-q4_k_m.gguf (約 1.5 GB)。

🥉 3. 速度優先/最輕量級：`TinyLlama/TinyLlama-1.1B-Chat-v1.0-GGUF`

Hugging Face Repo: TinyLlama/TinyLlama-1.1B-Chat-v1.0-GGUF
推薦理由：
- 極致輕量： 只有 11億 (1.1B) 參數，它在樹莓派上的運行速度會是這幾款中最快的。
- RAM 佔用極低： 如果你還想在樹莓派上同時運行其他服務，這款模型是你的首選。
- 能力夠用： 雖然不如前兩者聰明，但對於簡單的問答、文字分類等任務已經足夠。
建議下載檔案： tinyllama-1.1b-chat-v1.0.Q4_K_M.gguf (約 669 MB)。

如何在你的樹莓派 5 上部署 (Step-by-Step)

以下是從零開始的完整步驟：

第 1 步：更新你的樹莓派系統 打開終端機 (Terminal)，輸入以下指令：

Bash

sudo apt update
sudo apt upgrade -y

第 2 步：安裝必要的編譯工具並下載 llama.cpp

Bash

sudo apt install -y git build-essential
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp

第 3 步：編譯 llama.cpp 這一步會針對你的樹莓派 5 的 ARM 架構進行優化編譯，非常重要。

Bash

make

編譯過程可能需要幾分鐘，請耐心等待。

第 4 步：下載你選擇的模型 我們以最佳推薦 Qwen1.5-1.8B-Chat 為例。回到你的家目錄 (home directory) 並創建一個資料夾來存放模型。

Bash
cd ~
mkdir llm-models
cd llm-models

# 使用 wget 下載模型檔案 (這會需要一些時間)
wget https://huggingface.co/Qwen/Qwen1.5-1.8B-Chat-GGUF/resolve/main/qwen1_5-1_8b-chat-q4_k_m.gguf

第 5 步：運行模型並開始對話！ 現在，萬事俱備。回到 llama.cpp 的目錄，運行以下指令啟動一個互動式的聊天介面。

Bash
cd ~/llama.cpp

./main -m ~/llm-models/qwen1_5-1_8b-chat-q4_k_m.gguf \
--color \
-n 256 \
-i \
--reverse-prompt "Human:" \
-p "Human:"

指令解釋：

-m: 指定你的模型檔案路徑。
--color: 讓對話有顏色區分。
-n 256: 設定 AI 一次最多生成 256 個 token (字或詞)。
-i: 進入互動模式。
--reverse-prompt "Human:" 和 -p "Human:": 設定你的輸入提示詞，讓 AI 知道輪到它說話了。

當你看到 Human: 出現時，就可以開始輸入文字並按下 Enter，與你的本地 AI 進行對話了！

性能預期

請務必有合理的預期：

速度不會飛快： 它不會像 ChatGPT 網頁版那樣即時回應。你輸入問題後，可能需要等待幾秒到十幾秒，AI 會一個字一個字地生成出來。
1.8B 的模型會比 1.1B 慢一些，但會明顯更聰明。
這絕對是可用的！ 對於程式碼生成、簡單的問答、創意寫作等任務，這個體驗非常酷，而且完全在本地運行，保障你的隱私。

搜尋此網誌

芥末醬的梨梨摳摳