AI(LLM)架設核心思考與規畫心態說明4:Q:樹莓派這麼小不拉機可以當AI主機嗎?

 Q:以樹莓派5 Model B,RAM 16GB 來說,有推薦使用哪個嗎?

Ans:

樹莓派 5 (Raspberry Pi 5) 搭配 16GB RAM 的性能,已經足以運行一些經過優化的開源大型語言模型了。這絕對是個非常有趣的專案!

核心關鍵: 因為樹莓派沒有 NVIDIA GPU,我們無法使用 CUDA 進行加速。因此,整個運行的關鍵在於 CPU 推論 (Inference)。為此,我們需要滿足兩個條件:

  1. 使用 llama.cpp 框架: 這是一個用 C++ 編寫的、專為在 CPU (包括 ARM 架構的樹莓派) 上高效運行 LLM 而生的神級專案。

  2. 使用 GGUF 格式的模型: 這是 llama.cpp 使用的特定模型格式,它經過量化 (Quantization),大幅減少了模型大小和 RAM 佔用,同時對 CPU 非常友好。

基於這個原則,我從 Hugging Face 為您挑選了幾款非常適合在樹莓派 5 上運行的模型,並給出明確的推薦順序。


模型推薦 (從最推薦到可嘗試)

🥇 1. 最佳綜合推薦:Qwen1.5-1.8B-Chat-GGUF

  • Hugging Face Repo: Qwen/Qwen1.5-1.8B-Chat-GGUF

  • 推薦理由:

    • 優秀的中英文能力: 這是阿里巴巴開發的 Qwen 系列,對繁體中文和英文的支援都非常好,在小型模型中表現頂尖。既然您用中文提問,這款模型會是體驗最好的。

    • 完美的尺寸: 18億 (1.8B) 參數大小非常適合樹莓派。量化後佔用的 RAM 適中,能提供不錯的推論速度。

    • 活躍的社群: Qwen 系列非常受歡迎,更新和社群支援都很充足。

  • 建議下載檔案: qwen1_5-1_8b-chat-q4_k_m.gguf (約 1.1 GB)。Q4_K_M 是個兼顧了品質和性能的絕佳量化等級。

🥈 2. 英文性能標竿:google/gemma-2b-it-gguf

  • Hugging Face Repo: google/gemma-2b-it-gguf

  • 推薦理由:

    • Google 出品: Gemma 是 Google DeepMind 的力作,2B (20億) 參數版本的效率和品質都備受讚譽。

    • 指令遵循能力強: -it (Instruction Tuned) 版本非常擅長遵循指令和進行對話。

    • 輕量高效: 在英文的邏輯推理和程式碼能力上,它可能是這個尺寸中最頂尖的模型之一。

  • 建議下載檔案: gemma-2b-it-q4_k_m.gguf (約 1.5 GB)。

🥉 3. 速度優先/最輕量級:TinyLlama/TinyLlama-1.1B-Chat-v1.0-GGUF

  • Hugging Face Repo: TinyLlama/TinyLlama-1.1B-Chat-v1.0-GGUF

  • 推薦理由:

    • 極致輕量: 只有 11億 (1.1B) 參數,它在樹莓派上的運行速度會是這幾款中最快的。

    • RAM 佔用極低: 如果你還想在樹莓派上同時運行其他服務,這款模型是你的首選。

    • 能力夠用: 雖然不如前兩者聰明,但對於簡單的問答、文字分類等任務已經足夠。

  • 建議下載檔案: tinyllama-1.1b-chat-v1.0.Q4_K_M.gguf (約 669 MB)。


如何在你的樹莓派 5 上部署 (Step-by-Step)

以下是從零開始的完整步驟:

第 1 步:更新你的樹莓派系統 打開終端機 (Terminal),輸入以下指令:

Bash
sudo apt update
sudo apt upgrade -y

第 2 步:安裝必要的編譯工具並下載 llama.cpp

Bash
sudo apt install -y git build-essential
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp

第 3 步:編譯 llama.cpp 這一步會針對你的樹莓派 5 的 ARM 架構進行優化編譯,非常重要。

Bash
make

編譯過程可能需要幾分鐘,請耐心等待。

第 4 步:下載你選擇的模型 我們以最佳推薦 Qwen1.5-1.8B-Chat 為例。回到你的家目錄 (home directory) 並創建一個資料夾來存放模型。

Bash
cd ~
mkdir llm-models
cd llm-models

# 使用 wget 下載模型檔案 (這會需要一些時間)
wget https://huggingface.co/Qwen/Qwen1.5-1.8B-Chat-GGUF/resolve/main/qwen1_5-1_8b-chat-q4_k_m.gguf

第 5 步:運行模型並開始對話! 現在,萬事俱備。回到 llama.cpp 的目錄,運行以下指令啟動一個互動式的聊天介面。

Bash
cd ~/llama.cpp

./main -m ~/llm-models/qwen1_5-1_8b-chat-q4_k_m.gguf \
--color \
-n 256 \
-i \
--reverse-prompt "Human:" \
-p "Human:"

指令解釋:

  • -m: 指定你的模型檔案路徑。

  • --color: 讓對話有顏色區分。

  • -n 256: 設定 AI 一次最多生成 256 個 token (字或詞)。

  • -i: 進入互動模式。

  • --reverse-prompt "Human:"-p "Human:": 設定你的輸入提示詞,讓 AI 知道輪到它說話了。

當你看到 Human: 出現時,就可以開始輸入文字並按下 Enter,與你的本地 AI 進行對話了!

性能預期

請務必有合理的預期:

  • 速度不會飛快: 它不會像 ChatGPT 網頁版那樣即時回應。你輸入問題後,可能需要等待幾秒到十幾秒,AI 會一個字一個字地生成出來。

  • 1.8B 的模型會比 1.1B 慢一些,但會明顯更聰明。

  • 這絕對是可用的! 對於程式碼生成、簡單的問答、創意寫作等任務,這個體驗非常酷,而且完全在本地運行,保障你的隱私。

留言

這個網誌中的熱門文章

AI時代:機會與挑戰|113-2 人文與科技的對話_觀看心得與整理

XROUND FORGE PRO使用心得與體驗

運動新伴侶Shokz OpnRun PRO 2