AI(LLM)架設核心思考與規畫心態說明4:Q:樹莓派這麼小不拉機可以當AI主機嗎?
Q:以樹莓派5 Model B,RAM 16GB 來說,有推薦使用哪個嗎?
Ans:
樹莓派 5 (Raspberry Pi 5) 搭配 16GB RAM 的性能,已經足以運行一些經過優化的開源大型語言模型了。這絕對是個非常有趣的專案!
核心關鍵: 因為樹莓派沒有 NVIDIA GPU,我們無法使用 CUDA 進行加速。因此,整個運行的關鍵在於 CPU 推論 (Inference)。為此,我們需要滿足兩個條件:
使用
llama.cpp框架: 這是一個用 C++ 編寫的、專為在 CPU (包括 ARM 架構的樹莓派) 上高效運行 LLM 而生的神級專案。使用 GGUF 格式的模型: 這是
llama.cpp使用的特定模型格式,它經過量化 (Quantization),大幅減少了模型大小和 RAM 佔用,同時對 CPU 非常友好。
基於這個原則,我從 Hugging Face 為您挑選了幾款非常適合在樹莓派 5 上運行的模型,並給出明確的推薦順序。
模型推薦 (從最推薦到可嘗試)
🥇 1. 最佳綜合推薦:Qwen1.5-1.8B-Chat-GGUF
Hugging Face Repo:
Qwen/Qwen1.5-1.8B-Chat-GGUF推薦理由:
優秀的中英文能力: 這是阿里巴巴開發的 Qwen 系列,對繁體中文和英文的支援都非常好,在小型模型中表現頂尖。既然您用中文提問,這款模型會是體驗最好的。
完美的尺寸: 18億 (1.8B) 參數大小非常適合樹莓派。量化後佔用的 RAM 適中,能提供不錯的推論速度。
活躍的社群: Qwen 系列非常受歡迎,更新和社群支援都很充足。
建議下載檔案:
qwen1_5-1_8b-chat-q4_k_m.gguf(約 1.1 GB)。Q4_K_M是個兼顧了品質和性能的絕佳量化等級。
🥈 2. 英文性能標竿:google/gemma-2b-it-gguf
Hugging Face Repo:
google/gemma-2b-it-gguf推薦理由:
Google 出品: Gemma 是 Google DeepMind 的力作,2B (20億) 參數版本的效率和品質都備受讚譽。
指令遵循能力強:
-it(Instruction Tuned) 版本非常擅長遵循指令和進行對話。輕量高效: 在英文的邏輯推理和程式碼能力上,它可能是這個尺寸中最頂尖的模型之一。
建議下載檔案:
gemma-2b-it-q4_k_m.gguf(約 1.5 GB)。
🥉 3. 速度優先/最輕量級:TinyLlama/TinyLlama-1.1B-Chat-v1.0-GGUF
Hugging Face Repo:
TinyLlama/TinyLlama-1.1B-Chat-v1.0-GGUF推薦理由:
極致輕量: 只有 11億 (1.1B) 參數,它在樹莓派上的運行速度會是這幾款中最快的。
RAM 佔用極低: 如果你還想在樹莓派上同時運行其他服務,這款模型是你的首選。
能力夠用: 雖然不如前兩者聰明,但對於簡單的問答、文字分類等任務已經足夠。
建議下載檔案:
tinyllama-1.1b-chat-v1.0.Q4_K_M.gguf(約 669 MB)。
如何在你的樹莓派 5 上部署 (Step-by-Step)
以下是從零開始的完整步驟:
第 1 步:更新你的樹莓派系統 打開終端機 (Terminal),輸入以下指令:
sudo apt update
sudo apt upgrade -y
第 2 步:安裝必要的編譯工具並下載 llama.cpp
sudo apt install -y git build-essential
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
第 3 步:編譯 llama.cpp
這一步會針對你的樹莓派 5 的 ARM 架構進行優化編譯,非常重要。
make
編譯過程可能需要幾分鐘,請耐心等待。
第 4 步:下載你選擇的模型
我們以最佳推薦 Qwen1.5-1.8B-Chat 為例。回到你的家目錄 (home directory) 並創建一個資料夾來存放模型。
cd ~
mkdir llm-models
cd llm-models
# 使用 wget 下載模型檔案 (這會需要一些時間)
wget https://huggingface.co/Qwen/Qwen1.5-1.8B-Chat-GGUF/resolve/main/qwen1_5-1_8b-chat-q4_k_m.gguf
第 5 步:運行模型並開始對話!
現在,萬事俱備。回到 llama.cpp 的目錄,運行以下指令啟動一個互動式的聊天介面。
cd ~/llama.cpp
./main -m ~/llm-models/qwen1_5-1_8b-chat-q4_k_m.gguf \
--color \
-n 256 \
-i \
--reverse-prompt "Human:" \
-p "Human:"
指令解釋:
-m: 指定你的模型檔案路徑。--color: 讓對話有顏色區分。-n 256: 設定 AI 一次最多生成 256 個 token (字或詞)。-i: 進入互動模式。--reverse-prompt "Human:"和-p "Human:": 設定你的輸入提示詞,讓 AI 知道輪到它說話了。
當你看到 Human: 出現時,就可以開始輸入文字並按下 Enter,與你的本地 AI 進行對話了!
性能預期
請務必有合理的預期:
速度不會飛快: 它不會像 ChatGPT 網頁版那樣即時回應。你輸入問題後,可能需要等待幾秒到十幾秒,AI 會一個字一個字地生成出來。
1.8B的模型會比1.1B慢一些,但會明顯更聰明。這絕對是可用的! 對於程式碼生成、簡單的問答、創意寫作等任務,這個體驗非常酷,而且完全在本地運行,保障你的隱私。
留言
張貼留言