✨Gemma 3 - 実行ガイド

llama.cpp、Ollama、Open WebUI で当社の GGUF を使って Gemma 3 を効果的に実行する方法と、Unsloth でのファインチューニング方法！

Googleは新しい270Mモデルと既存の1B、4B、12B、27Bサイズを備えたGemma 3をリリースしました。270Mと1Bはテキスト専用で、より大きなモデルはテキストとビジョンの両方を扱います。私たちはGGUFを提供しており、それを効果的に実行する方法や、ファインチューニングと実行の方法に関するガイドも用意しています。強化学習（RL） Gemma 3で！

新着 2025年8月14日更新： 私たちのファインチューニングを試してみてください Gemma 3（270M）ノートブックおよび実行用のGGUF.

こちらもご覧ください Gemma 3nガイド.

実行チュートリアル微調整チュートリアル

UnslothはGemma 3の推論とトレーニングでfloat16マシン上で動作する唯一のフレームワークです。 これは、無料のTesla T4 GPUを備えたColabノートブックでも動作することを意味します！

ビジョンサポート付きのGemma 3（4B）を私たちのノートブックでファインチューンしてください：無料のColabノートブック

Gemmaチームによると、推論の最適な設定は temperature = 1.0, top_k = 64, top_p = 0.95, min_p = 0.0

UnslothのGemma 3アップロード（最適な設定）：

GGUF

Unsloth ダイナミック4ビットインストラクト

16ビット指示（Instruct）

270M - 新規
1B
4B
12B
27B

⚙️ 推奨推論設定

Gemmaチームによると、推論の公式推奨設定は：

温度（Temperature）を1.0に設定
Top_K = 64
Min_Pは0.00（オプション。ただし0.01がよく機能します。llama.cppのデフォルトは0.1）
Top_P = 0.95
Repetition Penalty = 1.0。（llama.cpp と transformers では 1.0 は無効を意味します）

チャットテンプレート：

<bos><start_of_turn>user\nHello!<end_of_turn>\n<start_of_turn>model\nHey there!<end_of_turn>\n<start_of_turn>user\nWhat is 1+1?<end_of_turn>\n<start_of_turn>model\n

チャットテンプレート（含む） \n改行がレンダリングされる（最後を除く）

<bos><start_of_turn>user
Hello!<end_of_turn>
<start_of_turn>model
Hey there!<end_of_turn>
<start_of_turn>user
What is 1+1?<end_of_turn>
<start_of_turn>model\n

llama.cpp や他の推論エンジンは自動で <bos> を追加します - <bos> を二重に追加しないでください！モデルにプロンプトを与える際は <bos> を無視するべきです！

✨スマートフォンでGemma 3を実行する

モデルをスマートフォンで実行するには、GGUFをローカルでエッジデバイス（例：携帯）上で実行できる任意のモバイルアプリを使用することをお勧めします。ファインチューニング後にGGUFにエクスポートしてから端末上でローカル実行できます。モデルを処理するための十分なRAM/性能が端末にあることを確認してください。過熱する可能性があるため、このユースケースにはGemma 3 270MまたはGemma 3nモデルの使用を推奨します。次のものを試せます：オープンソースプロジェクト AnythingLLM のモバイルアプリはダウンロード可能です： Androidはこちらまたは ChatterUI、これらは携帯でGGUFを実行するのに優れたアプリです。

すべてのチュートリアルで、モデル名 'gemma-3-27b-it-GGUF' を 'gemma-3-270m-it-GGUF:Q8_K_XL' のような任意のGemmaモデル名に変更できます。

🦙 チュートリアル：OllamaでGemma 3を実行する方法

インストールしてください ollama まだの場合はぜひ！

apt-get update
apt-get install pciutils -y
curl -fsSL https://ollama.com/install.sh | sh

モデルを実行してください！失敗した場合は別の端末で ollama serveを呼び出せます！私たちのすべての修正と推奨パラメータ（temperatureなど）は params 私たちのHugging Faceアップロード内で！モデル名 'gemma-3-27b-it-GGUF' を 'gemma-3-270m-it-GGUF:Q8_K_XL' のような任意のGemmaモデルに変更できます。

ollama run hf.co/unsloth/gemma-3-27b-it-GGUF:Q4_K_XL

📖 チュートリアル：llama.cppでGemma 3 27Bを実行する方法

最新の llama.cpp を GitHub で入手できます。下のビルド手順に従うこともできます。変更してください -DGGML_CUDA=ON から -DGGML_CUDA=OFF GPU がない場合や CPU 推論のみを行いたい場合は。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggerganov/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=ON -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-quantize llama-cli llama-gguf-split llama-mtmd-cli
cp llama.cpp/build/bin/llama-* llama.cpp

直接モデルを読み込むために llama.cpp モデルを直接読み込むには、以下を実行できます：（:Q4_K_XL）は量子化タイプです。Hugging Face（ポイント3）経由でダウンロードすることもできます。これは次に似ています ollama run

./llama.cpp/llama-mtmd-cli \
    -hf unsloth/gemma-3-4b-it-GGUF:Q4_K_XL

または （をインストールした後）経由でモデルをダウンロードします。 pip install huggingface_hub hf_transfer ）。Q4_K_Mを選択するか、他の量子化バージョン（BF16フル精度など）を選べます。その他のバージョンは： https://huggingface.co/unsloth/gemma-3-27b-it-GGUF

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/gemma-3-27b-it-GGUF",
    local_dir = "unsloth/gemma-3-27b-it-GGUF",
    allow_patterns = ["*Q4_K_XL*", "mmproj-BF16.gguf"], # Q4_K_M用
)

Unsloth の Flappy Bird テストを実行
編集 --threads 32 でCPUスレッド数を編集できます、 --ctx-size 16384 コンテキスト長について（Gemma 3は128Kのコンテキスト長をサポートします！）、 --n-gpu-layers 99 で何層をGPUにオフロードするかを指定します。GPUがメモリ不足になる場合は調整してみてください。CPUのみの推論の場合はこれを削除してください。
会話モードの場合：

./llama.cpp/llama-mtmd-cli \
    --model unsloth/gemma-3-27b-it-GGUF/gemma-3-27b-it-Q4_K_XL.gguf \
    --mmproj unsloth/gemma-3-27b-it-GGUF/mmproj-BF16.gguf \
    --ctx-size 16384 \
    --n-gpu-layers 99 \
    --seed 3407 \
    --prio 2 \
    --temp 1.0 \
    --repeat-penalty 1.0 \
    --min-p 0.01 \
    --top-k 64 \
    --top-p 0.95

会話モード以外で Flappy Bird をテストするには：

./llama.cpp/llama-cli \
    --model unsloth/gemma-3-27b-it-GGUF/gemma-3-27b-it-Q4_K_XL.gguf \
    --ctx-size 16384 \
    --n-gpu-layers 99 \
    --seed 3407 \
    --prio 2 \
    --temp 1.0 \
    --repeat-penalty 1.0 \
    --min-p 0.01 \
    --top-k 64 \
    --top-p 0.95 \
    -no-cnv \
    --prompt "<start_of_turn>user\nPython で Flappy Bird のゲームを作成してください。次の要件を必ず含めてください:\n1. pygame を使用すること。\n2. 背景色はランダムに選ばれる淡い色にすること。初期は薄い青色で開始すること。\n3. SPACE を複数回押すと鳥が加速すること。\n4. 鳥の形はランダムに正方形、円、三角形のいずれかにすること。色はランダムに暗い色にすること。\n5. 下部にランダムで暗茶色または黄色の土地を配置すること。\n6. 右上にスコアを表示すること。パイプを通過して当たらなかった場合に増加させること。\n7. パイプはランダムな間隔で配置し、十分な間隔を持たせること。色はランダムに濃い緑、薄い茶色、または暗い灰色にすること。\n8. 失敗時には最高スコアを表示すること。スコアは画面内に表示すること。q または Esc を押すとゲームを終了すること。再開は再び SPACE を押すこと。\n最終的なゲームは Python のマークダウンセクション内に入れてください。コードのエラーを確認し、最終マークダウンセクションの前に修正してください。<end_of_turn>\n<start_of_turn>model\n"

私たちの https://unsloth.ai/blog/deepseekr1-dynamic 1.58bitブログからの完全な入力は：

Gemma 3は自動的に<bos>を追加するので、<bos>を削除するのを忘れないでください！

<start_of_turn>user
および他のテストでも2ビットでさえ動作しました。目標はLLMに特定の指示に従ってFlappy Birdゲームを作成させることです：
1. pygame を使用すること。
2. 背景色はランダムに選ばれ、明るい色合いにすること。最初は淡い青を使用すること。
3. SPACEキーを複数回押すと鳥が加速すること。
4. 鳥の形状は正方形、円、三角形のいずれかをランダムに選ぶこと。色は暗めの色をランダムに選ぶこと。
5. 画面下部に濃い茶色または黄色のどちらかをランダムに選んだ土地を配置すること。
6. 右上にスコアを表示すること。パイプを通過してぶつからなければスコアを増やすこと。
7. パイプはランダムな間隔で配置し、十分な隙間を確保すること。色は濃い緑か薄い茶色か濃い灰色のいずれかをランダムにすること。
8. ゲームオーバー時にベストスコアを表示すること。テキストは画面内に表示すること。q または Esc を押すとゲームを終了すること。再開は SPACE を再度押すこと。
最終的なゲームはPythonのマークダウンセクション内にあるべきです。エラーについてコードを確認してください

🦥 UnslothでのGemma 3のファインチューニング

私たちの新しいものを試してみてください Gemma 3（270M）ノートブックこれは270Mパラメータモデルをチェスのプレイに非常に賢くし、次のチェスの手を予測できるようにします。
次のために私たちのノートブックを使ってGemma 3（4B）をファインチューンしてください： テキスト または ビジョン
またはファインチューンする Gemma 3n（E4B）をテキスト • ビジョン • オーディオ

フルファインチューニング（FFT）でGemma 3を試すとき、すべてのレイヤーはfloat16デバイス上でデフォルトでfloat32になります。Unslothはfloat16を想定しており動的にアップキャストします。修正するには、読み込み後に次を実行してください model.to(torch.float16) またはbfloat16をサポートするGPUを使用してください。

Unslothのファインチューニング修正

Unslothでの私たちの解決策は3つに分かれています：

中間の全てのアクティベーションをbfloat16形式に保つこと—float32でも可能ですが、その場合VRAMまたはRAMを2倍使用します（Unslothの非同期勾配チェックポイントを介して）
テンソルコアを使ってすべての行列乗算をfloat16で行うが、Pytorchの混合精度autocastの助けを借りずに手動でアップキャスト/ダウンキャストすること。
行列乗算を必要としないその他のオプション（layernormなど）はすべてfloat32にアップキャストすること。

🤔 Gemma 3の修正分析

まず、Gemma 3をファインチューニングまたは実行する前に、float16混合精度を使用すると勾配や アクティベーションが無限大になる ことがあると分かりました。残念ながらこれは、T4 GPU、RTX 20xシリーズ、V100 GPUなど、float16テンソルコアのみを持つ環境で発生します。

RTX 30x以降、A100、H100などの新しいGPUではbfloat16テンソルコアを搭載しているため、この問題は発生しません！ しかし、なぜでしょうか？

Float16は表現できる数値が最大で 65504までですが、bfloat16は非常に大きな数値まで表現できます： 10^38！しかし両方の数値形式はわずか16ビットしか使わないことに注意してください！これは、float16がより小さい小数をより良く表現するためにより多くのビットを割り当てているのに対し、bfloat16は小数をうまく表現できないためです。

しかし、なぜfloat16を使うのか？float32を使えばいいのでは？しかし残念ながらGPU上でのfloat32は行列乗算が非常に遅く—場合によっては4〜10倍遅いです！したがってこれを使うことはできません。

前へQwen3-2507 次へGemma 3n

最終更新 18 日前

役に立ちましたか？

hashtag⚙️ 推奨推論設定

hashtag✨スマートフォンでGemma 3を実行する

hashtag🦙 チュートリアル：OllamaでGemma 3を実行する方法

hashtag📖 チュートリアル：llama.cppでGemma 3 27Bを実行する方法

hashtag🦥 UnslothでのGemma 3のファインチューニング

hashtagUnslothのファインチューニング修正

hashtag🤔 Gemma 3の修正分析