✨Gemma 4 - ローカルでの実行方法
Googleの新しいGemma 4モデルを、E2B、E4B、26B A4B、31Bを含めてローカルで実行しましょう。
Gemma 4 は Google DeepMind の新しいオープンモデル群で、以下を含みます E2B, E4B, 26B-A4B、そして 31B。 これらのマルチモーダルなハイブリッド思考モデルは、140以上の言語、最大 256K のコンテキストをサポートし、Dense版とMoE版の両方があります。E2B と E4B は画像と音声もサポートします。Apache-2.0ライセンスで公開されている Gemma 4 はデバイス上でローカル実行でき、 Unsloth Studio.
Gemma 4 は現在 Unsloth Studio で学習および GGUF / MLX 推論に対応しています!
Gemma-4-E2B と E4B は 5GB RAM (4-bit)または 15GB(16-bit フル精度)で動作します。 Gemma-4-26B-A4B は 18GB (4-bit)または 28GB(8-bit)。 Gemma-4-31B には 20GB RAM が必要です(4-bit)または 34GB(8-bit)。参照: Unsloth Gemma 4 GGUFs
Gemma 4 を実行Gemma 4 をファインチューニング
使用ガイド
Gemma 4 は、推論、コーディング、ツール使用、長文コンテキストのタスク、エージェント的ワークフロー、マルチモーダルタスクに優れています。より小さい E2B と E4B の各バリアントは、スマートフォンやノートPC向けに設計されています。
E2B
Dense + PLE(128K コンテキスト) 対応:テキスト、画像、音声
スマホ/エッジ推論、ASR、音声翻訳向け
E4B
Dense + PLE(128K コンテキスト) 対応:テキスト、画像、音声
ノートPC向けの小型モデルで、高速なローカルマルチモーダル利用に最適
26B-A4B
MoE(256K コンテキスト) 対応:テキスト、画像
コンピュータ利用における速度と品質の最適なトレードオフ
31B
Dense(256K コンテキスト) 対応:テキスト、画像
推論は遅いが、最強の性能
26B-A4B と 31B のどちらを選ぶべき?
26B-A4B - 速度と精度のバランスに優れています。MoE設計により、アクティブなパラメータが4Bで、31Bより高速です。RAM が限られていて、品質を少し犠牲にして速度を優先してよい場合に選んでください。
31B - 現時点で最も強力な Gemma 4 モデルです。十分なメモリがあり、やや遅い速度を許容できるなら、最高品質を求める用途に選んでください。
Gemma 4 ベンチマーク
31B
85.2%
89.2%
80.0%
76.9%
26B A4B
82.6%
88.3%
77.1%
73.8%
E4B
69.4%
42.5%
52.0%
52.6%
E2B
60.0%
37.5%
44.0%
44.2%
ハードウェア要件
表:Gemma 4 推論 GGUF の推奨ハードウェア要件 (単位 = 総メモリ:RAM + VRAM、またはユニファイドメモリ)。Gemma 4 は MacOS、NVIDIA RTX GPU などで使用できます。
E2B
4 GB
5~8 GB
10 GB
E4B
5.5~6 GB
9~12 GB
16 GB
26B A4B
16~18 GB
28~30 GB
52 GB
31B
17~20 GB
34~38 GB
62 GB
目安として、利用可能な総メモリは、ダウンロードする量子化モデルのサイズを少なくとも上回っている必要があります。満たしていない場合でも、llama.cpp は RAM / ディスクの一部オフロードで実行できますが、生成は遅くなります。また、使用するコンテキストウィンドウに応じて、より多くの計算資源も必要になります。
推奨設定
Google のデフォルトの Gemma 4 パラメータを使用することを推奨します:
temperature = 1.0top_p = 0.95top_k = 64
ローカル推論向けの実用的な推奨デフォルト:
まずは 32K コンテキスト で応答性を確保し、その後増やします
以下を維持: repetition/presence penalty は、ループが見られない限り無効または 1.0 のままにしてください。
文末トークンは
<turn|>
Gemma 4 の最大コンテキストは 128K ( E2B / E4B と 256K ( 26B A4B / 31B.
思考モード
以前の Gemma チャットテンプレートと比べて、Gemma 4 では標準の system, assistant、そして user ロールを使用し、明示的な思考制御が追加されています。
思考を有効にする方法:
トークン <|think|> を system プロンプトの先頭.
思考有効
思考無効
出力の挙動:
思考が有効な場合、モデルは最終回答の前に内部の推論チャネルを出力します。
思考が無効な場合でも、大きいモデルは最終回答の前に 空の thought ブロック を出力することがあります。
たとえば「フランスの首都は何ですか?
その後、次のように出力されます:
マルチターンチャットのルール:
マルチターン会話では、 チャット履歴には最終的に見える回答だけを残してください。 前の thought ブロックを次のターンに戻してはいけません。
Gemma 4 チュートリアルを実行
Gemma 4 GGUF は複数のサイズで提供されるため、小さいモデルの推奨開始点は 8-bit、大きいモデルの推奨開始点は Dynamic 4-bit. Gemma 4 GGUF:
🦥 Unsloth Studio ガイド🦙 Llama.cpp ガイド
Unsloth Studio の Google Colab ノートブックから Gemma 4 を無料で実行:
🦥 Unsloth Studio ガイド
Gemma 4 は現在 Unsloth Studioで実行およびファインチューニングできます。これはローカル AI 向けの新しいオープンソース Web UI です。Unsloth Studio ではモデルをローカルに MacOS、Windows、Linux で実行でき、さらに:
Gemma 4 は Unsloth Studio で動作するようになりました!
検索、ダウンロード、 GGUF の実行 および safetensor モデル
自己修復 ツール呼び出し + ウェブ検索
コード実行 (Python、Bash)
自動推論 パラメータ調整(temp、top-p など)
llama.cpp による高速な CPU + GPU 推論
LLM を学習 VRAM を 70% 削減して 2倍高速に

Gemma 4 を検索してダウンロード
初回起動時には、アカウントを保護するためのパスワードを作成し、後で再度サインインする必要があります。その後、モデル、データセット、基本設定を選ぶ簡単なオンボーディングウィザードが表示されます。いつでもスキップできます。
その後、 Studio Chat タブに移動し、検索バーで Gemma 4 を検索して、希望するモデルと量子化をダウンロードします。
Gemma 4 を実行
Unsloth Studio を使う場合、推論パラメータは自動設定されるはずですが、手動で変更することもできます。コンテキスト長、チャットテンプレート、その他の設定も編集できます。
詳細については、 Unsloth Studio 推論ガイド.

🦙 Llama.cpp ガイド
このガイドでは、26B-A4B と 31B には Dynamic 4-bit、E2B と E4B には 8-bit を利用します。参照: Gemma 4 GGUF コレクション
これらのチュートリアルでは、 llama.cpp を使って高速なローカル推論を行います。特に CPU を使う場合に有効です。
最新の llama.cpp を GitHub から入手はこちら。以下のビルド手順に従うこともできます。 -DGGML_CUDA=ON を -DGGML_CUDA=OFF に変更してください。GPU がない場合、または CPU 推論だけを使いたい場合です。 Apple Mac / Metal デバイスでは、 -DGGML_CUDA=OFF を設定し、その後通常どおり続行してください。Metal サポートはデフォルトで有効です。
を直接使ってモデルを読み込みたい場合は、各モデルに応じて以下のコマンドに従ってください。 llama.cpp 直接 UD-Q4_K_XL は量子化タイプです。Hugging Face からもダウンロードできます(手順 3)。これは ollama run に似ています。 export LLAMA_CACHE="folder" を使って llama.cpp 特定の場所に保存するよう強制できます。llama.cpp は必要な正確な量を自動で使用するため、コンテキスト長を設定する必要はありません。
26B-A4B:
31B:
E4B:
E2B:
モデルをダウンロードするには( pip install huggingface_hub hf_transfer のインストール後)、 UD-Q4_K_XL または Q8_0 のような他の量子化版を選べます。ダウンロードが止まる場合は、以下を参照してください: Hugging Face Hub、XETデバッグ
その後、会話モードでモデルを実行します(ビジョン mmproj-F16):
MLX Dynamic Quants
試用版として、Dynamic 4bit と 8bit の量子化もアップロードしました!Unsloth Studio で実行できます。
試すには以下を使用してください:
Gemma 4 のベストプラクティス
プロンプト例
シンプルな推論プロンプト
OCR / ドキュメント用プロンプト
OCR では、 高い視覚トークン予算 を使ってください。たとえば 560 や 1120.
マルチモーダル比較プロンプト
音声 ASR プロンプト
音声翻訳プロンプト
マルチモーダル設定
マルチモーダルプロンプトでは、最良の結果を得るために、マルチモーダルの内容を先頭に置いてください:
配置する 画像および/または音声をテキストの前に.
動画では、まずフレームのシーケンスを渡してから指示を与えてください。
可変画像解像度
Gemma 4 は複数の視覚トークン予算をサポートしています:
701402805601120
次のように使います:
70 / 140:分類、キャプション生成、高速な動画理解
280 / 560:一般的なマルチモーダルチャット、チャート、画面、UI推論
1120:OCR、文書解析、手書き、小さな文字
音声と動画の制限
音声 は E2B と E4B でのみ利用可能です。
音声は最大 30秒.
動画は最大 60秒 をサポートし、 1秒あたり1フレーム で処理することを前提とします。
音声プロンプトテンプレート
ASR プロンプト
音声翻訳プロンプト
リソースとリンク
最終更新
役に立ちましたか?

