Gemma 4 - ローカルでの実行方法

Googleの新しいGemma 4モデルを、E2B、E4B、26B A4B、31Bを含めてローカルで実行しましょう。

Gemma 4 は Google DeepMind の新しいオープンモデル群で、以下を含みます E2B, E4B, 26B-A4B、そして 31B。 これらのマルチモーダルなハイブリッド思考モデルは、140以上の言語、最大 256K のコンテキストをサポートし、Dense版とMoE版の両方があります。E2B と E4B は画像と音声もサポートします。Apache-2.0ライセンスで公開されている Gemma 4 はデバイス上でローカル実行でき、 Unsloth Studio.

circle-check

Gemma-4-E2BE4B5GB RAM (4-bit)または 15GB(16-bit フル精度)で動作します。 Gemma-4-26B-A4B18GB (4-bit)または 28GB(8-bit)。 Gemma-4-31B には 20GB RAM が必要です(4-bit)または 34GB(8-bit)。参照: Unsloth Gemma 4 GGUFs

Gemma 4 を実行Gemma 4 をファインチューニング

使用ガイド

Gemma 4 は、推論、コーディング、ツール使用、長文コンテキストのタスク、エージェント的ワークフロー、マルチモーダルタスクに優れています。より小さい E2B と E4B の各バリアントは、スマートフォンやノートPC向けに設計されています。

Gemma 4 バリアント
詳細
最適な用途

E2B

Dense + PLE(128K コンテキスト) 対応:テキスト、画像、音声

スマホ/エッジ推論、ASR、音声翻訳向け

E4B

Dense + PLE(128K コンテキスト) 対応:テキスト、画像、音声

ノートPC向けの小型モデルで、高速なローカルマルチモーダル利用に最適

26B-A4B

MoE(256K コンテキスト) 対応:テキスト、画像

コンピュータ利用における速度と品質の最適なトレードオフ

31B

Dense(256K コンテキスト) 対応:テキスト、画像

推論は遅いが、最強の性能

26B-A4B と 31B のどちらを選ぶべき?

  • 26B-A4B - 速度と精度のバランスに優れています。MoE設計により、アクティブなパラメータが4Bで、31Bより高速です。RAM が限られていて、品質を少し犠牲にして速度を優先してよい場合に選んでください。

  • 31B - 現時点で最も強力な Gemma 4 モデルです。十分なメモリがあり、やや遅い速度を許容できるなら、最高品質を求める用途に選んでください。

Gemma 4 ベンチマーク

Gemma 4
MMLU Pro
AIME 2026(ツールなし)
LiveCodeBench v6
MMMU Pro

31B

85.2%

89.2%

80.0%

76.9%

26B A4B

82.6%

88.3%

77.1%

73.8%

E4B

69.4%

42.5%

52.0%

52.6%

E2B

60.0%

37.5%

44.0%

44.2%

ハードウェア要件

表:Gemma 4 推論 GGUF の推奨ハードウェア要件 (単位 = 総メモリ:RAM + VRAM、またはユニファイドメモリ)。Gemma 4 は MacOS、NVIDIA RTX GPU などで使用できます。

Gemma 4 バリアント
4-bit
8-bit
BF16 / FP16

E2B

4 GB

5~8 GB

10 GB

E4B

5.5~6 GB

9~12 GB

16 GB

26B A4B

16~18 GB

28~30 GB

52 GB

31B

17~20 GB

34~38 GB

62 GB

circle-info

目安として、利用可能な総メモリは、ダウンロードする量子化モデルのサイズを少なくとも上回っている必要があります。満たしていない場合でも、llama.cpp は RAM / ディスクの一部オフロードで実行できますが、生成は遅くなります。また、使用するコンテキストウィンドウに応じて、より多くの計算資源も必要になります。

推奨設定

Google のデフォルトの Gemma 4 パラメータを使用することを推奨します:

  • temperature = 1.0

  • top_p = 0.95

  • top_k = 64

ローカル推論向けの実用的な推奨デフォルト:

  • まずは 32K コンテキスト で応答性を確保し、その後増やします

  • 以下を維持: repetition/presence penalty は、ループが見られない限り無効または 1.0 のままにしてください。

  • 文末トークンは <turn|>

circle-info

Gemma 4 の最大コンテキストは 128KE2B / E4B256K26B A4B / 31B.

思考モード

以前の Gemma チャットテンプレートと比べて、Gemma 4 では標準の system, assistant、そして user ロールを使用し、明示的な思考制御が追加されています。

思考を有効にする方法:

トークン <|think|>system プロンプトの先頭.

思考有効

思考無効

出力の挙動:

思考が有効な場合、モデルは最終回答の前に内部の推論チャネルを出力します。

思考が無効な場合でも、大きいモデルは最終回答の前に 空の thought ブロック を出力することがあります。

たとえば「フランスの首都は何ですか?

その後、次のように出力されます:

マルチターンチャットのルール:

マルチターン会話では、 チャット履歴には最終的に見える回答だけを残してください前の thought ブロックを次のターンに戻してはいけません。

Gemma 4 チュートリアルを実行

Gemma 4 GGUF は複数のサイズで提供されるため、小さいモデルの推奨開始点は 8-bit、大きいモデルの推奨開始点は Dynamic 4-bit. Gemma 4 GGUFarrow-up-right:

🦥 Unsloth Studio ガイド🦙 Llama.cpp ガイド

Unsloth Studio の Google Colab ノートブックから Gemma 4 を無料で実行:

🦥 Unsloth Studio ガイド

Gemma 4 は現在 Unsloth Studioで実行およびファインチューニングできます。これはローカル AI 向けの新しいオープンソース Web UI です。Unsloth Studio ではモデルをローカルに MacOS、Windows、Linux で実行でき、さらに:

circle-check
1

Unsloth をインストール

ターミナルで実行:

MacOS、Linux、WSL:

Windows PowerShell:

2

Unsloth を起動

MacOS、Linux、WSL および Windows:

その後、 http://localhost:8888 をブラウザで開きます。

3

Gemma 4 を検索してダウンロード

初回起動時には、アカウントを保護するためのパスワードを作成し、後で再度サインインする必要があります。その後、モデル、データセット、基本設定を選ぶ簡単なオンボーディングウィザードが表示されます。いつでもスキップできます。

その後、 Studio Chat タブに移動し、検索バーで Gemma 4 を検索して、希望するモデルと量子化をダウンロードします。

4

Gemma 4 を実行

Unsloth Studio を使う場合、推論パラメータは自動設定されるはずですが、手動で変更することもできます。コンテキスト長、チャットテンプレート、その他の設定も編集できます。

詳細については、 Unsloth Studio 推論ガイド.

🦙 Llama.cpp ガイド

このガイドでは、26B-A4B と 31B には Dynamic 4-bit、E2B と E4B には 8-bit を利用します。参照: Gemma 4 GGUF コレクションarrow-up-right

これらのチュートリアルでは、 llama.cpparrow-up-right を使って高速なローカル推論を行います。特に CPU を使う場合に有効です。

1

最新の llama.cpp GitHub から入手はこちらarrow-up-right。以下のビルド手順に従うこともできます。 -DGGML_CUDA=ON-DGGML_CUDA=OFF に変更してください。GPU がない場合、または CPU 推論だけを使いたい場合です。 Apple Mac / Metal デバイスでは-DGGML_CUDA=OFF を設定し、その後通常どおり続行してください。Metal サポートはデフォルトで有効です。

2

を直接使ってモデルを読み込みたい場合は、各モデルに応じて以下のコマンドに従ってください。 llama.cpp 直接 UD-Q4_K_XL は量子化タイプです。Hugging Face からもダウンロードできます(手順 3)。これは ollama run に似ています。 export LLAMA_CACHE="folder" を使って llama.cpp 特定の場所に保存するよう強制できます。llama.cpp は必要な正確な量を自動で使用するため、コンテキスト長を設定する必要はありません。

26B-A4B:

31B:

E4B:

E2B:

3

モデルをダウンロードするには( pip install huggingface_hub hf_transfer のインストール後)、 UD-Q4_K_XL または Q8_0 のような他の量子化版を選べます。ダウンロードが止まる場合は、以下を参照してください: Hugging Face Hub、XETデバッグ

4

その後、会話モードでモデルを実行します(ビジョン mmproj-F16):

MLX Dynamic Quants

試用版として、Dynamic 4bit と 8bit の量子化もアップロードしました!Unsloth Studio で実行できます。

試すには以下を使用してください:

Gemma 4 のベストプラクティス

プロンプト例

シンプルな推論プロンプト

OCR / ドキュメント用プロンプト

OCR では、 高い視覚トークン予算 を使ってください。たとえば 5601120.

マルチモーダル比較プロンプト

音声 ASR プロンプト

音声翻訳プロンプト

マルチモーダル設定

マルチモーダルプロンプトでは、最良の結果を得るために、マルチモーダルの内容を先頭に置いてください:

  • 配置する 画像および/または音声をテキストの前に.

  • 動画では、まずフレームのシーケンスを渡してから指示を与えてください。

可変画像解像度

Gemma 4 は複数の視覚トークン予算をサポートしています:

  • 70

  • 140

  • 280

  • 560

  • 1120

次のように使います:

  • 70 / 140:分類、キャプション生成、高速な動画理解

  • 280 / 560:一般的なマルチモーダルチャット、チャート、画面、UI推論

  • 1120:OCR、文書解析、手書き、小さな文字

音声と動画の制限

  • 音声E2BE4B でのみ利用可能です。

  • 音声は最大 30秒.

  • 動画は最大 60秒 をサポートし、 1秒あたり1フレーム で処理することを前提とします。

音声プロンプトテンプレート

ASR プロンプト

音声翻訳プロンプト

リソースとリンク

最終更新

役に立ちましたか?