# Gemma 4 - ローカル実行方法

Gemma 4 は Google DeepMind の新しいオープンモデル群で、以下を含みます **E2B**, **E4B**, **26B-A4B**や **31B。** このマルチモーダルなハイブリッド思考モデルは 140以上の言語をサポートし、最大 **256K のコンテキスト**に対応し、Dense版とMoE版があります。Gemma 4 は Apache-2.0 লাইセンスで、ローカルデバイス上で実行できます。

{% columns %}
{% column %} <a href="/pages/693bc7a2f22dcaf0c6bc0818f2076196fe331fa7#run-gemma-4-tutorials" class="button primary">Gemma 4 を実行する</a><a href="/pages/4a6e7bbec569d341f876db55593564610de4d0a8" class="button secondary">Gemma 4 をファインチューニングする</a>

**Gemma-4-E2B** および **E4B** は画像と音声をサポートします。実行先: **5GB RAM** （4ビット）または 15GB（フル16ビット）。こちらもご覧ください: [Gemma 4 GGUF](https://huggingface.co/collections/unsloth/gemma-4).

**Gemma-4-26B-A4B** は **18GB** （4ビット）または 28GB（8ビット）で動作します。 **Gemma-4-31B** には **20GB RAM** （4ビット）または 34GB（8ビット）が必要です。
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/52ac81606e9a31b3f691aabcec5c0ad84f45aee2" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% hint style="success" %}
**4月20日:** 私たちは [Gemma 4 GGUF ベンチマーク](#unsloth-gguf-benchmarks) を実施し、最適な量子化を選べるようにしました。

**4月11日更新:** Gemma 4 は、Google の更新済みチャットテンプレート + llama.cpp の修正に合わせて更新されました。\
**絶対に** どの GGUF に対しても CUDA 13.2 ランタイムを使用しないでください。出力品質が悪化します。

これで GGUF を実行し、Gemma 4 をファインチューニングできるようになりました [Unsloth Studio](#unsloth-studio-guide)✨
{% endhint %}

### 使用ガイド

Gemma 4 は、推論、コーディング、ツール利用、長文コンテキスト、エージェント的ワークフロー、マルチモーダルタスクで優れた性能を発揮します。小型の E2B と E4B はスマートフォンやノートPC向けに設計されており、より大きなモデルは NVIDIA RTX GPU 搭載PCのような中〜高性能 CPU / VRAM システムを対象としています。

| Gemma 4 バリアント | 詳細                                               | 最適な用途                              |
| ------------- | ------------------------------------------------ | ---------------------------------- |
| **E2B**       | <p>Dense + PLE（128Kコンテキスト）<br>対応: テキスト、画像、音声</p> | スマホ / エッジ推論、ASR、音声翻訳向け             |
| **E4B**       | <p>Dense + PLE（128Kコンテキスト）<br>対応: テキスト、画像、音声</p> | ノートPC向けの小型モデルで、高速なローカルマルチモーダル用途に最適 |
| **26B-A4B**   | <p>MoE（256Kコンテキスト）<br>対応: テキスト、画像</p>            | 速度と品質のバランスが最適で、PC用途に向く             |
| **31B**       | <p>Dense（256Kコンテキスト）<br>対応: テキスト、画像</p>          | 推論はやや遅いが、性能は最強                     |

**Gemma 4 を見る:** [**性能ベンチマーク**](#official-gemma-benchmarks) **および** [**GGUF ベンチマーク**](#unsloth-gguf-benchmarks)**.**

**26B-A4B と 31B のどちらを選ぶべき？**

* **26B-A4B** - 速度と精度のバランスが取れています。MoE 設計により 31B より高速で、アクティブパラメータは 4B です。RAM が限られており、品質を少し犠牲にして速度を重視するならこちらを選んでください。
* **31B** - 現時点で最も強力な Gemma 4 モデルです。十分なメモリがあり、やや遅い速度を許容できるなら、最高品質を求めてこちらを選んでください。

### ハードウェア要件

**表: Gemma 4 推論用 GGUF 推奨ハードウェア要件** （単位 = 合計メモリ: RAM + VRAM、またはユニファイドメモリ）。Gemma 4 は MacOS、NVIDIA RTX GPU などで使用できます。

| Gemma 4 バリアント |    4-bit |    8-bit | BF16 / FP16 |
| ------------- | -------: | -------: | ----------: |
| **E2B**       |     4 GB |   5–8 GB |       10 GB |
| **E4B**       | 5.5–6 GB |  9–12 GB |       16 GB |
| **26B A4B**   | 16–18 GB | 28–30 GB |       52 GB |
| **31B**       | 17–20 GB | 34–38 GB |       62 GB |

{% hint style="info" %}
目安として、利用可能な総メモリは少なくとも、ダウンロードする量子化モデルのサイズを上回っている必要があります。そうでない場合でも、llama.cpp は RAM / ディスクへの部分オフロードを使って実行できますが、生成は遅くなります。また、使用するコンテキストウィンドウに応じて、より多くの計算資源も必要になります。
{% endhint %}

### 推奨設定

Google のデフォルト Gemma 4 パラメータを使用することを推奨します:

* `temperature = 1.0`
* `top_p = 0.95`
* `top_k = 64`

ローカル推論向けの実用的な推奨デフォルト:

* まずは **32K コンテキスト** から始めて応答性を確保し、その後増やしてください
* 以下を維持: **繰り返し/存在ペナルティ** ループが見られない限り、無効または 1.0 にしてください。
* 文末トークンは `<turn|>`

{% hint style="info" %}
Gemma 4 の最大コンテキストは **128K** 対象: **E2B / E4B** および **256K** 対象: **26B A4B / 31B**.
{% endhint %}

#### 思考モード

旧来の Gemma チャットテンプレートと比べて、Gemma 4 では標準の **`system`**, **`assistant`**&#x3084; **`user`** ロールを使用し、明示的な思考制御が追加されています。

**思考を有効にする方法:**

トークン **`<|think|>`** を **システムプロンプトの先頭に追加します**.

{% columns %}
{% column %}
**思考有効**

```
<|think|>
あなたは慎重なコーディングアシスタントです。答えを明確に説明してください。
```

{% endcolumn %}

{% column %}
**思考無効**

```
あなたは慎重なコーディングアシスタントです。答えを明確に説明してください。
```

{% endcolumn %}
{% endcolumns %}

**出力の動作:**

{% columns %}
{% column %}
思考が有効な場合、モデルは最終回答の前に内部推論チャネルを出力します。

```
<|channel>thought
[内部推論]
<channel|>
[最終回答]
```

{% endcolumn %}

{% column %}
思考が無効でも、大きなモデルは最終回答の前に **空の思考ブロック** を出力する場合があります。

```
<|channel>thought
<channel|>
[最終回答]
```

{% endcolumn %}
{% endcolumns %}

**たとえば「**&#x30D5;ランスの首都はどこですか？":

{% code overflow="wrap" %}

```
<bos><|turn>system\n<|think|><turn|>\n<|turn>user\nフランスの首都はどこですか？<turn|>\n<|turn>model\n
```

{% endcode %}

**すると、次のように出力されます:**

{% code overflow="wrap" %}

```
<|channel>thought\nユーザーはフランスの首都を尋ねています。\nフランスの首都はパリです。<channel|>フランスの首都はパリです。<turn|>
```

{% endcode %}

**マルチターンチャットのルール:**

複数ターンの会話では、 **チャット履歴には最後の可視回答のみを残してください**。 **前の** 思考ブロックを次のターンに戻さないでください。

{% code overflow="wrap" %}

```
<bos><|turn>user\n1+1 はいくつですか？<turn|>\n<|turn>model\n2<turn|>\n<|turn>user\n1+1 はいくつですか？<turn|>\n<|turn>model\n2<turn|>\n<|turn>user\n1+1 はいくつですか？<turn|>\n<|turn>model\n2<turn|>\n<|turn>user\n1+1 はいくつですか？<turn|>\n<|turn>model\n2<turn|>\n
```

{% endcode %}

**思考を無効にする方法:**

注記 `llama-cli` は安定して動作しない場合があるため、 `llama-server` 推論を無効にするには次を使用してください:

{% hint style="warning" %}
思考を [無効化 / 推論を無効化](#how-to-enable-or-disable-reasoning-and-thinking)するには、 `--chat-template-kwargs '{"enable_thinking":false}'`

もし **Windows** PowerShell `--chat-template-kwargs "{\"enable_thinking\":false}"`

'true' と 'false' は同じように使えます。
{% endhint %}

## Gemma 4 チュートリアルを実行

Gemma 4 GGUF はいくつかのサイズで提供されるため、小型モデルの推奨開始点は 8 ビット、大型モデルは **Dynamic 4-bit**. [Gemma 4 GGUF](https://huggingface.co/collections/unsloth/gemma-4) または [MLX](#mlx-dynamic-quants):

| [gemma-4-E2B](https://huggingface.co/unsloth/gemma-4-E2B-it-GGUF) | [gemma-4-E4B](https://huggingface.co/unsloth/gemma-4-E4B-it-GGUF) | [gemma-4-26B-A4B](https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF) | [gemma-4-31B](https://huggingface.co/unsloth/gemma-4-31B-it-GGUF) |
| ----------------------------------------------------------------- | ----------------------------------------------------------------- | ------------------------------------------------------------------------- | ----------------------------------------------------------------- |

<a href="/pages/693bc7a2f22dcaf0c6bc0818f2076196fe331fa7#unsloth-studio-guide" class="button primary">🦥 Unsloth Studio ガイド</a><a href="/pages/693bc7a2f22dcaf0c6bc0818f2076196fe331fa7#llama.cpp-guide" class="button primary">🦙 Llama.cpp ガイド</a>

{% columns %}
{% column %}
**次の** [**Unsloth Studio**](/docs/jp/xin-zhe/studio.md)✨ **ノートブックで、UI を使って無料で Gemma 4 を実行・学習できます:**
{% endcolumn %}

{% column %}
{% embed url="<https://colab.research.google.com/github/unslothai/unsloth/blob/main/studio/Unsloth_Studio_Colab.ipynb>" %}
{% endcolumn %}
{% endcolumns %}

### 🦥 Unsloth Studio ガイド

Gemma 4 は現在、 [Unsloth Studio](/docs/jp/xin-zhe/studio.md)で実行およびファインチューニングできます。これはローカルAI向けの新しいオープンソースWeb UIです。Unsloth Studioでは、モデルをローカルで次の環境で実行できます: **MacOS、Windows**、Linux そして:

{% columns %}
{% column %}

* 検索、ダウンロード、 [GGUF を実行](/docs/jp/xin-zhe/studio.md#run-models-locally) および safetensor モデル
* [**自己修復** ツール呼び出し](/docs/jp/xin-zhe/studio.md#execute-code--heal-tool-calling) + **Web検索**
* [**コード実行**](/docs/jp/xin-zhe/studio.md#run-models-locally) （Python、Bash）
* [自動推論](/docs/jp/xin-zhe/studio.md#model-arena) パラメータ調整（temp、top-p など）
* llama.cpp による高速 CPU + GPU 推論
* [LLM を学習](/docs/jp/xin-zhe/studio.md#no-code-training) VRAM を70%削減しつつ2倍高速
  {% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/15781d66f25558946794c4025a5ece324f0db186" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% stepper %}
{% step %}

#### Unsloth をインストール

端末で実行:

**MacOS、Linux、WSL:**

```bash
curl -fsSL https://unsloth.ai/install.sh | sh
```

**Windows PowerShell:**

```bash
irm https://unsloth.ai/install.ps1 | iex
```

{% endstep %}

{% step %}

#### Unsloth を起動

**MacOS、Linux、WSL および Windows:**

```bash
unsloth studio -H 0.0.0.0 -p 8888
```

その後、 `http://127.0.0.1:8888` ブラウザ上で実行・ファインチューニングできます。
{% endstep %}

{% step %}

#### Gemma 4 を検索してダウンロード

初回起動時には、アカウントを保護するためのパスワードを作成し、後で再度サインインする必要があります。その後、モデル、データセット、基本設定を選ぶ簡単なオンボーディングウィザードが表示されます。いつでもスキップできます。

次に [Studio Chat](/docs/jp/xin-zhe/studio/chat.md) タブを開き、検索バーで Gemma 4 を検索して、希望のモデルと量子化をダウンロードしてください。

<div data-with-frame="true"><figure><img src="/files/5ce0cbbf8496663435148cc3eb0a7f192d13179d" alt="" width="375"><figcaption></figcaption></figure></div>
{% endstep %}

{% step %}

#### Gemma 4 を実行する

Unsloth Studio を使う場合、推論パラメータは自動設定されるはずですが、手動で変更することもできます。コンテキスト長、チャットテンプレート、その他の設定も編集できます。

詳細は、 [Unsloth Studio 推論ガイド](/docs/jp/xin-zhe/studio/chat.md).

<div data-with-frame="true"><figure><img src="/files/15781d66f25558946794c4025a5ece324f0db186" alt="" width="563"><figcaption></figcaption></figure></div>
{% endstep %}
{% endstepper %}

### 🦙 Llama.cpp ガイド

このガイドでは、26B-A4B と 31B には Dynamic 4-bit、E2B と E4B には 8-bit を使用します。詳しくは: [Gemma 4 GGUF コレクション](https://huggingface.co/collections/unsloth/gemma-4)

これらのチュートリアルでは、 [llama.cpp](llama.cpphttps://github.com/ggml-org/llama.cpp) を使用して、特に CPU をお持ちの場合に高速なローカル推論を行います。

{% stepper %}
{% step %}
最新のものを入手 `llama.cpp` **を** [**GitHub こちら**](https://github.com/ggml-org/llama.cpp)。以下のビルド手順に従うこともできます。 `-DGGML_CUDA=ON` を `-DGGML_CUDA=OFF` に変更してください。GPU がない場合、または CPU 推論だけを使いたい場合です。 **Apple Mac / Metal デバイスの場合**、 `-DGGML_CUDA=OFF` を設定してから通常どおり続行してください。Metal サポートはデフォルトで有効です。

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \\
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

{% endstep %}

{% step %}
もし `llama.cpp` モデルを読み込むには直接 `UD-Q4_K_XL` を使用できます。各モデルに応じて、以下のコマンドに従ってください。 `ollama run` に似ています。 `export LLAMA_CACHE="folder"` を使って `llama.cpp` は量子化タイプです。Hugging Face 経由でのダウンロード（ステップ3）も可能です。これは

**26B-A4B:**

```bash
export LLAMA_CACHE="unsloth/gemma-4-26B-A4B-it-GGUF"
./llama.cpp/llama-cli \\
    -hf unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL \
    --temp 1.0 \\
    --top-p 0.95 \\
    --top-k 64
```

**31B:**

```bash
export LLAMA_CACHE="unsloth/gemma-4-31B-it-GGUF"
./llama.cpp/llama-cli \\
    -hf unsloth/gemma-4-31B-it-GGUF:UD-Q4_K_XL \
    --temp 1.0 \\
    --top-p 0.95 \\
    --top-k 64
```

**E4B:**

```bash
export LLAMA_CACHE="unsloth/gemma-4-E4B-it-GGUF"
./llama.cpp/llama-cli \\
    -hf unsloth/gemma-4-E4B-it-GGUF:Q8_0 \
    --temp 1.0 \\
    --top-p 0.95 \\
    --top-k 64
```

**E2B:**

```bash
export LLAMA_CACHE="unsloth/gemma-4-E2B-it-GGUF"
./llama.cpp/llama-cli \\
    -hf unsloth/gemma-4-E2B-it-GGUF:Q8_0 \
    --temp 1.0 \\
    --top-p 0.95 \\
    --top-k 64
```

{% endstep %}

{% step %}
モデルをダウンロードします（ `pip install huggingface_hub hf_transfer` をインストールした後）。 `UD-Q4_K_XL` または `Q8_0` のような他の量子化版を選べます。ダウンロードが止まる場合は、こちらを参照してください: [Hugging Face Hub、XETデバッグ](/docs/jp/ji-ben/troubleshooting-and-faqs/hugging-face-hub-xet-debugging.md)

```bash
hf download unsloth/gemma-4-26B-A4B-it-GGUF \
    --local-dir unsloth/gemma-4-26B-A4B-it-GGUF \
    --include "*mmproj-BF16*" \
    --include "*UD-Q4_K_XL*" # Dynamic 2bit では "*UD-Q2_K_XL*" を使用
```

{% endstep %}

{% step %}
その後、会話モードでモデルを実行します（視覚 `mmproj-F16`):

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \\
    --model unsloth/gemma-4-26B-A4B-it-GGUF/gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf \
    --mmproj unsloth/gemma-4-26B-A4B-it-GGUF/mmproj-BF16.gguf \
    --temp 1.0 \\
    --top-p 0.95 \\
    --top-k 64
```

{% endcode %}
{% endstep %}

{% step %}

### Llama-server デプロイ

llama-server で Gemma-4 をデプロイするには、次を使用します:

```bash
./llama.cpp/llama-server \\
    --model unsloth/gemma-4-26B-A4B-it-GGUF/gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf \
    --mmproj unsloth/gemma-4-26B-A4B-it-GGUF/mmproj-BF16.gguf \
    --temp 1.0 \\
    --top-p 0.95 \\
    --top-k 64 \
    --alias "unsloth/gemma-4-26B-A4B-it-GGUF" \
    --port 8001 \\
    --chat-template-kwargs '{"enable_thinking":true}'
```

{% hint style="warning" %}
思考を [無効化 / 推論を無効化](#how-to-enable-or-disable-reasoning-and-thinking)するには、 `--chat-template-kwargs '{"enable_thinking":false}'`

もし **Windows** PowerShell `--chat-template-kwargs "{\"enable_thinking\":false}"`

'true' と 'false' は同じように使えます。
{% endhint %}
{% endstep %}
{% endstepper %}

### MLX Dynamic Quants

MacOS デバイス向けの最初の試みとして、ダイナミック 4bit と 8bit の量子化版もアップロードしました！

{% hint style="success" %}
今や **視覚** サポート付きです！
{% endhint %}

| Gemma 4 | 4-bit MLX                                                            | 8-bit MLX                                                         |
| ------- | -------------------------------------------------------------------- | ----------------------------------------------------------------- |
| 31B     | [リンク](https://huggingface.co/unsloth/gemma-4-31b-it-UD-MLX-4bit)     | [リンク](https://huggingface.co/unsloth/gemma-4-31b-it-MLX-8bit)     |
| 26B-A4B | [リンク](https://huggingface.co/unsloth/gemma-4-26b-a4b-it-UD-MLX-4bit) | [リンク](https://huggingface.co/unsloth/gemma-4-26b-a4b-it-MLX-8bit) |
| E4B     | [リンク](https://huggingface.co/unsloth/gemma-4-E4B-it-UD-MLX-4bit)     | [リンク](https://huggingface.co/unsloth/gemma-4-E4B-it-MLX-8bit)     |
| E2B     | [リンク](https://huggingface.co/unsloth/gemma-4-E2B-it-UD-MLX-4bit)     | [リンク](https://huggingface.co/unsloth/gemma-4-E2B-it-MLX-8bit)     |

試すには次を使ってください:

{% code overflow="wrap" %}

```bash
curl -fsSL https://raw.githubusercontent.com/unslothai/unsloth/refs/heads/main/scripts/install_gemma4_mlx.sh | sh
source ~/.unsloth/unsloth_gemma4_mlx/bin/activate
python -m mlx_vlm.chat --model unsloth/gemma-4-26b-a4b-it-UD-MLX-4bit
```

{% endcode %}

## Gemma 4 ベストプラクティス

### プロンプト例

#### 簡単な推論プロンプト

```
System:
<|think|>
あなたは正確な推論アシスタントです。

User:
列車は午前8:15に出発し、午前11:47に到着しました。所要時間はどれくらいですか？
```

#### OCR / ドキュメント用プロンプト

OCR には、 **高いビジュアルトークン予算** を使用してください。 **560** または **1120**.

```
[画像を先に]
この領収書からすべてのテキストを抽出してください。明細、合計、店名、日付を JSON で返してください。
```

#### マルチモーダル比較プロンプト

```
[画像1]
[画像2]
この2つのスクリーンショットを比較して、新しいユーザーをより混乱させそうなのはどちらか教えてください。
```

#### 音声 ASR プロンプト

```
[音声を先に]
次の英語の音声区間を英語テキストに書き起こしてください。

次の特定の指示に従って回答を整形してください:
* 改行なしで、書き起こしのみを出力してください。
* 数字を書き起こすときは、数字で記述してください。つまり one point seven ではなく 1.7 と書き、three ではなく 3 と書いてください。
```

#### 音声翻訳プロンプト

```
[音声を先に]
次のスペイン語の音声区間を書き起こし、その後英語に翻訳してください。
回答を整形する際は、まずスペイン語の書き起こしを出力し、次に改行を1つ入れ、その後 'English: ' という文字列を出力し、最後に英語の翻訳を出力してください。
```

### マルチモーダル設定

マルチモーダルプロンプトで最良の結果を得るには、マルチモーダル内容を先に置いてください:

* 配置する **画像や音声をテキストの前に置く**.
* 動画の場合は、まずフレーム列を渡し、その後に指示を与えます。

#### 可変画像解像度

Gemma 4 は複数のビジュアルトークン予算をサポートしています:

* `70`
* `140`
* `280`
* `560`
* `1120`

次のように使います:

* **70 / 140**: 分類、キャプション生成、高速な動画理解
* **280 / 560**: 一般的なマルチモーダルチャット、グラフ、画面、UI 推論
* **1120**: OCR、文書解析、手書き、小さな文字

#### 音声と動画の制限

* **音声** は **E2B** および **E4B** で利用できます。
* 音声の最大長は **30秒**.
* 動画の最大長は **60秒** を仮定すると **1秒あたり1フレーム** での処理です。

#### 音声プロンプトテンプレート

**ASR プロンプト**

```
次の {LANGUAGE} の音声区間を {LANGUAGE} のテキストに書き起こしてください。

次の特定の指示に従って回答を整形してください:
* 改行なしで、書き起こしのみを出力してください。
* 数字を書き起こすときは、数字で記述してください。つまり one point seven ではなく 1.7 と書き、three ではなく 3 と書いてください。
```

**音声翻訳プロンプト**

```
次の {SOURCE_LANGUAGE} の音声区間を書き起こし、その後 {TARGET_LANGUAGE} に翻訳してください。
回答を整形する際は、まず {SOURCE_LANGUAGE} の書き起こしを出力し、次に改行を1つ入れ、その後 '{TARGET_LANGUAGE}: ' という文字列を出力し、最後に {TARGET_LANGUAGE} の翻訳を出力してください。
```

## 📊 ベンチマーク

### Unsloth GGUF ベンチマーク

最適な量子化版を選べるように、プロバイダをまたいで Gemma 4 GGUF の平均 KL ダイバージェンス ベンチマークを実施しました（低いほど良い）。

* KL ダイバージェンスにより、すべての Unsloth GGUF が SOTA のパレートフロンティア上にあることが示されます
* KLD は、量子化モデルが元の BF16 出力分布とどれだけ一致しているかを示し、保持された精度を示します。

<div data-with-frame="true"><figure><img src="/files/d265501d0f0774cfc0fc76a1d11f9ff5179a6a94" alt=""><figcaption><p>26B A4B - KLD ベンチマーク（低いほど良い）</p></figcaption></figure></div>

### 公式 Gemma ベンチマーク

| Gemma 4     | MMLU Pro | AIME 2026（ツールなし） | LiveCodeBench v6 | MMMU Pro |
| ----------- | -------: | ---------------: | ---------------: | -------: |
| **31B**     |    85.2% |            89.2% |            80.0% |    76.9% |
| **26B A4B** |    82.6% |            88.3% |            77.1% |    73.8% |
| **E4B**     |    69.4% |            42.5% |            52.0% |    52.6% |
| **E2B**     |    60.0% |            37.5% |            44.0% |    44.2% |

<div data-with-frame="true"><figure><img src="/files/2f05e915ec04ec487a14a8f018a782370af74f57" alt=""><figcaption></figcaption></figure></div>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/jp/moderu/gemma-4.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
