# Gemma 4 - ローカルで実行する方法

Gemma 4 は Google DeepMind の新しいオープンモデル群で、以下を含みます **E2B**, **E4B**, **26B-A4B**、および **31B。** このマルチモーダルなハイブリッド思考モデルは、140以上の言語、最大 **256K コンテキスト**をサポートし、Dense版とMoE版があります。Gemma 4 は Apache-2.0 লাইセンスで、ローカルデバイス上で実行できます。

{% columns %}
{% column %} <a href="#run-gemma-4-tutorials" class="button primary">Gemma 4 を実行</a><a href="gemma-4/train" class="button secondary">Gemma 4 をファインチューニング</a>

**Gemma-4-E2B** および **E4B** は画像と音声をサポートします。実行先は **5GB RAM** （4-bit）または 15GB（フル16-bit）です。こちらの [Gemma 4 GGUF](https://huggingface.co/collections/unsloth/gemma-4).

**Gemma-4-26B-A4B** は **18GB** （4-bit）または 28GB（8-bit）で動作します。 **Gemma-4-31B** には **20GB RAM** （4-bit）または 34GB（8-bit）が必要です。
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FstfdTMsoBMmsbQsgQ1Ma%2Flandscape%20clip%20gemma.gif?alt=media&#x26;token=eec5f2f7-b97a-4c1c-ad01-5a041c3e4013" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% hint style="success" %}
**4月11日更新:** Gemma 4 は、Google の更新されたチャットテンプレート + llama.cpp の修正を反映して更新されました。\
**絶対に** どの GGUF に対しても CUDA 13.2 ランタイムを使用しないでください。出力品質が悪化します。

これで GGUF を実行し、Gemma 4 を [Unsloth Studio](#unsloth-studio-guide)✨
{% endhint %}

### 使用ガイド

Gemma 4 は、推論、コーディング、ツール使用、長文コンテキスト、エージェント的ワークフロー、およびマルチモーダルタスクに優れています。より小さい E2B と E4B のバリアントはスマートフォンやノートPC向けに設計されており、より大きいモデルは NVIDIA RTX GPU 搭載PCのような中〜高性能CPU/VRAMシステムを対象としています。

| Gemma 4 バリアント | 詳細                                                  | 最適な用途                              |
| ------------- | --------------------------------------------------- | ---------------------------------- |
| **E2B**       | <p>Dense + PLE（128K コンテキスト）<br>サポート: テキスト、画像、音声</p> | スマホ/エッジ推論、ASR、音声翻訳向け               |
| **E4B**       | <p>Dense + PLE（128K コンテキスト）<br>サポート: テキスト、画像、音声</p> | ノートPC向けの小型モデルで、高速なローカルマルチモーダル利用に最適 |
| **26B-A4B**   | <p>MoE（256K コンテキスト）<br>サポート: テキスト、画像</p>            | 速度と品質のバランスが最適で、PC用途に向く             |
| **31B**       | <p>Dense（256K コンテキスト）<br>サポート: テキスト、画像</p>          | より遅い推論でも最高性能                       |

**26B-A4B と 31B のどちらを選ぶべき？**

* **26B-A4B** - 速度と精度のバランスが取れています。MoE 設計により、4B のアクティブパラメータで 31B より高速です。RAM が限られていて、品質を少し速度と引き換えにしてもよいならこちらを選んでください。
* **31B** - 現時点で最も強力な Gemma 4 モデルです。十分なメモリがあり、やや遅い速度を許容できるなら、最高品質を求めてこちらを選んでください。

#### Gemma 4 ベンチマーク

| Gemma 4     | MMLU Pro | AIME 2026（ツールなし） | LiveCodeBench v6 | MMMU Pro |
| ----------- | -------: | ---------------: | ---------------: | -------: |
| **31B**     |    85.2% |            89.2% |            80.0% |    76.9% |
| **26B A4B** |    82.6% |            88.3% |            77.1% |    73.8% |
| **E4B**     |    69.4% |            42.5% |            52.0% |    52.6% |
| **E2B**     |    60.0% |            37.5% |            44.0% |    44.2% |

### ハードウェア要件

**表: Gemma 4 推論 GGUF の推奨ハードウェア要件** （単位 = 総メモリ: RAM + VRAM、またはユニファイドメモリ）。Gemma 4 は MacOS、NVIDIA RTX GPU などで使用できます。

| Gemma 4 バリアント |    4-bit |    8-bit | BF16 / FP16 |
| ------------- | -------: | -------: | ----------: |
| **E2B**       |     4 GB |   5–8 GB |       10 GB |
| **E4B**       | 5.5–6 GB |  9–12 GB |       16 GB |
| **26B A4B**   | 16–18 GB | 28–30 GB |       52 GB |
| **31B**       | 17–20 GB | 34–38 GB |       62 GB |

{% hint style="info" %}
目安として、利用可能な総メモリは、ダウンロードする量子化モデルのサイズを少なくとも上回っている必要があります。満たない場合でも llama.cpp は RAM / ディスクへの部分オフロードで実行できますが、生成は遅くなります。また、使用するコンテキストウィンドウに応じて、より多くの計算資源が必要になります。
{% endhint %}

### 推奨設定

Google のデフォルトの Gemma 4 パラメータを使用することを推奨します:

* `temperature = 1.0`
* `top_p = 0.95`
* `top_k = 64`

ローカル推論向けの実用的な推奨デフォルト:

* まずは **32K コンテキスト** から始めて応答性を確保し、その後増やしてください
* 以下を維持 **反復/存在ペナルティ** ループが見られない限り、無効または 1.0 のままにします。
* 文末トークンは `<turn|>`

{% hint style="info" %}
Gemma 4 の最大コンテキストは **128K** で、 **E2B / E4B** および **256K** で、 **26B A4B / 31B**.
{% endhint %}

#### 思考モード

旧来の Gemma チャットテンプレートと比べて、Gemma 4 は標準の **`system`**, **`assistant`**、および **`user`** ロールを使用し、明示的な思考制御を追加しています。

**思考を有効にする方法:**

トークン **`<|think|>`** を **システムプロンプトの先頭に追加します**.

{% columns %}
{% column %}
**思考有効**

```
<|think|>
あなたは慎重なコーディングアシスタントです。回答を明確に説明してください。
```

{% endcolumn %}

{% column %}
**思考無効**

```
あなたは慎重なコーディングアシスタントです。回答を明確に説明してください。
```

{% endcolumn %}
{% endcolumns %}

**出力の動作:**

{% columns %}
{% column %}
思考が有効な場合、モデルは最終回答の前に内部の推論チャネルを出力します。

```
<|channel>thought
[内部推論]
<channel|>
[最終回答]
```

{% endcolumn %}

{% column %}
思考が無効な場合でも、大きいモデルは **空の思考ブロック** を最終回答の前に出力することがあります。

```
<|channel>thought
<channel|>
[最終回答]
```

{% endcolumn %}
{% endcolumns %}

**例えば「**&#x30D5;ランスの首都は何ですか？」を使うと:

{% code overflow="wrap" %}

```
<bos><|turn>system\n<|think|><turn|>\n<|turn>user\nフランスの首都は何ですか？<turn|>\n<|turn>model\n
```

{% endcode %}

**その後、以下を出力します:**

{% code overflow="wrap" %}

```
<|channel>thought\nユーザーはフランスの首都を尋ねています。\nフランスの首都はパリです。<channel|>フランスの首都はパリです。<turn|>
```

{% endcode %}

**マルチターンチャットのルール:**

マルチターン会話では、 **チャット履歴には最終的な可視回答のみを保持してください**。 **しないでください** 前の思考ブロックを次のターンに戻して入力しないでください。

{% code overflow="wrap" %}

```
<bos><|turn>user\n1+1 は？<turn|>\n<|turn>model\n2<turn|>\n<|turn>user\n1+1 は？<turn|>\n<|turn>model\n2<turn|>\n<|turn>user\n1+1 は？<turn|>\n<|turn>model\n2<turn|>\n<|turn>user\n1+1 は？<turn|>\n<|turn>model\n2<turn|>\n
```

{% endcode %}

**思考を無効にする方法:**

注 `llama-cli` は安定して動作しない場合があるため、代わりに `llama-server` を使って推論を無効化してください:

{% hint style="warning" %}
思考/推論を [無効にするには](#how-to-enable-or-disable-reasoning-and-thinking)、 `--chat-template-kwargs '{"enable_thinking":false}'`

を使用します。 **Windows** PowerShell の場合は、次を使用します: `--chat-template-kwargs "{\"enable_thinking\":false}"`

'true' と 'false' は同じように使えます。
{% endhint %}

## Gemma 4 チュートリアルを実行

Gemma 4 GGUF は複数のサイズで提供されるため、小型モデルの推奨開始点は 8-bit、大型モデルの推奨開始点は **Dynamic 4-bit**. [Gemma 4 GGUF](https://huggingface.co/collections/unsloth/gemma-4) または [MLX](#mlx-dynamic-quants):

| [gemma-4-E2B](https://huggingface.co/unsloth/gemma-4-E2B-it-GGUF) | [gemma-4-E4B](https://huggingface.co/unsloth/gemma-4-E4B-it-GGUF) | [gemma-4-26B-A4B](https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF) | [gemma-4-31B](https://huggingface.co/unsloth/gemma-4-31B-it-GGUF) |
| ----------------------------------------------------------------- | ----------------------------------------------------------------- | ------------------------------------------------------------------------- | ----------------------------------------------------------------- |

<a href="#unsloth-studio-guide" class="button primary">🦥 Unsloth Studio ガイド</a><a href="#llama.cpp-guide" class="button primary">🦙 Llama.cpp ガイド</a>

{% columns %}
{% column %}
**このノートブックのUIを使って、Gemma 4 を無料で実行・学習できます:** [**Unsloth Studio**](https://unsloth.ai/docs/jp/xin-zhe/studio)✨ **ノートブック:**
{% endcolumn %}

{% column %}
{% embed url="<https://colab.research.google.com/github/unslothai/unsloth/blob/main/studio/Unsloth_Studio_Colab.ipynb>" %}
{% endcolumn %}
{% endcolumns %}

### 🦥 Unsloth Studio ガイド

Gemma 4 は現在、 [Unsloth Studio](https://unsloth.ai/docs/jp/xin-zhe/studio)で実行およびファインチューニングできます。これはローカルAI向けの新しいオープンソースWeb UIです。Unsloth Studio を使うと、以下の環境でモデルをローカル実行できます。 **MacOS、Windows**、Linux および:

{% columns %}
{% column %}

* 検索、ダウンロード、 [GGUF を実行](https://unsloth.ai/docs/jp/xin-zhe/studio#run-models-locally) および safetensor モデル
* [**自己修復** ツール呼び出し](https://unsloth.ai/docs/jp/xin-zhe/studio#execute-code--heal-tool-calling) + **ウェブ検索**
* [**コード実行**](https://unsloth.ai/docs/jp/xin-zhe/studio#run-models-locally) （Python、Bash）
* [自動推論](https://unsloth.ai/docs/jp/xin-zhe/studio#model-arena) パラメータ調整（temp、top-p など）
* llama.cpp 経由の高速 CPU + GPU 推論
* [LLM を学習](https://unsloth.ai/docs/jp/xin-zhe/studio#no-code-training) VRAM を 70% 少なくして 2倍高速
  {% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FVrLgXwplAMcvkU4owjPk%2F26b%20gif.gif?alt=media&#x26;token=8a569952-c152-435f-b815-c9f295619587" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% stepper %}
{% step %}

#### Unsloth をインストール

ターミナルで実行:

**MacOS、Linux、WSL:**

```bash
curl -fsSL https://unsloth.ai/install.sh | sh
```

**Windows PowerShell:**

```bash
irm https://unsloth.ai/install.ps1 | iex
```

{% endstep %}

{% step %}

#### Unsloth を起動

**MacOS、Linux、WSL および Windows:**

```bash
unsloth studio -H 0.0.0.0 -p 8888
```

**次に `http://localhost:8888` をブラウザで開いてください。**
{% endstep %}

{% step %}

#### Gemma 4 を検索してダウンロード

初回起動時には、アカウントを保護するためのパスワードを作成し、後で再度サインインする必要があります。その後、モデル、データセット、基本設定を選ぶ簡単な初期設定ウィザードが表示されます。いつでもスキップできます。

次に [Studio Chat](https://unsloth.ai/docs/jp/xin-zhe/studio/chat) タブに移動し、検索バーで Gemma 4 を検索して、希望するモデルと量子化版をダウンロードしてください。

<div data-with-frame="true"><figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FpYoNILI8NFMl8QaQlc7V%2FScreenshot%202026-04-02%20at%2010.37.32%E2%80%AFPM.png?alt=media&#x26;token=18d5918e-4f71-4e0e-b8c9-464097389835" alt="" width="375"><figcaption></figcaption></figure></div>
{% endstep %}

{% step %}

#### Gemma 4 を実行

Unsloth Studio を使用する場合、推論パラメータは自動設定されるはずですが、手動で変更することもできます。コンテキスト長、チャットテンプレート、その他の設定も編集できます。

詳細については、こちらをご覧ください: [Unsloth Studio 推論ガイド](https://unsloth.ai/docs/jp/xin-zhe/studio/chat).

<div data-with-frame="true"><figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FVrLgXwplAMcvkU4owjPk%2F26b%20gif.gif?alt=media&#x26;token=8a569952-c152-435f-b815-c9f295619587" alt="" width="563"><figcaption></figcaption></figure></div>
{% endstep %}
{% endstepper %}

### 🦙 Llama.cpp ガイド

このガイドでは、26B-A4B と 31B には Dynamic 4-bit、E2B と E4B には 8-bit を使用します。参照: [Gemma 4 GGUF コレクション](https://huggingface.co/collections/unsloth/gemma-4)

これらのチュートリアルでは、 [llama.cpp](https://llama.cpphttps/github.com/ggml-org/llama.cpp) を使って高速ローカル推論を行います。特に CPU がある場合に有効です。

{% stepper %}
{% step %}
最新の `llama.cpp` **を入手** [**GitHub はこちら**](https://github.com/ggml-org/llama.cpp)。以下のビルド手順に従うこともできます。 `-DGGML_CUDA=ON` を `-DGGML_CUDA=OFF` に変更してください。GPU がない場合、または CPU 推論だけを使いたい場合です。 **Apple Mac / Metal デバイスの場合は、**&#x3092;設定し、 `-DGGML_CUDA=OFF` その後は通常どおり続行してください - Metal サポートはデフォルトで有効です。

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

{% endstep %}

{% step %}
を使いたい場合は `llama.cpp` モデルを直接読み込むには、各モデルに応じて以下のコマンドに従ってください。 `UD-Q4_K_XL` は量子化タイプです。Hugging Face 経由でダウンロードすることもできます（ステップ3）。これは `ollama run` に似ています。 `export LLAMA_CACHE="folder"` を使って `llama.cpp` 保存先を特定の場所に強制できます。llama.cpp が必要量を自動で正確に使うため、コンテキスト長を設定する必要はありません。

**26B-A4B:**

```bash
export LLAMA_CACHE="unsloth/gemma-4-26B-A4B-it-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 64
```

**31B:**

```bash
export LLAMA_CACHE="unsloth/gemma-4-31B-it-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/gemma-4-31B-it-GGUF:UD-Q4_K_XL \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 64
```

**E4B:**

```bash
export LLAMA_CACHE="unsloth/gemma-4-E4B-it-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/gemma-4-E4B-it-GGUF:Q8_0 \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 64
```

**E2B:**

```bash
export LLAMA_CACHE="unsloth/gemma-4-E2B-it-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/gemma-4-E2B-it-GGUF:Q8_0 \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 64
```

{% endstep %}

{% step %}
モデルをダウンロードするには（以下をインストール後 `pip install huggingface_hub hf_transfer` ）。 `UD-Q4_K_XL` または `Q8_0` のような他の量子化版も選べます。ダウンロードが止まる場合は、以下を参照してください: [hugging-face-hub-xet-debugging](https://unsloth.ai/docs/jp/ji-ben/troubleshooting-and-faqs/hugging-face-hub-xet-debugging "mention")

```bash
hf download unsloth/gemma-4-26B-A4B-it-GGUF \
    --local-dir unsloth/gemma-4-26B-A4B-it-GGUF \
    --include "*mmproj-BF16*" \
    --include "*UD-Q4_K_XL*" # Dynamic 2bit には "*UD-Q2_K_XL*" を使用
```

{% endstep %}

{% step %}
その後、会話モードでモデルを実行します（vision `mmproj-F16`):

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \
    --model unsloth/gemma-4-26B-A4B-it-GGUF/gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf \
    --mmproj unsloth/gemma-4-26B-A4B-it-GGUF/mmproj-BF16.gguf \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 64
```

{% endcode %}
{% endstep %}

{% step %}

### Llama-server デプロイ

llama-server で Gemma-4 をデプロイするには、次を使用します:

```bash
./llama.cpp/llama-server \
    --model unsloth/gemma-4-26B-A4B-it-GGUF/gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf \
    --mmproj unsloth/gemma-4-26B-A4B-it-GGUF/mmproj-BF16.gguf \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 64 \
    --alias "unsloth/gemma-4-26B-A4B-it-GGUF" \
    --port 8001 \
    --chat-template-kwargs '{"enable_thinking":true}'
```

{% hint style="warning" %}
思考/推論を [無効にするには](#how-to-enable-or-disable-reasoning-and-thinking)、 `--chat-template-kwargs '{"enable_thinking":false}'`

を使用します。 **Windows** PowerShell の場合は、次を使用します: `--chat-template-kwargs "{\"enable_thinking\":false}"`

'true' と 'false' は同じように使えます。
{% endhint %}
{% endstep %}
{% endstepper %}

### MLX Dynamic Quants

MacOS デバイス向けの最初の試みとして、Dynamic 4bit と 8bit の量子化版もアップロードしました！

| Gemma 4 | 4-bit MLX                                                            | 8-bit MLX                                                         |
| ------- | -------------------------------------------------------------------- | ----------------------------------------------------------------- |
| 31B     | [リンク](https://huggingface.co/unsloth/gemma-4-31b-it-UD-MLX-4bit)     | [リンク](https://huggingface.co/unsloth/gemma-4-31b-it-MLX-8bit)     |
| 26B-A4B | [リンク](https://huggingface.co/unsloth/gemma-4-26b-a4b-it-UD-MLX-4bit) | [リンク](https://huggingface.co/unsloth/gemma-4-26b-a4b-it-MLX-8bit) |
| E4B     | [リンク](https://huggingface.co/unsloth/gemma-4-E4B-it-UD-MLX-4bit)     | [リンク](https://huggingface.co/unsloth/gemma-4-E4B-it-MLX-8bit)     |
| E2B     | [リンク](https://huggingface.co/unsloth/gemma-4-E2B-it-UD-MLX-4bit)     | [リンク](https://huggingface.co/unsloth/gemma-4-E2B-it-MLX-8bit)     |

試すには次を使用してください:

{% code overflow="wrap" %}

```bash
curl -fsSL https://raw.githubusercontent.com/unslothai/unsloth/refs/heads/main/install_gemma4_mlx.sh | sh
source ~/.unsloth/unsloth_gemma4_mlx/bin/activate
python -m mlx_lm chat --model unsloth/gemma-4-E4B-it-UD-MLX-4bit --max-tokens 4096
```

{% endcode %}

## Gemma 4 ベストプラクティス

### プロンプト例

#### 簡単な推論プロンプト

```
システム:
<|think|>
あなたは正確な推論アシスタントです。

ユーザー:
列車は午前8:15に出発し、午前11:47に到着しました。所要時間はどれくらいですか？
```

#### OCR / 文書プロンプト

OCR には、 **高い視覚トークン予算** を使用してください。 **560** または **1120**.

```
[画像を先に]
このレシートからすべてのテキストを抽出してください。明細、合計、店舗名、日付を JSON で返してください。
```

#### マルチモーダル比較プロンプト

```
[画像1]
[画像2]
この2つのスクリーンショットを比較して、新規ユーザーをより混乱させそうなのはどちらか教えてください。
```

#### 音声ASRプロンプト

```
[音声を先に]
以下の英語の音声区間を英語のテキストに書き起こしてください。

回答の書式については、次の指示に従ってください:
* 改行なしで、書き起こしのみを出力してください。
* 数字を書き起こすときは数字で書いてください。つまり、one point seven ではなく 1.7、three ではなく 3 と書いてください。
```

#### 音声翻訳プロンプト

```
[音声を先に]
以下のスペイン語の音声区間を書き起こし、その後英語に翻訳してください。
回答の書式は、まずスペイン語の書き起こしを出力し、次に改行を1つ入れ、その後 'English: ' という文字列を出力し、最後に英語の翻訳を出力してください。
```

### マルチモーダル設定

マルチモーダルプロンプトで最良の結果を得るには、マルチモーダル内容を先に置いてください:

* 置く **画像および/または音声をテキストより前に**.
* 動画の場合は、まずフレーム列を渡し、その後に指示を渡します。

#### 可変画像解像度

Gemma 4 は複数の視覚トークン予算をサポートします:

* `70`
* `140`
* `280`
* `560`
* `1120`

以下のように使います:

* **70 / 140**: 分類、キャプション付け、高速な動画理解
* **280 / 560**: 汎用マルチモーダルチャット、図表、画面、UI推論
* **1120**: OCR、文書解析、手書き、小さな文字

#### 音声と動画の制限

* **音声** は **E2B** および **E4B** のみで利用可能です。
* 音声は最大 **30秒**.
* 動画は最大 **60秒** をサポートし、 **1秒あたり1フレーム** の処理を前提とします。

#### 音声プロンプトテンプレート

**ASR プロンプト**

```
以下の {LANGUAGE} の音声区間を {LANGUAGE} のテキストに書き起こしてください。

回答の書式については、次の指示に従ってください:
* 改行なしで、書き起こしのみを出力してください。
* 数字を書き起こすときは数字で書いてください。つまり、one point seven ではなく 1.7、three ではなく 3 と書いてください。
```

**音声翻訳プロンプト**

```
以下の {SOURCE_LANGUAGE} の音声区間を書き起こし、その後 {TARGET_LANGUAGE} に翻訳してください。
回答の書式は、まず {SOURCE_LANGUAGE} の書き起こしを出力し、次に改行を1つ入れ、その後 '{TARGET_LANGUAGE}: ' という文字列を出力し、最後に {TARGET_LANGUAGE} の翻訳を出力してください。
```

#### リソースとリンク

* [Hugging Face の Gemma 4 ブログ記事](https://huggingface.co/blog/gemma4)
* [NVIDIA の Gemma 4 ブログ記事](https://blogs.nvidia.com/blog/rtx-ai-garage-open-models-google-gemma-4)
* [Google 公式 Gemma 4 ブログ](https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/)

<div data-with-frame="true"><figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FfKaFMy7LHQYNKpfsf7Zy%2Fgemma%204%20banner.png?alt=media&#x26;token=8bd8d0e0-ccb6-4ded-b99b-2c8a18370ae5" alt=""><figcaption></figcaption></figure></div>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/jp/moderu/gemma-4.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
