> For the complete documentation index, see [llms.txt](https://unsloth.ai/docs/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://unsloth.ai/docs/jp/moderu/gemma-4.md).

# Gemma 4 - ローカルでの実行方法

Gemma 4 は Google DeepMind の新しいオープンモデル群で、以下を含みます **12B**, **E2B**, **E4B**, **26B-A4B**、そして **31B です。** このマルチモーダル・ハイブリッド思考モデルは140以上の言語をサポートし、最大 **256K コンテキスト**、さらに dense 版と MoE 版があります。Gemma 4 は Apache-2.0 ライセンスで、ローカルデバイスで実行できます。

**Gemma-4-12B** は新しく、テキスト・画像・音声を統合してサポートします。実行には **8GB** RAM（4-bit）または 14GB（8-bit）で動作します。 **Gemma-4-E2B** と **E4B** も画像と音声をサポートします。実行には **5GB RAM** （4-bit）または 15GB（フル 16-bit）が必要です。

<a href="/pages/693bc7a2f22dcaf0c6bc0818f2076196fe331fa7#run-gemma-4-tutorials" class="button primary">Gemma 4 を実行</a><a href="/pages/4a6e7bbec569d341f876db55593564610de4d0a8" class="button secondary">Gemma 4 をファインチューニング</a><a href="/pages/136e446d64d842f3384bec65ba2ec312454e6e91" class="button primary">Gemma 4 QAT</a><a href="/pages/dd5bb70bca754ea9bde116b50d92614a5ee10c37#gemma-4-mtp" class="button secondary">Gemma 4 MTP</a>

{% hint style="success" %}
**新着：** [**Gemma 4 MTP が登場**](broken://pages/dd5bb70bca754ea9bde116b50d92614a5ee10c37)**！MTP により、精度を落とさずに推論を 1.4〜2.2 倍高速化できます。MTP を直接** [**Unsloth Studio**](broken://pages/dd5bb70bca754ea9bde116b50d92614a5ee10c37#unsloth-studio-mtp-guide)**.**
{% endhint %}

{% columns %}
{% column %}
**Gemma-4-26B-A4B** で動作します **18GB** （4-bit）または 28GB（8-bit）です。 **Gemma-4-31B** には **20GB RAM** （4-bit）または 34GB（8-bit）が必要です。

これで、すべての GGUF と [MLX](#mlx-dynamic-quants) Gemma 4 をファインチューニングできます [Unsloth Studio](#unsloth-studio-guide) （右を参照）。

[**QAT** 版](broken://pages/136e446d64d842f3384bec65ba2ec312454e6e91) の Gemma 4 は、モデル品質を保ちながら必要メモリを約 3 倍削減します。
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/52ac81606e9a31b3f691aabcec5c0ad84f45aee2" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% hint style="success" %}
**6月9日：** [Gemma 4 MTP](broken://pages/dd5bb70bca754ea9bde116b50d92614a5ee10c37) が登場。

**6月5日：** [Gemma 4 QAT](broken://pages/136e446d64d842f3384bec65ba2ec312454e6e91) がリリース。

**6月2日：** Gemma 4 12B Unified がリリースされました。

**4月20日：** 私たちは [Gemma 4 GGUF ベンチマーク](#unsloth-gguf-benchmarks) を実施し、最適な量子化を選べるようにしました。
{% endhint %}

### 使用ガイド

Gemma 4 は推論、コーディング、ツール利用、長文コンテキスト、エージェント的ワークフロー、マルチモーダルタスクに優れています。より小さな E2B と E4B はスマートフォンやノートPC向けに設計されており、より大きなモデルは NVIDIA RTX GPU 搭載 PC などの中〜高性能 CPU/VRAM システムを対象としています。

| Gemma 4 のバリアント  | 詳細                                                 | 最適な用途                               |
| --------------- | -------------------------------------------------- | ----------------------------------- |
| **E2B**         | <p>Dense + PLE（128K コンテキスト）<br>サポート：テキスト、画像、音声</p> | スマホ / エッジ推論、ASR、音声翻訳向け              |
| **E4B**         | <p>Dense + PLE（128K コンテキスト）<br>サポート：テキスト、画像、音声</p> | ノートPC向けの小型モデルで、ローカルでの高速マルチモーダル利用に最適 |
| **12B Unified** | <p>Dense（256K コンテキスト）<br>サポート：テキスト、画像、音声</p>       | ノートPCおよびローカルのマルチモーダル利用向けの中規模モデル     |
| **26B-A4B**     | <p>MoE（256K コンテキスト）<br>サポート：テキスト、画像</p>            | PC 利用で速度と品質のバランスが最良                 |
| **31B**         | <p>Dense（256K コンテキスト）<br>サポート：テキスト、画像</p>          | 推論は遅めだが最高性能                         |

**Gemma 4 を見る：** [**性能ベンチマーク**](#official-gemma-benchmarks) **と** [**GGUF ベンチマーク**](#unsloth-gguf-benchmarks)**.**

**26B-A4B と 31B のどちらを選ぶべきですか？**

* **26B-A4B** — 速度と精度のバランスに優れています。MoE 設計により 31B より高速で、アクティブパラメータは 4B です。RAM が限られていて、少しの品質を速度と引き換えてもよいならこちらを選んでください。
* **31B** — 現在のところ最も強力な Gemma 4 モデルです。十分なメモリがあり、やや遅い速度を許容できるなら、最高品質を求めてこちらを選んでください。

### ハードウェア要件

**表：Gemma 4 推論 GGUF の推奨ハードウェア要件** （単位 = 総メモリ：RAM + VRAM、またはユニファイドメモリ）。Gemma 4 は MacOS、NVIDIA RTX GPU などで使用できます。

| Gemma 4 のバリアント  |    4-bit |    8-bit | BF16 / FP16 |
| --------------- | -------: | -------: | ----------: |
| **E2B**         |     4 GB |   5–8 GB |       10 GB |
| **E4B**         | 5.5–6 GB |  9–12 GB |       16 GB |
| **12B Unified** |   7–8 GB | 13–14 GB |       25 GB |
| **26B A4B**     | 16–18 GB | 28–30 GB |       52 GB |
| **31B**         | 17–20 GB | 34–38 GB |       62 GB |

{% hint style="info" %}
目安として、利用可能な総メモリはダウンロードする量子化モデルのサイズを少なくとも上回っている必要があります。そうでない場合でも、llama.cpp は一部 RAM / ディスクへのオフロードを使って実行できますが、生成は遅くなります。また、使用するコンテキストウィンドウに応じて、より多くの計算資源も必要になります。
{% endhint %}

### 推奨設定

Google のデフォルトの Gemma 4 パラメータを使用することを推奨します：

* `temperature = 1.0`
* `top_p = 0.95`
* `top_k = 64`

{% hint style="info" %}
Gemma 4 の最大コンテキストは **128K** は **E2B** / **E4B** と `262,144` は **12B** / **26B A4B** / **31B**.
{% endhint %}

#### 思考モード

従来の Gemma チャットテンプレートと比べて、Gemma 4 は標準の **`system`**, **`assistant`**、そして **`user`** ロールを使用し、明示的な思考制御を追加しています。

**思考を有効にする方法：**

トークンを追加します **`<|think|>`** の **system プロンプトの先頭に**.

{% columns %}
{% column %}
**思考有効**

```
<|think|>
あなたは慎重なコーディングアシスタントです。回答を明確に説明してください。
```

{% endcolumn %}

{% column %}
**思考無効**

```
あなたは慎重なコーディングアシスタントです。回答を明確に説明してください。
```

{% endcolumn %}
{% endcolumns %}

**出力の挙動：**

{% columns %}
{% column %}
思考が有効な場合、モデルは最終回答の前に内部推論チャネルを出力します。

```
<|channel>thought
[内部推論]
<channel|>
[最終回答]
```

{% endcolumn %}

{% column %}
思考が無効な場合でも、大きなモデルは **空の思考ブロック** を最終回答の前に出力することがあります。

```
<|channel>thought
<channel|>
[最終回答]
```

{% endcolumn %}
{% endcolumns %}

**たとえば「**&#x30D5;ランスの首都は何ですか？":

{% code overflow="wrap" %}

```
<bos><|turn>system\n<|think|><turn|>\n<|turn>user\nフランスの首都は何ですか？<turn|>\n<|turn>model\n
```

{% endcode %}

**すると、次のように出力されます：**

{% code overflow="wrap" %}

```
<|channel>thought\nユーザーはフランスの首都を尋ねています。\nフランスの首都はパリです。<channel|>フランスの首都はパリです。<turn|>
```

{% endcode %}

**マルチターンチャットのルール：**

マルチターン会話では、 **チャット履歴には最終的に表示された回答のみを残します**。 **しない** 前の思考ブロックを次のターンに再投入しないでください。

{% code overflow="wrap" %}

```
<bos><|turn>user\n1+1 はいくつですか？<turn|>\n<|turn>model\n2<turn|>\n<|turn>user\n1+1 はいくつですか？<turn|>\n<|turn>model\n2<turn|>\n<|turn>user\n1+1 はいくつですか？<turn|>\n<|turn>model\n2<turn|>\n<|turn>user\n1+1 はいくつですか？<turn|>\n<|turn>model\n2<turn|>\n
```

{% endcode %}

**思考を無効にする方法：**

注意 `llama-cli` は安定して動作しない場合があるため、 `llama-server` 推論を無効にするには：

{% hint style="warning" %}
するには [思考 / 推論を無効にする](#how-to-enable-or-disable-reasoning-and-thinking)には、次を使用します `--chat-template-kwargs '{"enable_thinking":false}'`

もし **Windows** の PowerShell を使っている場合は、次を使用します： `--chat-template-kwargs "{\"enable_thinking\":false}"`

'true' と 'false' は同じように使えます。
{% endhint %}

## Gemma 4 チュートリアルを実行

Gemma 4 GGUF にはいくつかのサイズがあるため、小型モデルの推奨開始点は 8-bit で、大型モデルは [**Dynamic**](/docs/jp/ji-ben/unsloth-dynamic-2.0-ggufs.md) **4-bit**. [Gemma 4 GGUF](https://huggingface.co/collections/unsloth/gemma-4) または [MLX](#mlx-dynamic-quants):

| [E2B](https://huggingface.co/unsloth/gemma-4-E2B-it-GGUF) | [E4B](https://huggingface.co/unsloth/gemma-4-E4B-it-GGUF) | [12b](https://huggingface.co/unsloth/gemma-4-12b-it-GGUF) | [26B-A4B](https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF) | [31B](https://huggingface.co/unsloth/gemma-4-31B-it-GGUF) |
| --------------------------------------------------------- | --------------------------------------------------------- | --------------------------------------------------------- | ----------------------------------------------------------------- | --------------------------------------------------------- |

<a href="/pages/693bc7a2f22dcaf0c6bc0818f2076196fe331fa7#unsloth-studio-guide" class="button primary">🦥 Unsloth Studio ガイド</a><a href="/pages/693bc7a2f22dcaf0c6bc0818f2076196fe331fa7#llama.cpp-guide" class="button primary">🦙 Llama.cpp ガイド</a>

{% columns %}
{% column %}
**私たちの** [**Unsloth Studio**](/docs/jp/xin-zhe/studio.md)✨ **ノートブックで、Gemma 4 を無料で実行・学習できます：**
{% endcolumn %}

{% column %}
{% embed url="<https://colab.research.google.com/github/unslothai/unsloth/blob/main/studio/Unsloth_Studio_Colab.ipynb>" %}
{% endcolumn %}
{% endcolumns %}

### 🦥 Unsloth Studio ガイド

Gemma 4 は、次の環境で実行・ファインチューニングできるようになりました [Unsloth Studio](/docs/jp/xin-zhe/studio.md)。これはローカル AI 向けの新しいオープンソース Web UI です。Unsloth Studio を使うと、モデルをローカルで次の環境で実行できます **MacOS、Windows**、Linux、そして：

{% columns %}
{% column %}

* 検索、ダウンロード、 [GGUF の実行](/docs/jp/xin-zhe/studio.md#run-models-locally) および safetensor モデル
* [**自己修復** ツール呼び出し](/docs/jp/xin-zhe/studio.md#execute-code--heal-tool-calling) + **ウェブ検索**
* [**コード実行**](/docs/jp/xin-zhe/studio.md#run-models-locally) （Python、Bash）
* [自動推論](/docs/jp/xin-zhe/studio.md#model-arena) パラメータ調整（temp、top-p など）
* llama.cpp による高速な CPU + GPU 推論
* [LLM を学習](/docs/jp/xin-zhe/studio.md#no-code-training) VRAM を70%削減しつつ 2 倍高速
  {% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/15781d66f25558946794c4025a5ece324f0db186" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% stepper %}
{% step %}

#### Unsloth をインストール

ターミナルで実行：

**MacOS、Linux、WSL：**

```bash
curl -fsSL https://unsloth.ai/install.sh | sh
```

**Windows PowerShell：**

```bash
irm https://unsloth.ai/install.ps1 | iex
```

{% endstep %}

{% step %}

#### Unsloth を起動

**MacOS、Linux、WSL、Windows：**

```bash
unsloth studio -H 0.0.0.0 -p 8888
```

その後、 `http://127.0.0.1:8888` をブラウザで開きます。
{% endstep %}

{% step %}

#### Gemma 4 を検索してダウンロード

初回起動時には、アカウントを保護するためのパスワードを作成し、再度サインインする必要があります。

その後、 [Studio Chat](/docs/jp/xin-zhe/studio/chat.md) タブに移動し、検索バーで Gemma 4 を探して、目的のモデルと量子化版をダウンロードしてください。Unsloth は最新の Gemma-4-12B Unified モデルをサポートしています。

<div data-with-frame="true"><figure><img src="/files/5ce0cbbf8496663435148cc3eb0a7f192d13179d" alt="" width="375"><figcaption></figcaption></figure></div>
{% endstep %}

{% step %}

#### Gemma 4 を実行

Unsloth Studio を使うと推論パラメータは自動設定されますが、手動で変更することもできます。コンテキスト長、チャットテンプレート、その他の設定も編集可能です。GGUF と MLX ファイルを実行できます。

詳細については、次を参照してください： [Unsloth Studio 推論ガイド](/docs/jp/xin-zhe/studio/chat.md).

<div data-with-frame="true"><figure><img src="/files/15781d66f25558946794c4025a5ece324f0db186" alt="" width="563"><figcaption></figcaption></figure></div>
{% endstep %}
{% endstepper %}

### 🦙 Llama.cpp ガイド

このガイドでは、12B、26B-A4B、31B には Dynamic 4-bit を、E2B と E4B には 8-bit を使用します。参照： [Gemma 4 GGUF コレクション](https://huggingface.co/collections/unsloth/gemma-4)

これらのチュートリアルでは、 [llama.cpp](llama.cpphttps://github.com/ggml-org/llama.cpp) を使って高速なローカル推論を行います。特に CPU を使う場合に適しています。

{% stepper %}
{% step %}
最新の `llama.cpp` **を** [**GitHub はこちら**](https://github.com/ggml-org/llama.cpp)。以下のビルド手順に従うこともできます。 `-DGGML_CUDA=ON` を `-DGGML_CUDA=OFF` に変更してください。GPU がない場合や CPU 推論だけを使いたい場合は。 **Apple Mac / Metal デバイスの場合**、次に設定します `-DGGML_CUDA=OFF` その後は通常どおり続けてください。Metal サポートはデフォルトで有効です。

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \\
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

{% endstep %}

{% step %}
もし `llama.cpp` モデルを直接読み込んで使いたい場合は、各モデルに応じて以下のコマンドに従ってください。 `UD-Q4_K_XL` は量子化タイプです。Hugging Face 経由（手順3）でダウンロードすることもできます。これは次に似ています： `ollama run` 。 `export LLAMA_CACHE="folder"` を強制して `llama.cpp` 特定の場所に保存します。llama.cpp は必要な量を自動的に使うため、コンテキスト長を設定する必要はありません。

{% hint style="warning" %}
するには [思考 / 推論を無効にする](#how-to-enable-or-disable-reasoning-and-thinking)、次を使用します： `--chat-template-kwargs '{"enable_thinking":false}'`

**Windows** Powershell： `--chat-template-kwargs "{\"enable_thinking\":false}"`

'`true`' と '`false`' は同じように使えます。
{% endhint %}

**12B：**

```bash
export LLAMA_CACHE="unsloth/gemma-4-12B-it-GGUF"
./llama.cpp/llama-cli \\
    -hf unsloth/gemma-4-12b-it-GGUF:UD-Q4_K_XL \\
    --temp 1.0 \\
    --top-p 0.95 \\
    --top-k 64
```

**26B-A4B：**

```bash
export LLAMA_CACHE="unsloth/gemma-4-26B-A4B-it-GGUF"
./llama.cpp/llama-cli \\
    -hf unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL \\
    --temp 1.0 \\
    --top-p 0.95 \\
    --top-k 64
```

**31B：**

```bash
export LLAMA_CACHE="unsloth/gemma-4-31B-it-GGUF"
./llama.cpp/llama-cli \\
    -hf unsloth/gemma-4-31B-it-GGUF:UD-Q4_K_XL \\
    --temp 1.0 \\
    --top-p 0.95 \\
    --top-k 64
```

**E4B：**

```bash
export LLAMA_CACHE="unsloth/gemma-4-E4B-it-GGUF"
./llama.cpp/llama-cli \\
    -hf unsloth/gemma-4-E4B-it-GGUF:Q8_0 \\
    --temp 1.0 \\
    --top-p 0.95 \\
    --top-k 64
```

**E2B：**

```bash
export LLAMA_CACHE="unsloth/gemma-4-E2B-it-GGUF"
./llama.cpp/llama-cli \\
    -hf unsloth/gemma-4-E2B-it-GGUF:Q8_0 \\
    --temp 1.0 \\
    --top-p 0.95 \\
    --top-k 64
```

{% endstep %}

{% step %}
以下のコードでも手動でモデルをダウンロードできます（次をインストール後 `pip install huggingface_hub`）。次を選択できます `UD-Q4_K_XL` または、次のような他の量子化版を `Q8_0` 。ダウンロードが止まる場合は、こちらを参照： [Hugging Face Hub、XETデバッグ](/docs/jp/ji-ben/troubleshooting-and-faqs/hugging-face-hub-xet-debugging.md)

```bash
hf download unsloth/gemma-4-26B-A4B-it-GGUF \\
    --local-dir unsloth/gemma-4-26B-A4B-it-GGUF \\
    --include "*mmproj-BF16*" \\
    --include "*UD-Q4_K_XL*" # Dynamic 2bit には "*UD-Q2_K_XL*" を使用
```

{% endstep %}

{% step %}
その後、会話モードでモデルを実行します（vision `mmproj-F16`):

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \\
    --model unsloth/gemma-4-26B-A4B-it-GGUF/gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf \\
    --mmproj unsloth/gemma-4-26B-A4B-it-GGUF/mmproj-BF16.gguf \\
    --temp 1.0 \\
    --top-p 0.95 \\
    --top-k 64
```

{% endcode %}
{% endstep %}

{% step %}

#### Llama-server のデプロイ

llama-server で Gemma-4 をデプロイするには、次を使用します：

```bash
./llama.cpp/llama-server \\
    --model unsloth/gemma-4-26B-A4B-it-GGUF/gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf \\
    --mmproj unsloth/gemma-4-26B-A4B-it-GGUF/mmproj-BF16.gguf \\
    --temp 1.0 \\
    --top-p 0.95 \\
    --top-k 64 \\
    --alias "unsloth/gemma-4-26B-A4B-it-GGUF" \\
    --port 8001 \\
    --chat-template-kwargs '{"enable_thinking":true}'
```

{% endstep %}
{% endstepper %}

### MLX 動的量子化版

MacOS デバイス向けの最初の試みとして、dynamic 4bit と 8bit の量子化版もアップロードしました！MLX 量子化版は **ビジョン。**

{% hint style="success" %}
すべての MLX 量子化版は現在、[ Unsloth Studio](#unsloth-studio-guide)!
{% endhint %}

| Gemma 4 | 4-bit MLX                                                            | 8-bit MLX                                                         |
| ------- | -------------------------------------------------------------------- | ----------------------------------------------------------------- |
| 31B     | [リンク](https://huggingface.co/unsloth/gemma-4-31b-it-UD-MLX-4bit)     | [リンク](https://huggingface.co/unsloth/gemma-4-31b-it-MLX-8bit)     |
| 26B-A4B | [リンク](https://huggingface.co/unsloth/gemma-4-26b-a4b-it-UD-MLX-4bit) | [リンク](https://huggingface.co/unsloth/gemma-4-26b-a4b-it-MLX-8bit) |
| E4B     | [リンク](https://huggingface.co/unsloth/gemma-4-E4B-it-UD-MLX-4bit)     | [リンク](https://huggingface.co/unsloth/gemma-4-E4B-it-MLX-8bit)     |
| E2B     | [リンク](https://huggingface.co/unsloth/gemma-4-E2B-it-UD-MLX-4bit)     | [リンク](https://huggingface.co/unsloth/gemma-4-E2B-it-MLX-8bit)     |

試すには、次を使用します：

{% code overflow="wrap" %}

```bash
curl -fsSL https://raw.githubusercontent.com/unslothai/unsloth/refs/heads/main/scripts/install_gemma4_mlx.sh | sh
source ~/.unsloth/unsloth_gemma4_mlx/bin/activate
python -m mlx_vlm.chat --model unsloth/gemma-4-26b-a4b-it-UD-MLX-4bit
```

{% endcode %}

### Ollama ガイド

Ollama は現在 Unsloth の GGUF をうまくサポートしています。次を使用します： `curl -fsSL https://ollama.com/install.sh | sh` Linux に Ollama をインストールするには、または `irm https://ollama.com/install.ps1 | iex` Windows向け。\
\
単一の量子化ファイル（50GB未満）を使うには、次を使用します:

{% code overflow="wrap" %}

```bash
ollama run hf.co/unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL
```

{% endcode %}

より大きなBF16シャードのような複数シャードの場合は、次を実行します:

{% code overflow="wrap" %}

```bash
pip install -U huggingface_hub

# mmprojとBF16を2回の呼び出しでダウンロード
hf download unsloth/gemma-4-26B-A4B-it-GGUF --include "BF16/*" \
    --local-dir gemma4
hf download unsloth/gemma-4-26B-A4B-it-GGUF --include "mmproj-BF16.gguf" \
    --local-dir gemma4

mv gemma4/mmproj-BF16.gguf gemma4/BF16/
echo "FROM ./gemma4/BF16" > Modelfile

ollama create unsloth-gemma4 -f Modelfile
ollama run unsloth-gemma4
```

{% endcode %}

<div data-with-frame="true"><figure><img src="/files/0761a140fbaca6784e4d35032c20a60ea20bd865" alt="" width="563"><figcaption></figcaption></figure></div>

{% hint style="info" %}
次が表示された場合 `エラー: 500 Internal Server Error: モデルを読み込めません` 次でOllamaを更新するか `curl -fsSL https://ollama.com/install.sh | sh` またはPowerShell版を使用してください。
{% endhint %}

## Gemma 4のベストプラクティス

### プロンプト例

#### シンプルな推論プロンプト

```
System:
<|think|>
あなたは正確な推論アシスタントです。

User:
列車は午前8:15に出発し、午前11:47に到着します。所要時間はどれくらいでしたか？
```

#### OCR / 文書プロンプト

OCRでは、次を使用します: **高い視覚トークン予算** たとえば **560** または **1120**.

```
[画像を先に]
この領収書からすべてのテキストを抽出してください。品目、合計、加盟店、日付をJSONとして返してください。
```

#### マルチモーダル比較プロンプト

```
[画像1]
[画像2]
この2つのスクリーンショットを比較して、どちらが新しいユーザーをより混乱させそうか教えてください。
```

#### 音声ASRプロンプト

```
次の音声区間を{LANGUAGE}で書き起こし、{LANGUAGE}のテキストにしてください。

回答の形式については、次の具体的な指示に従ってください:
* 書き起こしのみを出力し、改行は入れないでください。
* 数字を書き起こす際は数字で記述してください。つまり、one point sevenではなく1.7、threeではなく3と書いてください。
```

#### 音声翻訳プロンプト

```
次の音声区間を{SOURCE_LANGUAGE}で書き起こし、その後{TARGET_LANGUAGE}に翻訳してください。回答の形式では、まず{SOURCE_LANGUAGE}での書き起こしを出力し、次に改行を1つ入れ、その後文字列'{TARGET_LANGUAGE}: 'を出力し、最後に{TARGET_LANGUAGE}での翻訳を出力してください。
```

### マルチモーダル設定

マルチモーダルプロンプトで最良の結果を得るには、マルチモーダル内容を先に置いてください:

* 配置してください **画像や音声をテキストの前に**.
* 動画では、まずフレームの列を渡し、その後に指示を与えます。

#### 音声と動画の制限

* **音声** は **12B**, **E2B** と **E4B** のみ。
* 音声は最大 **30秒まで対応します**.
* 動画は最大 **60秒まで対応します** 〜を前提とすると **1秒あたり1フレーム** の処理。

#### 音声プロンプトテンプレート

**ASRプロンプト**

```
次の音声区間を{LANGUAGE}で書き起こし、{LANGUAGE}のテキストにしてください。

回答の形式については、次の具体的な指示に従ってください:
* 書き起こしのみを出力し、改行は入れないでください。
* 数字を書き起こす際は数字で記述してください。つまり、one point sevenではなく1.7、threeではなく3と書いてください。
```

**音声翻訳プロンプト**

```
次の音声区間を{SOURCE_LANGUAGE}で書き起こし、その後{TARGET_LANGUAGE}に翻訳してください。
回答の形式では、まず{SOURCE_LANGUAGE}での書き起こしを出力し、次に改行を1つ入れ、その後文字列'{TARGET_LANGUAGE}: 'を出力し、最後に{TARGET_LANGUAGE}での翻訳を出力してください。
```

## 📊 ベンチマーク

### Unsloth GGUFベンチマーク

各プロバイダーにわたるGemma 4 GGUFの平均KLダイバージェンスのベンチマークを実施し、最適な量子化を選べるようにしました（低いほど良い）。

* KLダイバージェンスにより、すべてのUnsloth GGUFがSOTAのパレートフロンティア上に位置します
* KLDは、量子化モデルが元のBF16出力分布にどれだけ一致しているかを示し、保持された精度を表します。

<div data-with-frame="true"><figure><img src="/files/d265501d0f0774cfc0fc76a1d11f9ff5179a6a94" alt=""><figcaption><p>26B A4B - KLDベンチマーク（低いほど良い）</p></figcaption></figure></div>

### 公式Gemmaベンチマーク

**テキスト/コードベンチマーク**

| ベンチマーク              | Gemma 4 31B | Gemma 4 26B A4B | Gemma 4 12B Unified | Gemma 4 E4B | Gemma 4 E2B | Gemma 3 27B（思考なし） |
| ------------------- | ----------- | --------------- | ------------------- | ----------- | ----------- | ----------------- |
| MMLU Pro            | 85.2%       | 82.6%           | 77.2%               | 69.4%       | 60.0%       | 67.6%             |
| AIME 2026 ツールなし     | 89.2%       | 88.3%           | 77.5%               | 42.5%       | 37.5%       | 20.8%             |
| LiveCodeBench v6    | 80.0%       | 77.1%           | 72.0%               | 52.0%       | 44.0%       | 29.1%             |
| Codeforces ELO      | 2150        | 1718            | 1659                | 940         | 633         | 110               |
| GPQA Diamond        | 84.3%       | 82.3%           | 78.8%               | 58.6%       | 43.4%       | 42.4%             |
| Tau2                | 76.9%       | 68.2%           | 69.0%               | 42.2%       | 24.5%       | 16.2%             |
| HLE ツールなし           | 19.5%       | 8.7%            | 5.2%                | -           | -           | -                 |
| 検索ありのHLE            | 26.5%       | 17.2%           | -                   | -           | -           | -                 |
| BigBench Extra Hard | 74.4%       | 64.8%           | 53.0%               | 33.1%       | 21.9%       | 19.3%             |
| MMMLU               | 88.4%       | 86.3%           | 83.4%               | 76.6%       | 67.4%       | 70.7%             |

**画像ベンチマーク**

| MMMU Pro                 | 76.9% | 73.8% | 69.1% | 52.6% | 44.2% | 49.7% |
| ------------------------ | ----- | ----- | ----- | ----- | ----- | ----- |
| OmniDocBench 1.5（低いほど良い） | 0.131 | 0.149 | 0.164 | 0.181 | 0.290 | 0.365 |
| MATH-Vision              | 85.6% | 82.4% | 79.7% | 59.5% | 52.4% | 46.0% |
| MedXPertQA MM            | 61.3% | 58.1% | 48.7% | 28.7% | 23.5% | -     |

**音声ベンチマーク**

| CoVoST                    | -     | -     | 38.5<sup>\*</sup>  | 35.54 | 33.47 | -     |
| ------------------------- | ----- | ----- | ------------------ | ----- | ----- | ----- |
| FLEURS（低いほど良い）            | -     | -     | 0.069<sup>\*</sup> | 0.08  | 0.09  | -     |
| **長文コンテキスト**              |       |       |                    |       |       |       |
| MRCR v2 8 needle 128k（平均） | 66.4% | 44.1% | 43.4%              | 25.4% | 19.1% | 13.5% |

<div data-with-frame="true"><figure><img src="/files/2f05e915ec04ec487a14a8f018a782370af74f57" alt=""><figcaption></figcaption></figure></div>


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/jp/moderu/gemma-4.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
