> For the complete documentation index, see [llms.txt](https://unsloth.ai/docs/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://unsloth.ai/docs/jp/ji-ben/unsloth-dynamic-2.0-ggufs.md).

# Unsloth Dynamic 2.0 GGUF

ご紹介できることを嬉しく思います [Unsloth](https://github.com/unslothai/unsloth) Dynamic v2.0 量子化 - 以前の量子化方式に対する大幅なアップグレードです。この新しい手法は主要な量子化手法を上回り、次の分野で新たなベンチマークを打ち立てます： [Aider Polyglot](/docs/jp/ji-ben/unsloth-dynamic-2.0-ggufs/unsloth-dynamic-ggufs-on-aider-polyglot.md)、5-shot MMLU、および KL Divergence。

これは、今や + ファインチューニング を実行できることを意味します [量子化された LLM](/docs/jp/moderu/tutorials.md) 精度を可能な限り維持しながらです！ 2.0 GGUF は llama.cpp、 [Unsloth Studio](/docs/jp/xin-zhe/studio.md) などのほとんどの推論エンジンで実行できます。

{% columns %}
{% column %}
**2026年4月20日 更新:** 次の新しい GGUF ベンチマークをご覧ください： [Qwen3.6](/docs/jp/moderu/qwen3.6.md#unsloth-gguf-benchmarks) および [Gemma 4](/docs/jp/moderu/gemma-4.md#unsloth-gguf-benchmarks).

[2026年2月27日 更新:](/docs/jp/moderu/qwen3.5/gguf-benchmarks.md) **Qwen3.5** が公開され、ツール呼び出し用チャットテンプレートのいくつかの問題を修正し、すべての GGUF について perplexity と KL Divergence のベンチマークを実施しました。 [ベンチマークを見る！](/docs/jp/moderu/qwen3.5/gguf-benchmarks.md)

その **主な利点** を使用することの [Unsloth パッケージ](https://github.com/unslothai/unsloth) および量子化版を使う利点は、主要モデルのバグ修正に私たちが積極的に関わっていることです。私たちは次のチームと直接協力してきました： [Qwen3](https://www.reddit.com/r/LocalLLaMA/comments/1kaodxu/qwen3_unsloth_dynamic_ggufs_128k_context_bug_fixes/), [Meta (Llama 4)](https://github.com/ggml-org/llama.cpp/pull/12889), [Mistral (Devstral)](https://app.gitbook.com/o/HpyELzcNe0topgVLGCZY/s/xhOjnexMCB3dmuQFQ2Zq/~/changes/618/basics/tutorials-how-to-fine-tune-and-run-llms/devstral-how-to-run-and-fine-tune), [Google (Gemma 1–3)](https://news.ycombinator.com/item?id=39671146) および [Microsoft (Phi-3/4)](https://simonwillison.net/2025/Jan/11/phi-4-bug-fixes)、精度を向上させる修正に貢献しました。
{% endcolumn %}

{% column %}

<figure><img src="/files/d265501d0f0774cfc0fc76a1d11f9ff5179a6a94" alt=""><figcaption><p>Gemma 4 26B A4B ベンチマーク（低いほど良い）</p></figcaption></figure>

<figure><img src="/files/4c08db77b028c47fb00e50cef262107be104ee6c" alt=""><figcaption><p>Qwen3.6 ベンチマーク（低いほど良い）</p></figcaption></figure>
{% endcolumn %}
{% endcolumns %}

{% hint style="success" %}
Unsloth Dynamic GGUF は現在、次で実行できます [Unsloth Studio](/docs/jp/xin-zhe/studio.md) ✨

<img src="/files/27973fefe5b7ff34e02e2db67d51a11ac926e6a1" alt="" data-size="original">
{% endhint %}

{% hint style="success" %}
[2025年9月10日 更新:](/docs/jp/ji-ben/unsloth-dynamic-2.0-ggufs/unsloth-dynamic-ggufs-on-aider-polyglot.md) もっと厳しいベンチマークを求める声にお応えして、Aider Polyglot の結果をお見せします！ 私たちの Dynamic 3-bit DeepSeek V3.1 GGUF は **75.6%**&#x3092;記録し、多くのフル精度 SOTA LLM を上回りました。 [続きを読む。](/docs/jp/ji-ben/unsloth-dynamic-2.0-ggufs/unsloth-dynamic-ggufs-on-aider-polyglot.md)

<img src="/files/4f1c2bb2ed98c6a7bf224080a758a9e314fb9d77" alt="DeepSeek-V3.2 Thinking Aider Benchmarks" data-size="original"><img src="/files/8b5a794d2673d4dcc10f77ec2eddb45ce507c350" alt="Llama 4 5-shot MMLU Benchmarks" data-size="original">
{% endhint %}

Benjamin Marie によって実施された、LiveCodeBench v6、MMLU Pro などの実世界ユースケースのベンチマークもご覧いただけます:

<div><figure><img src="/files/76def291f438cd1ff454aa7c6f1de12650b34040" alt="" width="563"><figcaption></figcaption></figure> <figure><img src="/files/caf01dd085af11bfa9e713556cca7de78754c2ed" alt="" width="450"><figcaption></figcaption></figure></div>

Unsloth の GGUF が、約 8GB 小さいにもかかわらず、非 Unsloth 量子化版よりも優れた性能を示していることが分かります。

ベンチマークと評価の詳細な分析はさらに下をご覧ください。

### 💡 Dynamic v2.0 の新機能は？

* **GGUF + safetensors のレイヤー選択を刷新:** Unsloth Dynamic 2.0 は現在、はるかに賢く、広範囲にわたってレイヤーを選択的に量子化します。特定のレイヤーだけを変更するのではなく、可能なすべてのレイヤーの量子化タイプを動的に調整し、その組み合わせは各レイヤーおよび各モデルごとに異なります。
* 現在選択されているものと今後のすべての GGUF アップロードでは、Dynamic 2.0 と新しいキャリブレーションデータセットを使用します。このデータセットには 150万超の **トークン** （モデルによって異なります）が含まれており、高品質で手作業により厳選・クリーニングされたデータで構成され、会話チャット性能を大きく向上させます。
* 以前の Dynamic 量子化（DeepSeek-R1 1.58-bit GGUF）は、MoE アーキテクチャに対してのみ有効でした。 <mark style="background-color:green;">**Dynamic 2.0 量子化は現在、すべてのモデルで動作します（MoE および非 MoE を含む）**</mark>.
* **モデル固有の量子化:** 各モデルは現在、カスタム調整された量子化スキームを使用します。たとえば、Gemma 3 で量子化されるレイヤーは Llama 4 のものと大きく異なります。
* 特に Apple Silicon と ARM デバイスで効率を最大化するため、現在は Q4\_NL、Q5.1、Q5.0、Q4.1、および Q4.0 形式も追加しています。

正確なベンチマークを確保するため、Llama 4 と Gemma 3 の公式報告 5-shot MMLU スコアに一致する社内評価フレームワークを構築しました。これにより、フル精度版と Dynamic v2.0、 **QAT** および標準の **imatrix** GGUF 量子化版との厳密な比較が可能になりました。

<div><figure><img src="/files/0d31de89da68c90cf8f6e5d60808143107b9cca5" alt="" width="563"><figcaption></figcaption></figure> <figure><img src="/files/6e0e5e55ee912feb847a24d5f3ffbcf629bfc11e" alt="" width="563"><figcaption></figcaption></figure></div>

今後のすべての GGUF アップロードで Unsloth Dynamic 2.0 が使用され、将来的には Dynamic 4-bit safe tensor 量子化版もこの恩恵を受けます。

## 📊 なぜ KL Divergence なのか？

[精度だけでは十分ではない](https://arxiv.org/pdf/2407.09141) は、不要なレイヤーを選んで削減した場合であっても、レイヤーの剪定が「flip」の観点で非常に大きな違いを生むことを示しています。「flip」とは、回答が不正解から正解へ、またはその逆に変わることと定義されます。この論文は、レイヤーを剪定したり量子化を行っても MMLU が低下しない場合があることを示していますが、それは一部の不正解が「flip」して正解になっている可能性があるためです。私たちの目標は元のモデルに一致させることなので、「flip」を測定するのは良い指標です。

<div><figure><img src="/files/d75c118ff93dd0d9778403518a8dad5f8aaa5584" alt=""><figcaption></figcaption></figure> <figure><img src="/files/d07ca6fef4c12c638357e43ddbadb9338a44af55" alt=""><figcaption></figcaption></figure></div>

{% hint style="info" %}
**KL Divergence** は **量子化誤差を報告するためのゴールドスタンダードの1つであるべきです** 研究論文「Accuracy is Not All You Need」によれば。 **perplexity を使うのは正しくありません** 出力トークン値が相殺される可能性があるためで、そのため KLD または次のようなより厳しいベンチマークを使う必要があります [Aider](/docs/jp/ji-ben/unsloth-dynamic-2.0-ggufs/unsloth-dynamic-ggufs-on-aider-polyglot.md).
{% endhint %}

この論文はまた、興味深いことに KL Divergence が flips と高い相関を持つことも示しており、そのため私たちの目標は、量子化のディスク容量をできるだけ増やさずに平均 KL Divergence を減らすことです。

## ⚖️ キャリブレーションデータセットの過学習

ほとんどのフレームワークは、Wikipedia 記事のテストセットを用いて perplexity と KL Divergence を報告します。しかし、同じく Wikipedia 関連のキャリブレーションデータセットを使うと、量子化版が過学習し、より低い perplexity スコアを達成することに私たちは気付きました。私たちは [Calibration\_v3](https://gist.github.com/bartowski1182/eb213dccb3571f863da82e99418f81e8) および [Calibration\_v5](https://gist.github.com/tristandruyen/9e207a95c7d75ddf37525d353e00659c/) データセットを公平なテストのために使用しており、これには他のデータとともに一部の wikitext データが含まれています。 <mark style="background-color:red;">**また、instruct モデルには固有のチャットテンプレートがあり、テキストのみのキャリブレーションデータセットは instruct モデルには効果的ではありません**</mark> （base モデルには有効です）。実際、ほとんどの imatrix GGUF は通常これらの問題を抱えたままキャリブレーションされています。その結果、モデルが本質的にそのドメイン向けに最適化されているため、Wikipedia データも使用する KL Divergence ベンチマークでは自然とより良い性能を示します。

公平で制御された評価を確保するため、KL Divergence のベンチマークでは、自社のキャリブレーションデータセット（チャット性能向けに最適化されたもの）は使用していません。その代わり、同じ標準的な Wikipedia データセットを使ってテストを実施し、私たちの Dynamic 2.0 手法とベースラインの imatrix 手法の性能を直接比較できるようにしました。

## :1234: MMLU 再現の冒険

* MMLU 5 shot の再現は悪夢のようでした。私たちは <mark style="background-color:red;">**できませんでした**</mark> 微妙な実装上の問題のため、Llama 3.1 (8B) Instruct、Gemma 3 (12B) など多くのモデルで MMLU の結果を再現 <mark style="background-color:yellow;">**微妙な実装上の問題**</mark>。たとえば Llama 3.1 (8B) は本来約 68.2% を出すべきですが、誤った実装を使うと <mark style="background-color:red;">**35% の精度。**</mark>

<figure><img src="/files/17c14e99b304fb73f51e6a2e9b849569fbeea0e2" alt="" width="375"><figcaption><p>MMLU 実装上の問題</p></figcaption></figure>

* Llama 3.1 (8B) Instruct は、素朴な MMLU 実装では MMLU 5 shot 精度が 67.8% です。しかし私たちは、Llama が **「A」と「\_A」（前にスペースのある A）を異なるトークン ID としてトークナイズする**ことを見出しました。スペースあり・なしの両方のトークンを考慮すると、68.2% になります <mark style="background-color:green;">(+0.4%)</mark>
* 興味深いことに、Eleuther AI の [LLM Harness](https://github.com/EleutherAI/lm-evaluation-harness/blob/main/lm_eval/tasks/llama3/instruct/mmlu/_continuation_template_yaml) はまた <mark style="background-color:purple;">**「The best answer is」**</mark> を質問に付加しており、Llama 3 の元の MMLU ベンチマークに従っています。
* 他にも多くの微妙な問題があるため、すべてを制御された環境でベンチマークするために、私たちは [github.com/hendrycks/test](https://github.com/hendrycks/test) を直接調査して、独自の MMLU 実装をゼロから設計し、複数のモデルで結果を検証し、報告値とも比較しました。

## :sparkles: Gemma 3 QAT の再現、ベンチマーク

Gemma チームは Gemma 3 の 2 つの QAT（量子化認識学習）版を公開しました:

1. Q4\_0 GGUF - すべてのレイヤーを次の式により Q4\_0 に量子化します `w = q * block_scale` 各ブロックは 32 個の重みを持ちます。詳細は [llama.cpp wiki ](https://github.com/ggml-org/llama.cpp/wiki/Tensor-Encoding-Schemes)をご覧ください。
2. int4 バージョン - おそらく [TorchAO int4 スタイル](https://github.com/pytorch/ao/blob/main/torchao/quantization/README.md)?

私たちはすべての Q4\_0 GGUF バージョンをベンチマークし、12B モデルで広範な実験を行いました。その結果、 **12B Q4\_0 QAT モデルは 67.07% を記録しました** 一方で、完全な bfloat16 の 12B 版は 5 shot MMLU で 67.15% を記録します。これは非常に印象的です！ 27B モデルもほぼそこまで来ています！

<table><thead><tr><th>指標</th><th>1B</th><th valign="middle">4B</th><th>12B</th><th>27B</th></tr></thead><tbody><tr><td>MMLU 5 shot</td><td>26.12%</td><td valign="middle">55.13%</td><td><mark style="background-color:blue;"><strong>67.07% (67.15% BF16)</strong></mark></td><td><strong>70.64% (71.5% BF16)</strong></td></tr><tr><td>ディスク容量</td><td>0.93GB</td><td valign="middle">2.94GB</td><td><strong>7.52GB</strong></td><td>16.05GB</td></tr><tr><td><mark style="background-color:green;"><strong>効率*</strong></mark></td><td>1.20</td><td valign="middle">10.26</td><td><strong>5.59</strong></td><td>2.84</td></tr></tbody></table>

私たちは新しい **効率指標** を設計しました。これは、モデルの有用性を計算しつつ、そのディスクサイズと MMLU 5 shot スコアも考慮に入れます:

$$
\text{Efficiency} = \frac{\text{MMLU 5 shot score} - 25}{\text{Disk Space GB}}
$$

{% hint style="warning" %}
私たちは **25 を引かなければなりません** なぜなら MMLU には A、B、C、D の 4 つの選択肢があるからです。単純にランダムに答えを選ぶモデルを作れば、25% の精度を得て、ディスク容量は数バイトになるでしょう。しかし、明らかにそれは有用なモデルではありません。
{% endhint %}

ベースモデルに対する KL Divergence については、以下の表が改善を示しています。念のため言うと、KL Divergence は 0 に近いほど良いです（つまり 0 はフル精度モデルと同一であることを意味します）

| 量子化       | ベースライン KLD | GB    | 新しい KLD  | GB    |
| --------- | ---------- | ----- | -------- | ----- |
| IQ1\_S    | 1.035688   | 5.83  | 0.972932 | 6.06  |
| IQ1\_M    | 0.832252   | 6.33  | 0.800049 | 6.51  |
| IQ2\_XXS  | 0.535764   | 7.16  | 0.521039 | 7.31  |
| IQ2\_M    | 0.26554    | 8.84  | 0.258192 | 8.96  |
| Q2\_K\_XL | 0.229671   | 9.78  | 0.220937 | 9.95  |
| Q3\_K\_XL | 0.087845   | 12.51 | 0.080617 | 12.76 |
| Q4\_K\_XL | 0.024916   | 15.41 | 0.023701 | 15.64 |

ディスク容量の増加率と KL Divergence 比の変化をプロットすると、はるかに明確な利点が見えてきます！ 私たちの dynamic 2bit Q2\_K\_XL は KLD をかなり低減します（約 7.5%）。

<figure><img src="/files/b8718886a46d6563bcf8c226d47496442c42901b" alt=""><figcaption></figcaption></figure>

Gemma 3 (27B) の MMLU 結果の表は省略版です。下をご覧ください。

1. **私たちの dynamic 4bit 版は、QAT 版より 2GB 小さく、しかも精度が +1% 高いです！**
2. 効率の観点では、2bit Q2\_K\_XL などが非常に良好に見えます！

| 量子化            | Unsloth   | Unsloth + QAT | ディスクサイズ   | 効率       |
| -------------- | --------- | ------------- | --------- | -------- |
| IQ1\_M         | 48.10     | 47.23         | 6.51      | 3.42     |
| IQ2\_XXS       | 59.20     | 56.57         | 7.31      | 4.32     |
| IQ2\_M         | 66.47     | 64.47         | 8.96      | 4.40     |
| Q2\_K\_XL      | 68.70     | 67.77         | 9.95      | 4.30     |
| Q3\_K\_XL      | 70.87     | 69.50         | 12.76     | 3.49     |
| **Q4\_K\_XL**  | **71.47** | **71.07**     | **15.64** | **2.94** |
| **Google QAT** |           | **70.64**     | **17.2**  | **2.65** |

<details>

<summary><mark style="color:緑色;">ここをクリック</mark> から、Google の Gemma 3 (27B) QAT ベンチマーク完全版をご覧ください:</summary>

| モデル            | Unsloth   | Unsloth + QAT | ディスクサイズ   | 効率       |
| -------------- | --------- | ------------- | --------- | -------- |
| IQ1\_S         | 41.87     | 43.37         | 6.06      | 3.03     |
| IQ1\_M         | 48.10     | 47.23         | 6.51      | 3.42     |
| IQ2\_XXS       | 59.20     | 56.57         | 7.31      | 4.32     |
| IQ2\_M         | 66.47     | 64.47         | 8.96      | 4.40     |
| Q2\_K          | 68.50     | 67.60         | 9.78      | 4.35     |
| Q2\_K\_XL      | 68.70     | 67.77         | 9.95      | 4.30     |
| IQ3\_XXS       | 68.27     | 67.07         | 10.07     | 4.18     |
| Q3\_K\_M       | 70.70     | 69.77         | 12.51     | 3.58     |
| Q3\_K\_XL      | 70.87     | 69.50         | 12.76     | 3.49     |
| Q4\_K\_M       | 71.23     | 71.00         | 15.41     | 2.98     |
| **Q4\_K\_XL**  | **71.47** | **71.07**     | **15.64** | **2.94** |
| Q5\_K\_M       | 71.77     | 71.23         | 17.95     | 2.58     |
| Q6\_K          | 71.87     | 71.60         | 20.64     | 2.26     |
| Q8\_0          | 71.60     | 71.53         | 26.74     | 1.74     |
| **Google QAT** |           | **70.64**     | **17.2**  | **2.65** |

</details>

## :llama: Llama 4 のバグ修正 + 実行

私たちは Llama 4 のいくつかのバグの修正にも協力しました:

* Llama 4 Scout は公式リポジトリで RoPE Scaling の設定を変更しました。私たちは llama.cpp でこの変更を有効にするための問題解決に協力しました [こちらの変更](https://github.com/ggml-org/llama.cpp/pull/12889)

  <figure><img src="/files/5185380cb6ac699a16bfce0ad610740dd84b7c71" alt=""><figcaption></figcaption></figure>
* Llama 4 の QK Norm の epsilon は、Scout と Maverick の両方で設定ファイルから取得されるべきです。つまり 1e-06 ではなく 1e-05 を使うべきです。私たちはこれらの問題の解決に協力しました: [llama.cpp](https://github.com/ggml-org/llama.cpp/pull/12889) および [transformers](https://github.com/huggingface/transformers/pull/37418)
* Llama 4 チームと vLLM も、すべてのヘッドで QK Norm が共有されている問題（そうあるべきではありません）を独立して修正しました [こちら](https://github.com/vllm-project/vllm/pull/16311)。MMLU Pro は 68.58% から 71.53% の精度へ向上しました。
* [Wolfram Ravenwolf](https://x.com/WolframRvnwlf/status/1909735579564331016) は、llama.cpp 経由の私たちの GGUF がサードパーティの推論プロバイダーよりもはるかに高い精度を達成することを示しました。これはおそらく、上で説明した問題の組み合わせと、量子化の問題によるものです。

  <figure><img src="/files/8e0762a6ae64b78a0c3fe445fa5dc8c475bcb836" alt=""><figcaption></figcaption></figure>

グラフに示したように、私たちの 4-bit Dynamic QAT 量子化は、より小さいサイズでありながら、5-shot MMLU でより良い性能を発揮します。

### Llama 4 Scout の実行:

たとえば Llama 4 Scout を実行するには、まず llama.cpp をクローンします:

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \\
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

次に、Scout 用の新しい dynamic v 2.0 量子化版をダウンロードします:

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Llama-4-Scout-17B-16E-Instruct-GGUF",
    local_dir = "unsloth/Llama-4-Scout-17B-16E-Instruct-GGUF",
    allow_patterns = ["*IQ2_XXS*"],
)
```

では、推論を実行しましょう！

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \\
    --model unsloth/Llama-4-Scout-17B-16E-Instruct-GGUF/Llama-4-Scout-17B-16E-Instruct-UD-IQ2_XXS.gguf \\
    --threads 32 \\
    --ctx-size 16384 \\
    --n-gpu-layers 99 \\
    -ot ".ffn_.*_exps.=CPU" \\
    --seed 3407 \\
    --prio 3 \\
    --temp 0.6 \\
    --min-p 0.01 \\
    --top-p 0.9 \\
    -no-cnv \\
    --prompt "<|header_start|>user<|header_end|>\n\nFlappy Bird ゲームを作成してください。<|eot|><|header_start|>assistant<|header_end|>\n\n"
```

{% endcode %}

{% hint style="success" %}
Llama 4 の実行についての詳細はこちら: <https://docs.unsloth.ai/basics/tutorial-how-to-run-and-fine-tune-llama-4>
{% endhint %}


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/jp/ji-ben/unsloth-dynamic-2.0-ggufs.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
