# Unsloth Dynamic 2.0 GGUF

ご紹介できることを嬉しく思います [Unsloth](https://github.com/unslothai/unsloth) Dynamic v2.0量子化 - 以前の量子化を大きくアップグレードしたものです。この新しい手法は主要な量子化手法を上回り、次の分野で新たなベンチマークを打ち立てます [Aider Polglot](https://unsloth.ai/docs/jp/ji-ben/unsloth-dynamic-2.0-ggufs/unsloth-dynamic-ggufs-on-aider-polyglot)、5-shot MMLU、およびKLダイバージェンス。

つまり、これで次を実行・ファインチューニングできるようになります [量子化LLM](https://unsloth.ai/docs/jp/moderu/tutorials) できる限り精度を保ったまま！ 2.0 GGUFは、llama.cpp、のような多くの推論エンジンで実行できます [Unsloth Studio](https://unsloth.ai/docs/jp/xin-zhe/studio) など。

{% columns %}
{% column %}
[**2026年2月27日更新:**](https://unsloth.ai/docs/jp/moderu/qwen3.5/gguf-benchmarks) **Qwen3.5** がリリースされ、ツール呼び出し用チャットテンプレートの一部問題を修正し、すべてのGGUFについて perplexity と KLダイバージェンスをベンチマークしました。 [ベンチマークを見る！](https://unsloth.ai/docs/jp/moderu/qwen3.5/gguf-benchmarks)

その **主な利点** を使う [Unslothパッケージ](https://github.com/unslothai/unsloth) と量子化版は、主要モデルのバグ修正に積極的に関わっている点です。私たちは次の背後にいるチームと直接協力してきました [Qwen3](https://www.reddit.com/r/LocalLLaMA/comments/1kaodxu/qwen3_unsloth_dynamic_ggufs_128k_context_bug_fixes/), [Meta（Llama 4）](https://github.com/ggml-org/llama.cpp/pull/12889), [Mistral（Devstral）](https://app.gitbook.com/o/HpyELzcNe0topgVLGCZY/s/xhOjnexMCB3dmuQFQ2Zq/~/changes/618/basics/tutorials-how-to-fine-tune-and-run-llms/devstral-how-to-run-and-fine-tune), [Google（Gemma 1〜3）](https://news.ycombinator.com/item?id=39671146) および [Microsoft（Phi-3/4）](https://simonwillison.net/2025/Jan/11/phi-4-bug-fixes)に対し、精度を向上させる修正を提供してきました。
{% endcolumn %}

{% column %}

<figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fj1czqFbUVh9iLLqCTxaS%2Fjengejejr.png?alt=media&#x26;token=1fcff72d-6540-4016-8664-db4f146eb731" alt=""><figcaption></figcaption></figure>
{% endcolumn %}
{% endcolumns %}

{% hint style="success" %}
Unsloth Dynamic GGUFは現在、次で実行できます [Unsloth Studio](https://unsloth.ai/docs/jp/xin-zhe/studio) ✨

<img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FVrLgXwplAMcvkU4owjPk%2F26b%20gif.gif?alt=media&#x26;token=8a569952-c152-435f-b815-c9f295619587" alt="" data-size="original">
{% endhint %}

{% hint style="success" %}
[2025年9月10日更新:](https://unsloth.ai/docs/jp/ji-ben/unsloth-dynamic-2.0-ggufs/unsloth-dynamic-ggufs-on-aider-polyglot) より厳しいベンチマークが欲しいとのことだったので、Aider Polyglotの結果をどうぞ！ 私たちのDynamic 3-bit DeepSeek V3.1 GGUFは **75.6%**&#x3092;記録し、多くのフル精度SOTA LLMを上回っています。 [続きを読む。](https://unsloth.ai/docs/jp/ji-ben/unsloth-dynamic-2.0-ggufs/unsloth-dynamic-ggufs-on-aider-polyglot)

<img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-a114143bdd47add988182aabf9313ab40be38d7d%2Faider%20thinking.png?alt=media" alt="DeepSeek-V3.2 Thinking Aider Benchmarks" data-size="original"><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-b085c16c7f8351308229f1341846cbf1a2617d0a%2Faider%20non.png?alt=media" alt="Llama 4 5-shot MMLU Benchmarks" data-size="original">
{% endhint %}

Benjamin Marie が LiveCodeBench v6、MMLU Pro などで実施した実世界のユースケースベンチマークも確認できます:

<div><figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FhfO2gsbz2lWrZXg3ojyE%2FHCGBTzgboAASv_A.png?alt=media&#x26;token=7d6334ca-4f3c-4946-aacd-d55527375fce" alt="" width="563"><figcaption></figcaption></figure> <figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Ftbfnqq8ppzwFbeqPhnw0%2FHAfMRrrXQAALkQb.png?alt=media&#x26;token=9730d4e1-3d4a-4ae6-92bf-32aa6724ab86" alt="" width="450"><figcaption></figcaption></figure></div>

UnslothのGGUFが、約8GB小さいにもかかわらず、非Unslothの量子化版より優れている様子が分かります。

ベンチマークと評価の詳細な分析はこの下にあります。

### 💡 Dynamic v2.0 の新機能は？

* **GGUF + safetensors のレイヤー選択を刷新:** Unsloth Dynamic 2.0では、より賢く、より広範囲にレイヤーを選択的に量子化するようになりました。選択した一部のレイヤーだけを変更するのではなく、可能なすべてのレイヤーの量子化タイプを動的に調整し、組み合わせはレイヤーやモデルごとに異なります。
* 現在選択されているものと今後アップロードされるすべてのGGUFは、Dynamic 2.0と新しいキャリブレーションデータセットを利用します。このデータセットには1.5Mを超える **トークン** （モデルによる）を含み、高品質で人手によって厳選・クリーンアップされたデータで構成されています。これにより会話型チャット性能を大幅に向上させます。
* 以前は、私たちのDynamic量子化（DeepSeek-R1 1.58-bit GGUF）はMoEアーキテクチャでのみ有効でした。 <mark style="background-color:green;">**Dynamic 2.0量子化は、すべてのモデル（MOEと非MOEの両方）で機能します**</mark>.
* **モデル別量子化:** 各モデルは現在、モデルに合わせて最適化された量子化方式を使用します。例えば、Gemma 3で量子化されるレイヤーはLlama 4のものと大きく異なります。
* 効率を最大化するため、特にApple SiliconおよびARMデバイス向けに、Q4\_NL、Q5.1、Q5.0、Q4.1、Q4.0形式も追加しました。

正確なベンチマークを保証するため、Llama 4とGemma 3の公式に報告された5-shot MMLUスコアに一致する内部評価フレームワークを構築しました。これにより、フル精度 vs. Dynamic v2.0 の公平な比較が可能になりました **QAT** および標準の **imatrix** GGUF量子化版を比較できます。

<div><figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-fd0a92a2bea8efa37b71946ea934a22f00589f40%2Fkldivergence%20graph.png?alt=media" alt="" width="563"><figcaption></figcaption></figure> <figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-76662317725a3b76fb1e5e33b586c86e712bee6f%2F5shotmmlu.png?alt=media" alt="" width="563"><figcaption></figcaption></figure></div>

今後アップロードされるすべてのGGUFはUnsloth Dynamic 2.0を利用し、私たちのDynamic 4-bit safetensor量子化版も将来的にこの恩恵を受けます。

## 📊 なぜKLダイバージェンスなのか？

[精度だけでは足りない](https://arxiv.org/pdf/2407.09141) は、不要なものを選んだ場合でもレイヤーの剪定によって「反転」がどれほど大きく変わるかを示しています。「反転」とは、誤答が正答に変わる、またはその逆を指します。この論文では、レイヤーの剪定や量子化を行ってもMMLUが下がらないことがあると示されていますが、それは一部の誤答が正答に「反転」した可能性があるためです。私たちの目標は元のモデルに一致させることなので、「反転」を測るのは良い指標です。

<div><figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-5a97c101b0df31fb49df20ce4241930897098cf8%2Fimage.png?alt=media" alt=""><figcaption></figcaption></figure> <figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-e4a60354ad8613b6f2361f63fa82c552e00fdda9%2Fimage.png?alt=media" alt=""><figcaption></figcaption></figure></div>

{% hint style="info" %}
**KLダイバージェンス** は **量子化誤差を報告するためのゴールドスタンダードの一つであるべきです** という研究論文「Accuracy is Not All You Need」によるものです。 **perplexity を使うのは誤りです** 出力トークンの値が相殺され得るため、KLDや次のようなより難しいベンチマークを使う必要があります [Aider](https://unsloth.ai/docs/jp/ji-ben/unsloth-dynamic-2.0-ggufs/unsloth-dynamic-ggufs-on-aider-polyglot).
{% endhint %}

論文では、KLダイバージェンスが反転と非常に強く相関していることも示されています。したがって私たちの目標は、量子化のディスク容量をできるだけ増やさずに、平均KLダイバージェンスを下げることです。

## ⚖️ キャリブレーションデータセットの過学習

ほとんどのフレームワークは、Wikipedia記事のテストセットを使って perplexity と KLダイバージェンスを報告します。しかし、Wikipedia関連でもあるキャリブレーションデータセットを使うと量子化版が過学習し、より低い perplexity スコアを得てしまうことに気づきました。私たちは [Calibration\_v3](https://gist.github.com/bartowski1182/eb213dccb3571f863da82e99418f81e8) および [Calibration\_v5](https://gist.github.com/tristandruyen/9e207a95c7d75ddf37525d353e00659c/) データセットを、公平なテストのために使用します。これには他のデータの中に一部のwikitextデータも含まれます。 <mark style="background-color:red;">**また、instructモデルには独自のチャットテンプレートがあり、テキストのみのキャリブレーションデータセットはinstructモデルには効果的ではありません**</mark> （baseモデルでは有効です）。実際、ほとんどのimatrix GGUFは通常こうした問題を抱えたままキャリブレーションされています。その結果、モデル自体がそのドメイン向けに最適化されているため、Wikipediaデータも使用するKLダイバージェンスのベンチマークで自然に良い性能を示します。

公平で制御された評価を保証するため、KLダイバージェンスのベンチマーク時には、チャット性能向けに最適化された自前のキャリブレーションデータセットは使用しません。その代わり、同じ標準的なWikipediaデータセットを使ってテストを行い、Dynamic 2.0手法の性能をベースラインのimatrixアプローチと直接比較できるようにしました。

## :1234: MMLU再現の冒険

* MMLU 5 shotの再現は悪夢のようでした。私たちは <mark style="background-color:red;">**再現できませんでした**</mark> Llama 3.1 (8B) Instruct、Gemma 3 (12B) など多くのモデルでMMLU結果を再現できませんでした。これは <mark style="background-color:yellow;">**微妙な実装上の問題**</mark>が原因でした。例えばLlama 3.1 (8B) は約68.2%のはずですが、誤った実装では <mark style="background-color:red;">**35%の精度**</mark>

<figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-cc2b4b2bc512b3c9bc065250930259b9b9a9fce0%2FMMLU%20differences.png?alt=media" alt="" width="375"><figcaption><p>MMLU実装上の問題</p></figcaption></figure>

* Llama 3.1 (8B) Instructは、単純なMMLU実装ではMMLU 5 shot精度が67.8%です。しかし私たちはLlama **は「A」と「\_A」（前にスペースのあるA）を異なるトークンIDとしてトークン化します**。スペースありとスペースなしの両方のトークンを考慮すると、68.2%になります <mark style="background-color:green;">(+0.4%)</mark>
* 興味深いことに、Eleuther AIの [LLM Harness](https://github.com/EleutherAI/lm-evaluation-harness/blob/main/lm_eval/tasks/llama3/instruct/mmlu/_continuation_template_yaml) でも <mark style="background-color:purple;">**「最良の答えは」**</mark> が質問文に付加されており、Llama 3本来のMMLUベンチマークに従っています。
* 他にも多くの微妙な問題があるため、すべてを制御された環境でベンチマークするために、私たちは [github.com/hendrycks/test](https://github.com/hendrycks/test) を直接調査し、複数のモデルで結果を検証し、報告値と比較しながら、独自のMMLU実装をゼロから設計しました。

## :sparkles: Gemma 3 QAT再現、ベンチマーク

GemmaチームはGemma 3の2つのQAT（量子化対応学習）版を公開しました:

1. Q4\_0 GGUF - 式を用いて全レイヤーをQ4\_0に量子化します `w = q * block_scale` 各ブロックは32個の重みを持ちます。詳細は [llama.cpp wiki ](https://github.com/ggml-org/llama.cpp/wiki/Tensor-Encoding-Schemes)をご覧ください。
2. int4版 - おそらく [TorchAO int4スタイル](https://github.com/pytorch/ao/blob/main/torchao/quantization/README.md)?

私たちはすべてのQ4\_0 GGUF版をベンチマークし、12Bモデルについて広範な実験を行いました。 **12B Q4\_0 QATモデルは67.07%** を記録し、一方でフルbfloat16の12B版は5 shot MMLUで67.15%でした。これは非常に印象的です！ 27Bモデルはほぼ到達しています！

<table><thead><tr><th>指標</th><th>1B</th><th valign="middle">4B</th><th>12B</th><th>27B</th></tr></thead><tbody><tr><td>MMLU 5 shot</td><td>26.12%</td><td valign="middle">55.13%</td><td><mark style="background-color:blue;"><strong>67.07%（67.15% BF16）</strong></mark></td><td><strong>70.64%（71.5% BF16）</strong></td></tr><tr><td>ディスク容量</td><td>0.93GB</td><td valign="middle">2.94GB</td><td><strong>7.52GB</strong></td><td>16.05GB</td></tr><tr><td><mark style="background-color:green;"><strong>効率*</strong></mark></td><td>1.20</td><td valign="middle">10.26</td><td><strong>5.59</strong></td><td>2.84</td></tr></tbody></table>

私たちは新しい **効率指標** を設計しました。これは、モデルの有用性を算出しつつ、そのディスクサイズとMMLU 5 shotスコアも考慮します:

$$
\text{Efficiency} = \frac{\text{MMLU 5 shot score} - 25}{\text{Disk Space GB}}
$$

{% hint style="warning" %}
必要なのは **25を引くこと** です。MMLUにはA、B、C、Dの4つの選択肢があるからです。たとえば、単にランダムに答えを選ぶモデルを作ったとしましょう。それは25%の精度しか得られず、数バイトのディスク容量しか使いません。しかし、明らかにそれは有用なモデルではありません。
{% endhint %}

ベースモデルとのKLダイバージェンスについて、以下に改善を示す表を掲載します。KLダイバージェンスが0に近いほど良いことに注意してください（つまり0はフル精度モデルと同一という意味です）

| 量子化       | ベースラインKLD | GB    | 新KLD     | GB    |
| --------- | --------- | ----- | -------- | ----- |
| IQ1\_S    | 1.035688  | 5.83  | 0.972932 | 6.06  |
| IQ1\_M    | 0.832252  | 6.33  | 0.800049 | 6.51  |
| IQ2\_XXS  | 0.535764  | 7.16  | 0.521039 | 7.31  |
| IQ2\_M    | 0.26554   | 8.84  | 0.258192 | 8.96  |
| Q2\_K\_XL | 0.229671  | 9.78  | 0.220937 | 9.95  |
| Q3\_K\_XL | 0.087845  | 12.51 | 0.080617 | 12.76 |
| Q4\_K\_XL | 0.024916  | 15.41 | 0.023701 | 15.64 |

ディスク容量の増加率とKLダイバージェンスの変化率の比をプロットすると、より明確な利点が見えます！ 私たちの動的2bit Q2\_K\_XLはKLDをかなり削減します（約7.5%）。

<figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-5b352d0449e723556e6e871396c2ee78ae8ec3dc%2Fchart(2).svg?alt=media" alt=""><figcaption></figcaption></figure>

Gemma 3（27B）のMMLU結果の要約表です。以下を参照してください。

1. **私たちの動的4bit版は、QAT版より1%精度が高く、しかも2GB小さいです！**
2. 効率面では、2bit Q2\_K\_XLなどが非常に優れているようです！

| 量子化            | Unsloth   | Unsloth + QAT | ディスクサイズ   | 効率       |
| -------------- | --------- | ------------- | --------- | -------- |
| IQ1\_M         | 48.10     | 47.23         | 6.51      | 3.42     |
| IQ2\_XXS       | 59.20     | 56.57         | 7.31      | 4.32     |
| IQ2\_M         | 66.47     | 64.47         | 8.96      | 4.40     |
| Q2\_K\_XL      | 68.70     | 67.77         | 9.95      | 4.30     |
| Q3\_K\_XL      | 70.87     | 69.50         | 12.76     | 3.49     |
| **Q4\_K\_XL**  | **71.47** | **71.07**     | **15.64** | **2.94** |
| **Google QAT** |           | **70.64**     | **17.2**  | **2.65** |

<details>

<summary><mark style="color:緑;">ここをクリック</mark> で、GoogleのGemma 3（27B）QATベンチマーク全文を確認できます:</summary>

| モデル            | Unsloth   | Unsloth + QAT | ディスクサイズ   | 効率       |
| -------------- | --------- | ------------- | --------- | -------- |
| IQ1\_S         | 41.87     | 43.37         | 6.06      | 3.03     |
| IQ1\_M         | 48.10     | 47.23         | 6.51      | 3.42     |
| IQ2\_XXS       | 59.20     | 56.57         | 7.31      | 4.32     |
| IQ2\_M         | 66.47     | 64.47         | 8.96      | 4.40     |
| Q2\_K          | 68.50     | 67.60         | 9.78      | 4.35     |
| Q2\_K\_XL      | 68.70     | 67.77         | 9.95      | 4.30     |
| IQ3\_XXS       | 68.27     | 67.07         | 10.07     | 4.18     |
| Q3\_K\_M       | 70.70     | 69.77         | 12.51     | 3.58     |
| Q3\_K\_XL      | 70.87     | 69.50         | 12.76     | 3.49     |
| Q4\_K\_M       | 71.23     | 71.00         | 15.41     | 2.98     |
| **Q4\_K\_XL**  | **71.47** | **71.07**     | **15.64** | **2.94** |
| Q5\_K\_M       | 71.77     | 71.23         | 17.95     | 2.58     |
| Q6\_K          | 71.87     | 71.60         | 20.64     | 2.26     |
| Q8\_0          | 71.60     | 71.53         | 26.74     | 1.74     |
| **Google QAT** |           | **70.64**     | **17.2**  | **2.65** |

</details>

## :llama: Llama 4のバグ修正 + 実行

私たちはLlama 4のいくつかのバグ修正も支援しました:

* Llama 4 Scoutは公式リポジトリでRoPE Scalingの設定を変更しました。これを有効にするため、llama.cppの問題解決を支援しました [この変更](https://github.com/ggml-org/llama.cpp/pull/12889)

  <figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-7ff8229dfa96425f50c2c87f9ca988ef9cc99eff%2Fimage.png?alt=media" alt=""><figcaption></figcaption></figure>
* Llama 4のScoutとMaverickの両方におけるQK Normのepsilonは設定ファイル由来であるべきです。つまり1e-06ではなく1e-05を使う必要があります。これらの修正を [llama.cpp](https://github.com/ggml-org/llama.cpp/pull/12889) および [transformers](https://github.com/huggingface/transformers/pull/37418)
* Llama 4チームとvLLMも、QK Normがすべてのヘッドで共有されている問題を独自に修正しました（そうであってはいけません） [ここで](https://github.com/vllm-project/vllm/pull/16311)。MMLU Proの精度は68.58%から71.53%に向上しました。
* [Wolfram Ravenwolf](https://x.com/WolframRvnwlf/status/1909735579564331016) は、llama.cpp経由の私たちのGGUFが、第三者の推論プロバイダよりはるかに高い精度を達成することを示しました。これはおそらく、上で説明した問題の組み合わせに加え、量子化の問題によるものと思われます。

  <figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-76c49d8c8e3e42f7407f431a2cede369f87878e4%2FGoC79hYXwAAPTMs.jpg?alt=media" alt=""><figcaption></figcaption></figure>

グラフに示したように、私たちの4-bit Dynamic QAT量子化は、サイズが小さいにもかかわらず、5-shot MMLUでより良い性能を発揮します。

### Llama 4 Scoutを実行する:

例えばLlama 4 Scoutを実行するには、まずllama.cppをクローンします:

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \\
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

次に、Scout向けの新しいdynamic v 2.0量子化をダウンロードします:

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Llama-4-Scout-17B-16E-Instruct-GGUF",
    local_dir = "unsloth/Llama-4-Scout-17B-16E-Instruct-GGUF",
    allow_patterns = ["*IQ2_XXS*"],
)
```

さあ、推論を実行しましょう！

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \\
    --model unsloth/Llama-4-Scout-17B-16E-Instruct-GGUF/Llama-4-Scout-17B-16E-Instruct-UD-IQ2_XXS.gguf \\
    --threads 32 \\
    --ctx-size 16384 \\
    --n-gpu-layers 99 \\
    -ot ".ffn_.*_exps.=CPU" \\
    --seed 3407 \\
    --prio 3 \\
    --temp 0.6 \\
    --min-p 0.01 \\
    --top-p 0.9 \\
    -no-cnv \\
    --prompt "<|header_start|>user<|header_end|>\n\nFlappy Birdゲームを作成してください。<|eot|><|header_start|>assistant<|header_end|>\n\n"
```

{% endcode %}

{% hint style="success" %}
Llama 4の実行について詳しくはこちら: <https://docs.unsloth.ai/basics/tutorial-how-to-run-and-fine-tune-llama-4>
{% endhint %}


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/jp/ji-ben/unsloth-dynamic-2.0-ggufs.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
