# Qwen3.5 GGUFベンチマーク私たちはすべて更新しました [Qwen3.5](/docs/jp/moderu/qwen3.5.md) Unsloth Dynamic クォンツ **最先端（SOTA）になっています** ほぼすべてのビットで。150以上のKLダイバージェンスベンチマークを実施し、合計で **9TBのGGUF**。すべての研究成果物をアップロードしました。また、を修正しました **ツール呼び出し** チャットテンプレートの問題 **（使用場所や出所に関係なく、すべてのクォントアップローダーとタイプに影響します）**. {% hint style="success" %} [**3月5日アップデート**](#id-4-march-5th-2026-update-more-robustness)**:** Qwen3.5-を再ダウンロードしてください**35B**, **27B、** **122B** および **397B。** * すべてのGGUFは現在、 **改良された量子化** アルゴリズムで更新されています。 * すべて私たちの **新しいimatrixデータ**を使用しています。チャット、コーディング、長いコンテキスト、ツール呼び出しのユースケースでいくつか改善が見られます。 **新しいベンチマーク** Qwen3.5-122B-A10B と 35-A3B の新しいベンチマークが公開されました！ {% endhint %} {% hint style="info" %} モデルの実行方法やハードウェア要件を確認したいですか？私たちの [推論ガイド](/docs/jp/moderu/qwen3.5.md). {% endhint %} **99.9%のKLダイバージェンスは、パレートフロンティア上で最先端を示しています** ための [Unsloth Dynamic](/docs/jp/ji-ben/unsloth-dynamic-2.0-ggufs.md) `Q4_K_XL`, `IQ3_XXS` など：

* Imatrixは確実にKLDとPPLを低減するのに役立ちますが、推論が5〜10％遅くなるコストがあります。 * 私たちは多くの他のプロバイダーと比較してGGUFをテストしました * ssm\_out（Mambaレイヤー）や ffn\_down\_exps を量子化するのは良い考えではありません。 * **MXFP4の廃止** すべてのGGUFクォントから：Q2\_K\_XL、Q3\_K\_XL、Q4\_K\_XL。ただし純粋なMXFP4\_MOEを除きます。 | [Qwen3.5-35B-A3B](https://huggingface.co/unsloth/Qwen3.5-35B-A3B-GGUF) | [Qwen3.5-27B](https://huggingface.co/unsloth/Qwen3.5-27B-GGUF) | [Qwen3.5-122B-A10B](https://huggingface.co/unsloth/Qwen3.5-122B-A10B-GGUF) | [Qwen3.5-397B-A17B](https://huggingface.co/unsloth/Qwen3.5-397B-A17B-GGUF) | | ---------------------------------------------------------------------- | -------------------------------------------------------------- | -------------------------------------------------------------------------- | -------------------------------------------------------------------------- |

Benjamin Marie による新しい Qwen3.5-9B GGUF ベンチマーク

### 1) **いくつかのテンソルは量子化に非常に敏感です** * コミュニティがさらに調査できるように、9TB以上の研究成果物を利用可能にしました（私たちの [実験ページ](https://huggingface.co/unsloth/Qwen3.5-35B-A3B-Experiments-GGUF)）。これにはKLD指標と私たちがテストした121の設定すべてが含まれます。 * 各テンソルタイプでビット幅を変化させ、ベストとワーストのパレートフロンティアプロットを下に生成しました（99.9% KLDと対比）。 * 量子化するのに良い項目としては、一般に ffn\_up\_exps と ffn\_gate\_exps は3ビットに量子化しても問題ないことが多いです。ffn\_down\_exps はやや敏感です。 * 最悪の項目では、ssm\_out はKLDを劇的に増加させ、ディスク容量の節約はほとんどありません。例えば、ssm\_out を q2\_k にすると非常に悪化します。 **any attn\_\* の量子化は特に敏感です** ハイブリッドアーキテクチャでは、より高精度のままにしておくことがうまく機能します。

{% columns %} {% column %} **99.9% KLダイバージェンスにおけるテンソルタイプ対ビット数** * すべての量子化レベルを99.9% KLDと比較してプロットし、KLDの悪い順から良い順に並べています。ffn\_\* レイヤーを過度に量子化するのは良い考えではありません。 * しかし、 **いくつかのビット幅は良好で、特に3ビットは**。- 例えば ffn\_\*（down, up, gate）を概ね iq3\_xxs 程度にしておくのがディスク容量と99.9% KLD変化の妥協点として最適なことが多いです。2ビットはより大きな劣化を引き起こします。 {% endcolumn %} {% column %}

{% endcolumn %} {% endcolumns %} **多くのテンソルでMXFP4ははるかに悪いです** - attn\_gate、attn\_q、ssm\_beta、ssm\_alpha に MXFP4 を使用するのは良くなく、むしろ Q4\_K の方が良いです。さらに MXFP4 は重みあたり4.25ビットを使用するのに対し、Q4\_K は4.5ビットを使用します。選択するなら MXFP4 より Q4\_K を使う方が良いです。

### **2) Imatrix は非常に効果的です** * Imatrix は量子化プロセスの重み付けを適切に助けます。例えば以前は ssm\_out を2ビットにすると本当に悪かったのですが、imatrix は99.9% KLDを大幅に減らします。 * Imatrix は一般に低ビットで有効で、すべてのクォントとビット幅で機能します。 * ```

``` Iクォント（iq3\_xxs、iq2\_s など）は推論を5〜10%遅くしますが、効率性の面では確実に優れており、トレードオフがあります。 | タイプ | pp512（≈） | tg128（≈） | | -------- | -------- | -------- | | mxfp4 | 1978.69 | 90.67 | | q4\_k | 1976.44 | 90.38 | | q3\_k | 1972.61 | 91.36 | | q6\_k | 1964.55 | 90.50 | | q2\_k | 1964.20 | 90.77 | | q8\_0 | 1964.17 | 90.33 | | q5\_k | 1947.74 | 90.72 | | iq3\_xxs | 2030.94 | 85.68 | | iq2\_xxs | 1997.64 | 85.79 | | iq3\_s | 1990.12 | 84.37 | | iq2\_xs | 1967.85 | 85.19 | | iq2\_s | 1952.50 | 85.04 | ### **3) 周辺尤度（Perplexity）とKLDは誤解を招くことがある** 周辺尤度とKLDはキャリブレーションの影響を強く受けるため誤解を招くことがあります。ほとんどのGGUFは512コンテキストウィンドウのWiki-testで評価されるため、GGUFのimatrixキャリブレーションセットにWikipedia風や512コンテキストのサンプルが含まれていると結果は大きく変動します（多くのGGUFがそうです）。そのため、私たちのGGUFは時に周辺尤度が高く出ることがあり、私たちのimatrixデータはむしろ長いコンテキストのチャットやツール呼び出しの例を使用しています。

[Benjamin の最近の MiniMax‑M2.5 分析](https://x.com/bnjmn_marie/status/2027043753484021810) は、周辺尤度とKLDが非常に誤解を招く場合があることを示しています。Unsloth Dynamic IQ2\_XXS は実運用評価（LiveCodeBench v6、MMLU Pro）で AesSedai の IQ3\_S より優れており、11GB 小さいにもかかわらず良好に機能します。しかし、AesSedai の周辺尤度とKLDベンチマークはその逆を示唆します。（PPL: 0.3552 対 0.2441；KLD: 9.0338 対 8.2849 - 小さい方が良い）

この不一致は、周辺尤度やKLDが低いことが必ずしも実際のパフォーマンス向上に直結するわけではないことを示しています。グラフはまた、UD‑Q4-K‑XL が他の Q4 クォントを上回り、かつ約8GB小さいことを示しています。これは周辺尤度やKLDが無意味というわけではなく、粗い指標を提供するに過ぎません。今後はコミュニティの参考になるよう、すべてのクォントについて周辺尤度とKLDを公開します。 ### 4) 2026年3月5日アップデート - より高いロバストネス Qwen3.5 MoE 向けの量子化手法をさらに強化し、最大KLDを直接削減しました。一般的には99.9%が使用されますが、極端な外れ値に対しては最大KLDが有用です。新しい手法は一般に3月5日以前のアップデートと比べて最大KLDをかなり下げます。

| クォント | 旧サイズ（GB） | 新サイズ（GB） | 旧最大KLD | 新最大KLD | | ------------ | ---------- | ------------ | ------- | ------------------ | | UD-Q2\_K\_XL | 12.0 | ***11.3*** | 8.237 | ***8.155*** | | UD-Q3\_K\_XL | 16.1 | ***15.5*** | 5.505 | ***5.146*** | | UD-Q4\_K\_XL | ***19.2*** | 20.7 (+7.8%) | 5.894 | ***2.877 (-51%)*** | | UD-Q5\_K\_XL | ***23.2*** | 24.6 (+6%) | 5.536 | ***3.210 (-42%)*** | ### 完全なベンチマーク | 量子化器 | 量子化レベル | ディスク容量（GB） | PPL | KLD 99.9% | 平均KLD | | --------- | ---------------- | ---------- | ------ | --------- | ------ | | AesSedai | IQ3\_S | 12.65 | 6.9152 | 1.8669 | 0.0613 | | AesSedai | IQ4\_XS | 16.4 | 6.6447 | 0.8067 | 0.0235 | | AesSedai | Q4\_K\_M | 20.62 | 6.5665 | 0.3171 | 0.0096 | | AesSedai | Q5\_K\_M | 24.45 | 6.5356 | 0.21 | 0.0058 | | Ubergarm | Q4\_0 | 19.79 | 6.5784 | 0.4829 | 0.0142 | | Unsloth | IQ2\_XXS | 9.09 | 7.716 | 4.2221 | 0.1846 | | Unsloth | Q2\_K\_XL | 12.04 | 7.0438 | 2.9092 | 0.097 | | Unsloth | IQ3\_XXS | 13.12 | 6.7829 | 1.5296 | 0.0501 | | Unsloth | IQ3\_S | 14.13 | 6.7715 | 1.4193 | 0.0457 | | Unsloth | Q3\_K\_M | 15.54 | 6.732 | 0.9726 | 0.0324 | | Unsloth | Q3\_K\_XL | 16.06 | 6.7245 | 0.9539 | 0.0308 | | Unsloth | MXFP4\_MOE | 18.17 | 6.6 | 0.7789 | 0.0272 | | Unsloth | Q4\_K\_M | 18.49 | 6.6053 | 0.5478 | 0.0192 | | Unsloth | Q4\_K\_L | 18.82 | 6.5905 | 0.4828 | 0.015 | | Unsloth | Q4\_K\_XL | 19.17 | 6.5918 | 0.4097 | 0.0137 | | Unsloth | Q5\_K\_XL | 23.22 | 6.5489 | 0.236 | 0.0069 | | Unsloth | Q6\_K\_S | 26.56 | 6.5456 | 0.2226 | 0.0065 | | Unsloth | Q6\_K\_XL | 28.22 | 6.5392 | 0.1437 | 0.0041 | | Unsloth | Q8\_K\_XL | 36.04 | 6.5352 | 0.1033 | 0.0026 | | bartowski | Qwen\_IQ2\_XXS | 8.15 | 9.3427 | 6.0607 | 0.3457 | | bartowski | Qwen\_Q2\_K\_L | 11.98 | 7.5504 | 3.8095 | 0.1559 | | bartowski | Qwen\_IQ3\_XXS | 12.94 | 7.0938 | 2.1563 | 0.0851 | | bartowski | Qwen\_Q3\_K\_M | 14.95 | 6.772 | 1.7779 | 0.0585 | | bartowski | Qwen\_Q3\_K\_XL | 15.97 | 6.8245 | 1.7516 | 0.0627 | | bartowski | Qwen\_IQ4\_XS | 17.42 | 6.6234 | 0.7265 | 0.0234 | | bartowski | Qwen\_Q4\_K\_M | 19.77[^1] | 6.6097 | 0.5771 | 0.0182 | | bartowski | Qwen\_Q5\_K\_M | 23.11 | 6.5828 | 0.3549 | 0.0106 | | noctrex | MXFP4\_MOE\_BF16 | 20.55 | 6.5948 | 0.7939 | 0.0248 | | noctrex | MXFP4\_MOE\_F16 | 20.55 | 6.5937 | 0.7614 | 0.0247 | [^1]: Bartowski の Q4\_K\_M は Unsloth のものより1GB大きいです --- # Agent Instructions: Querying This Documentation If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question. Perform an HTTP GET request on the current page URL with the `ask` query parameter: ``` GET https://unsloth.ai/docs/jp/moderu/qwen3.5/gguf-benchmarks.md?ask= ``` The question should be specific, self-contained, and written in natural language. The response will contain a direct answer to the question and relevant excerpts and sources from the documentation. Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.