chart-fftQwen3.5 GGUFベンチマーク

Unsloth Dynamic GGUFの性能と、perplexity、KL divergence、MXFP4の分析をご覧ください。

私たちはすべて更新しました Qwen3.5 Unsloth Dynamic クォンツ 最先端(SOTA)になっています ほぼすべてのビットで。150以上のKLダイバージェンスベンチマークを実施し、合計で 9TBのGGUF。すべての研究成果物をアップロードしました。

また、を修正しました ツール呼び出し チャットテンプレートの問題 (使用場所や出所に関係なく、すべてのクォントアップローダーとタイプに影響します).

circle-check
circle-info

モデルの実行方法やハードウェア要件を確認したいですか?私たちの 推論ガイド.

99.9%のKLダイバージェンスは、パレートフロンティア上で最先端を示しています ための Unsloth Dynamic Q4_K_XL, IQ3_XXS など:

Qwen3.5-122B-A10B ベンチマーク
Qwen3.5-35B-A3B ベンチマーク
  • Imatrixは確実にKLDとPPLを低減するのに役立ちますが、推論が5〜10%遅くなるコストがあります。

  • 私たちは多くの他のプロバイダーと比較してGGUFをテストしました

  • ssm_out(Mambaレイヤー)や ffn_down_exps を量子化するのは良い考えではありません。

  • MXFP4の廃止 すべてのGGUFクォントから:Q2_K_XL、Q3_K_XL、Q4_K_XL。ただし純粋なMXFP4_MOEを除きます。

Benjamin Marie による新しい Qwen3.5-9B GGUF ベンチマーク

1) いくつかのテンソルは量子化に非常に敏感です

  • コミュニティがさらに調査できるように、9TB以上の研究成果物を利用可能にしました(私たちの 実験ページarrow-up-right)。これにはKLD指標と私たちがテストした121の設定すべてが含まれます。

  • 各テンソルタイプでビット幅を変化させ、ベストとワーストのパレートフロンティアプロットを下に生成しました(99.9% KLDと対比)。

  • 量子化するのに良い項目としては、一般に ffn_up_exps と ffn_gate_exps は3ビットに量子化しても問題ないことが多いです。ffn_down_exps はやや敏感です。

  • 最悪の項目では、ssm_out はKLDを劇的に増加させ、ディスク容量の節約はほとんどありません。例えば、ssm_out を q2_k にすると非常に悪化します。 any attn_* の量子化は特に敏感です ハイブリッドアーキテクチャでは、より高精度のままにしておくことがうまく機能します。

99.9% KLダイバージェンスにおけるテンソルタイプ対ビット数

  • すべての量子化レベルを99.9% KLDと比較してプロットし、KLDの悪い順から良い順に並べています。ffn_* レイヤーを過度に量子化するのは良い考えではありません。

  • しかし、 いくつかのビット幅は良好で、特に3ビットは。- 例えば ffn_*(down, up, gate)を概ね iq3_xxs 程度にしておくのがディスク容量と99.9% KLD変化の妥協点として最適なことが多いです。2ビットはより大きな劣化を引き起こします。

多くのテンソルでMXFP4ははるかに悪いです - attn_gate、attn_q、ssm_beta、ssm_alpha に MXFP4 を使用するのは良くなく、むしろ Q4_K の方が良いです。さらに MXFP4 は重みあたり4.25ビットを使用するのに対し、Q4_K は4.5ビットを使用します。選択するなら MXFP4 より Q4_K を使う方が良いです。

ご覧のとおり MXFP4 は異常に高いです

2) Imatrix は非常に効果的です

  • Imatrix は量子化プロセスの重み付けを適切に助けます。例えば以前は ssm_out を2ビットにすると本当に悪かったのですが、imatrix は99.9% KLDを大幅に減らします。

  • Imatrix は一般に低ビットで有効で、すべてのクォントとビット幅で機能します。

Iクォント(iq3_xxs、iq2_s など)は推論を5〜10%遅くしますが、効率性の面では確実に優れており、トレードオフがあります。

タイプ
pp512(≈)
tg128(≈)

mxfp4

1978.69

90.67

q4_k

1976.44

90.38

q3_k

1972.61

91.36

q6_k

1964.55

90.50

q2_k

1964.20

90.77

q8_0

1964.17

90.33

q5_k

1947.74

90.72

iq3_xxs

2030.94

85.68

iq2_xxs

1997.64

85.79

iq3_s

1990.12

84.37

iq2_xs

1967.85

85.19

iq2_s

1952.50

85.04

3) 周辺尤度(Perplexity)とKLDは誤解を招くことがある

周辺尤度とKLDはキャリブレーションの影響を強く受けるため誤解を招くことがあります。ほとんどのGGUFは512コンテキストウィンドウのWiki-testで評価されるため、GGUFのimatrixキャリブレーションセットにWikipedia風や512コンテキストのサンプルが含まれていると結果は大きく変動します(多くのGGUFがそうです)。そのため、私たちのGGUFは時に周辺尤度が高く出ることがあり、私たちのimatrixデータはむしろ長いコンテキストのチャットやツール呼び出しの例を使用しています。

Benjamin の最近の MiniMax‑M2.5 分析arrow-up-right は、周辺尤度とKLDが非常に誤解を招く場合があることを示しています。Unsloth Dynamic IQ2_XXS は実運用評価(LiveCodeBench v6、MMLU Pro)で AesSedai の IQ3_S より優れており、11GB 小さいにもかかわらず良好に機能します。しかし、AesSedai の周辺尤度とKLDベンチマークはその逆を示唆します。(PPL: 0.3552 対 0.2441;KLD: 9.0338 対 8.2849 - 小さい方が良い)

KLダイバージェンス - AesSedai
周辺尤度(Perplexity) - AesSedai

この不一致は、周辺尤度やKLDが低いことが必ずしも実際のパフォーマンス向上に直結するわけではないことを示しています。グラフはまた、UD‑Q4-K‑XL が他の Q4 クォントを上回り、かつ約8GB小さいことを示しています。これは周辺尤度やKLDが無意味というわけではなく、粗い指標を提供するに過ぎません。今後はコミュニティの参考になるよう、すべてのクォントについて周辺尤度とKLDを公開します。

4) 2026年3月5日アップデート - より高いロバストネス

Qwen3.5 MoE 向けの量子化手法をさらに強化し、最大KLDを直接削減しました。一般的には99.9%が使用されますが、極端な外れ値に対しては最大KLDが有用です。新しい手法は一般に3月5日以前のアップデートと比べて最大KLDをかなり下げます。

クォント
旧サイズ(GB)
新サイズ(GB)
旧 最大KLD
新 最大KLD

UD-Q2_K_XL

12.0

11.3

8.237

8.155

UD-Q3_K_XL

16.1

15.5

5.505

5.146

UD-Q4_K_XL

19.2

20.7 (+7.8%)

5.894

2.877 (-51%)

UD-Q5_K_XL

23.2

24.6 (+6%)

5.536

3.210 (-42%)

完全なベンチマーク

量子化器
量子化レベル
ディスク容量(GB)
PPL
KLD 99.9%
平均KLD

AesSedai

IQ3_S

12.65

6.9152

1.8669

0.0613

AesSedai

IQ4_XS

16.4

6.6447

0.8067

0.0235

AesSedai

Q4_K_M

20.62

6.5665

0.3171

0.0096

AesSedai

Q5_K_M

24.45

6.5356

0.21

0.0058

Ubergarm

Q4_0

19.79

6.5784

0.4829

0.0142

Unsloth

IQ2_XXS

9.09

7.716

4.2221

0.1846

Unsloth

Q2_K_XL

12.04

7.0438

2.9092

0.097

Unsloth

IQ3_XXS

13.12

6.7829

1.5296

0.0501

Unsloth

IQ3_S

14.13

6.7715

1.4193

0.0457

Unsloth

Q3_K_M

15.54

6.732

0.9726

0.0324

Unsloth

Q3_K_XL

16.06

6.7245

0.9539

0.0308

Unsloth

MXFP4_MOE

18.17

6.6

0.7789

0.0272

Unsloth

Q4_K_M

18.49

6.6053

0.5478

0.0192

Unsloth

Q4_K_L

18.82

6.5905

0.4828

0.015

Unsloth

Q4_K_XL

19.17

6.5918

0.4097

0.0137

Unsloth

Q5_K_XL

23.22

6.5489

0.236

0.0069

Unsloth

Q6_K_S

26.56

6.5456

0.2226

0.0065

Unsloth

Q6_K_XL

28.22

6.5392

0.1437

0.0041

Unsloth

Q8_K_XL

36.04

6.5352

0.1033

0.0026

bartowski

Qwen_IQ2_XXS

8.15

9.3427

6.0607

0.3457

bartowski

Qwen_Q2_K_L

11.98

7.5504

3.8095

0.1559

bartowski

Qwen_IQ3_XXS

12.94

7.0938

2.1563

0.0851

bartowski

Qwen_Q3_K_M

14.95

6.772

1.7779

0.0585

bartowski

Qwen_Q3_K_XL

15.97

6.8245

1.7516

0.0627

bartowski

Qwen_IQ4_XS

17.42

6.6234

0.7265

0.0234

bartowski

Qwen_Q4_K_M

19.77

6.6097

0.5771

0.0182

bartowski

Qwen_Q5_K_M

23.11

6.5828

0.3549

0.0106

noctrex

MXFP4_MOE_BF16

20.55

6.5948

0.7939

0.0248

noctrex

MXFP4_MOE_F16

20.55

6.5937

0.7614

0.0247

最終更新

役に立ちましたか?