Qwen3.5 GGUFベンチマーク
Unsloth Dynamic GGUFの性能と、perplexity、KL divergence、MXFP4の分析をご覧ください。
私たちはすべて更新しました Qwen3.5 Unsloth Dynamic クォンツ 最先端(SOTA)になっています ほぼすべてのビットで。150以上のKLダイバージェンスベンチマークを実施し、合計で 9TBのGGUF。すべての研究成果物をアップロードしました。
また、を修正しました ツール呼び出し チャットテンプレートの問題 (使用場所や出所に関係なく、すべてのクォントアップローダーとタイプに影響します).
3月5日アップデート: Qwen3.5-を再ダウンロードしてください35B, 27B、 122B および 397B。
すべてのGGUFは現在、 改良された量子化 アルゴリズムで更新されています。
すべて私たちの 新しいimatrixデータを使用しています。チャット、コーディング、長いコンテキスト、ツール呼び出しのユースケースでいくつか改善が見られます。
新しいベンチマーク Qwen3.5-122B-A10B と 35-A3B の新しいベンチマークが公開されました!
モデルの実行方法やハードウェア要件を確認したいですか?私たちの 推論ガイド.
99.9%のKLダイバージェンスは、パレートフロンティア上で最先端を示しています ための Unsloth Dynamic Q4_K_XL, IQ3_XXS など:


Imatrixは確実にKLDとPPLを低減するのに役立ちますが、推論が5〜10%遅くなるコストがあります。
私たちは多くの他のプロバイダーと比較してGGUFをテストしました
ssm_out(Mambaレイヤー)や ffn_down_exps を量子化するのは良い考えではありません。
MXFP4の廃止 すべてのGGUFクォントから:Q2_K_XL、Q3_K_XL、Q4_K_XL。ただし純粋なMXFP4_MOEを除きます。

1) いくつかのテンソルは量子化に非常に敏感です
コミュニティがさらに調査できるように、9TB以上の研究成果物を利用可能にしました(私たちの 実験ページ)。これにはKLD指標と私たちがテストした121の設定すべてが含まれます。
各テンソルタイプでビット幅を変化させ、ベストとワーストのパレートフロンティアプロットを下に生成しました(99.9% KLDと対比)。
量子化するのに良い項目としては、一般に ffn_up_exps と ffn_gate_exps は3ビットに量子化しても問題ないことが多いです。ffn_down_exps はやや敏感です。
最悪の項目では、ssm_out はKLDを劇的に増加させ、ディスク容量の節約はほとんどありません。例えば、ssm_out を q2_k にすると非常に悪化します。 any attn_* の量子化は特に敏感です ハイブリッドアーキテクチャでは、より高精度のままにしておくことがうまく機能します。

99.9% KLダイバージェンスにおけるテンソルタイプ対ビット数
すべての量子化レベルを99.9% KLDと比較してプロットし、KLDの悪い順から良い順に並べています。ffn_* レイヤーを過度に量子化するのは良い考えではありません。
しかし、 いくつかのビット幅は良好で、特に3ビットは。- 例えば ffn_*(down, up, gate)を概ね iq3_xxs 程度にしておくのがディスク容量と99.9% KLD変化の妥協点として最適なことが多いです。2ビットはより大きな劣化を引き起こします。

多くのテンソルでMXFP4ははるかに悪いです - attn_gate、attn_q、ssm_beta、ssm_alpha に MXFP4 を使用するのは良くなく、むしろ Q4_K の方が良いです。さらに MXFP4 は重みあたり4.25ビットを使用するのに対し、Q4_K は4.5ビットを使用します。選択するなら MXFP4 より Q4_K を使う方が良いです。


2) Imatrix は非常に効果的です
Imatrix は量子化プロセスの重み付けを適切に助けます。例えば以前は ssm_out を2ビットにすると本当に悪かったのですが、imatrix は99.9% KLDを大幅に減らします。
Imatrix は一般に低ビットで有効で、すべてのクォントとビット幅で機能します。

Iクォント(iq3_xxs、iq2_s など)は推論を5〜10%遅くしますが、効率性の面では確実に優れており、トレードオフがあります。
mxfp4
1978.69
90.67
q4_k
1976.44
90.38
q3_k
1972.61
91.36
q6_k
1964.55
90.50
q2_k
1964.20
90.77
q8_0
1964.17
90.33
q5_k
1947.74
90.72
iq3_xxs
2030.94
85.68
iq2_xxs
1997.64
85.79
iq3_s
1990.12
84.37
iq2_xs
1967.85
85.19
iq2_s
1952.50
85.04
3) 周辺尤度(Perplexity)とKLDは誤解を招くことがある
周辺尤度とKLDはキャリブレーションの影響を強く受けるため誤解を招くことがあります。ほとんどのGGUFは512コンテキストウィンドウのWiki-testで評価されるため、GGUFのimatrixキャリブレーションセットにWikipedia風や512コンテキストのサンプルが含まれていると結果は大きく変動します(多くのGGUFがそうです)。そのため、私たちのGGUFは時に周辺尤度が高く出ることがあり、私たちのimatrixデータはむしろ長いコンテキストのチャットやツール呼び出しの例を使用しています。

Benjamin の最近の MiniMax‑M2.5 分析 は、周辺尤度とKLDが非常に誤解を招く場合があることを示しています。Unsloth Dynamic IQ2_XXS は実運用評価(LiveCodeBench v6、MMLU Pro)で AesSedai の IQ3_S より優れており、11GB 小さいにもかかわらず良好に機能します。しかし、AesSedai の周辺尤度とKLDベンチマークはその逆を示唆します。(PPL: 0.3552 対 0.2441;KLD: 9.0338 対 8.2849 - 小さい方が良い)


この不一致は、周辺尤度やKLDが低いことが必ずしも実際のパフォーマンス向上に直結するわけではないことを示しています。グラフはまた、UD‑Q4-K‑XL が他の Q4 クォントを上回り、かつ約8GB小さいことを示しています。これは周辺尤度やKLDが無意味というわけではなく、粗い指標を提供するに過ぎません。今後はコミュニティの参考になるよう、すべてのクォントについて周辺尤度とKLDを公開します。
4) 2026年3月5日アップデート - より高いロバストネス
Qwen3.5 MoE 向けの量子化手法をさらに強化し、最大KLDを直接削減しました。一般的には99.9%が使用されますが、極端な外れ値に対しては最大KLDが有用です。新しい手法は一般に3月5日以前のアップデートと比べて最大KLDをかなり下げます。

UD-Q2_K_XL
12.0
11.3
8.237
8.155
UD-Q3_K_XL
16.1
15.5
5.505
5.146
UD-Q4_K_XL
19.2
20.7 (+7.8%)
5.894
2.877 (-51%)
UD-Q5_K_XL
23.2
24.6 (+6%)
5.536
3.210 (-42%)
完全なベンチマーク
AesSedai
IQ3_S
12.65
6.9152
1.8669
0.0613
AesSedai
IQ4_XS
16.4
6.6447
0.8067
0.0235
AesSedai
Q4_K_M
20.62
6.5665
0.3171
0.0096
AesSedai
Q5_K_M
24.45
6.5356
0.21
0.0058
Ubergarm
Q4_0
19.79
6.5784
0.4829
0.0142
Unsloth
IQ2_XXS
9.09
7.716
4.2221
0.1846
Unsloth
Q2_K_XL
12.04
7.0438
2.9092
0.097
Unsloth
IQ3_XXS
13.12
6.7829
1.5296
0.0501
Unsloth
IQ3_S
14.13
6.7715
1.4193
0.0457
Unsloth
Q3_K_M
15.54
6.732
0.9726
0.0324
Unsloth
Q3_K_XL
16.06
6.7245
0.9539
0.0308
Unsloth
MXFP4_MOE
18.17
6.6
0.7789
0.0272
Unsloth
Q4_K_M
18.49
6.6053
0.5478
0.0192
Unsloth
Q4_K_L
18.82
6.5905
0.4828
0.015
Unsloth
Q4_K_XL
19.17
6.5918
0.4097
0.0137
Unsloth
Q5_K_XL
23.22
6.5489
0.236
0.0069
Unsloth
Q6_K_S
26.56
6.5456
0.2226
0.0065
Unsloth
Q6_K_XL
28.22
6.5392
0.1437
0.0041
Unsloth
Q8_K_XL
36.04
6.5352
0.1033
0.0026
bartowski
Qwen_IQ2_XXS
8.15
9.3427
6.0607
0.3457
bartowski
Qwen_Q2_K_L
11.98
7.5504
3.8095
0.1559
bartowski
Qwen_IQ3_XXS
12.94
7.0938
2.1563
0.0851
bartowski
Qwen_Q3_K_M
14.95
6.772
1.7779
0.0585
bartowski
Qwen_Q3_K_XL
15.97
6.8245
1.7516
0.0627
bartowski
Qwen_IQ4_XS
17.42
6.6234
0.7265
0.0234
bartowski
Qwen_Q4_K_M
19.77
6.6097
0.5771
0.0182
bartowski
Qwen_Q5_K_M
23.11
6.5828
0.3549
0.0106
noctrex
MXFP4_MOE_BF16
20.55
6.5948
0.7939
0.0248
noctrex
MXFP4_MOE_F16
20.55
6.5937
0.7614
0.0247
最終更新
役に立ちましたか?

