Qwen3.5 GGUF ベンチマーク
Unsloth Dynamic GGUF の性能、パープレキシティ、KL ダイバージェンス、MXFP4 の分析をご覧ください。
Qwen3.5-35B Unsloth Dynamicの量子化を更新しました 最先端(SOTA)です ほぼすべてのビットでSOTAです。KLダイバージェンスのベンチマークを150回以上実施し、合計で 9TBのGGUFをアップロードしました。すべての研究成果を公開しました。また、 ツール呼び出しの チャットテンプレートの バグを修正しました (すべての量子化アップローダーに影響します)
Qwen3.5-35B-A3BのGGUFは新しい修正を使うように更新されました(112B、27Bはまだ変換中です。更新されたら再ダウンロードしてください)
Bartowski、Ubergram、AesSedai、Noctrex、および当社の新しいDynamic GGUFsをテストしました
99.9%のKLダイバージェンスでSOTAを示します UD-Q4_K_XL、IQ3_XXSなどのパレートフロンティア上で。
MXFP4の廃止 すべてのGGUF量子化から:Q2_K_XL、Q3_K_XL、Q4_K_XLを除外します(純粋なMXFP4_MOEは例外)。


Imatrixは確かにKLDとPPLを低減するのに役立ちますが、推論が5〜10%遅くなるというコストがあります。
ssm_out(Mambaレイヤー)やffn_down_expsの量子化は良いアイデアではありません。
1) 一部のテンソルは量子化に非常に敏感です
我々はコミュニティがさらに調査できるように9TB以上の研究成果を公開しました(当社の 実験ページに掲載しています)。そこにはKLD指標と我々がテストした121の全設定が含まれます。
各テンソルタイプでビット幅を変化させ、以下に99.9% KLDに対する最良および最悪のパレートフロンティアプロットを生成しました。
量子化に適した項目では、一般にffn_up_expsとffn_gate_expsは3ビットに量子化しても問題ありません。ffn_down_expsはやや敏感です。
最悪の項目では、ssm_outはKLDを劇的に増加させ、ディスク容量の節約はごくわずかです。例えば、ssm_outをq2_kにすると大幅に悪化します。 attn_*の量子化は特に敏感です ハイブリッドアーキテクチャでは、これらをより高精度のままにしておくことが有効です。

テンソルタイプ対ビット(99.9% KLダイバージェンス)
すべての量子化レベルを99.9% KLDに対してプロットし、最悪のKLDから最良へと並べています。ffn_*レイヤーを過度に量子化するのは良くありません。
しかし、 いくつかのビット幅は良好で、特に3ビットは有望です。- 例えばffn_*(down、up、gate)をiq3_xxs付近に残すことは、ディスク容量と99.9% KLDの変化の観点で最良の妥協のようです。2ビットではより劣化が生じます。

多くのテンソルでMXFP4ははるかに悪い です。- attn_gate、attn_q、ssm_beta、ssm_alphaにMXFP4を使うのは良くなく、むしろQ4_Kの方が良いです。さらにMXFP4は重みあたり4.25ビットを使用するのに対し、Q4_Kは4.5ビットを使用します。選択するならMXFP4よりQ4_Kを使う方が良いです。


2) Imatrixは非常に良く機能します
Imatrixは量子化プロセスの重み付けを適切に行うのに確実に役立ちます。例えば以前はssm_outを2ビットにすると非常に悪かったのですが、imatrixは99.9% KLDを大幅に削減します。
Imatrixは一般的に低ビットで効果があり、すべての量子化方式とビット幅で機能します。

I量子化(iq3_xxs、iq2_sなど)は推論を5〜10%遅くします。効率の観点では確かに優れていますが、トレードオフがあります。
mxfp4
1978.69
90.67
q4_k
1976.44
90.38
q3_k
1972.61
91.36
q6_k
1964.55
90.50
q2_k
1964.20
90.77
q8_0
1964.17
90.33
q5_k
1947.74
90.72
iq3_xxs
2030.94
85.68
iq2_xxs
1997.64
85.79
iq3_s
1990.12
84.37
iq2_xs
1967.85
85.19
iq2_s
1952.50
85.04
3) パープレキシティとKLDは誤解を招くことがある
パープレキシティとKLDはキャリブレーションの影響を強く受けるため誤解を招くことがあります。ほとんどのGGUFは512コンテキストウィンドウでWiki-test上で評価されるため、GGUFのimatrixキャリブレーションセットがウィキペディアに似た512コンテキストのサンプルを含むと結果が大きく変わります(多くのGGUFがそうしています)。そのため当社のGGUFは時にパープレキシティが高く出ることがあり、当社のimatrixデータはむしろ長文コンテキストのチャットやツール呼び出しの例を使用しているためです。

Benjaminの最近のMiniMax‑M2.5の分析は、 パープレキシティとKLDがいかに誤解を招くかの事例を示しています。Unsloth Dynamic IQ2_XXSは実世界の評価(LiveCodeBench v6、MMLU Pro)でAesSedaiのIQ3_Sよりも良好に動作し、サイズも11GB小さいにもかかわらず、AesSedaiのパープレキシティとKLDのベンチマークは逆の結果を示します。(PPL: 0.3552 対 0.2441;KLD: 9.0338 対 8.2849 - 小さいほど良い)。


この不一致は、より低いパープレキシティやKLDが必ずしも実世界での性能向上に結びつかないことを示しています。グラフはまた、UD‑Q4-K‑XLが他のQ4量子化より優れており、約8GB小さいことを示しています。これはパープレキシティやKLDが無意味だということではなく、概略の指標を提供するものです。したがって今後は、コミュニティの参照のために各量子化ごとにパープレキシティとKLDを公開します。
フルベンチマーク
AesSedai
IQ3_S
12.65
6.9152
1.8669
0.0613
AesSedai
IQ4_XS
16.4
6.6447
0.8067
0.0235
AesSedai
Q4_K_M
20.62
6.5665
0.3171
0.0096
AesSedai
Q5_K_M
24.45
6.5356
0.21
0.0058
Ubergarm
Q4_0
19.79
6.5784
0.4829
0.0142
Unsloth
IQ2_XXS
9.09
7.716
4.2221
0.1846
Unsloth
Q2_K_XL
12.04
7.0438
2.9092
0.097
Unsloth
IQ3_XXS
13.12
6.7829
1.5296
0.0501
Unsloth
IQ3_S
14.13
6.7715
1.4193
0.0457
Unsloth
Q3_K_M
15.54
6.732
0.9726
0.0324
Unsloth
Q3_K_XL
16.06
6.7245
0.9539
0.0308
Unsloth
MXFP4_MOE
18.17
6.6
0.7789
0.0272
Unsloth
Q4_K_M
18.49
6.6053
0.5478
0.0192
Unsloth
Q4_K_L
18.82
6.5905
0.4828
0.015
Unsloth
Q4_K_XL
19.17
6.5918
0.4097
0.0137
Unsloth
Q5_K_XL
23.22
6.5489
0.236
0.0069
Unsloth
Q6_K_S
26.56
6.5456
0.2226
0.0065
Unsloth
Q6_K_XL
28.22
6.5392
0.1437
0.0041
Unsloth
Q8_K_XL
36.04
6.5352
0.1033
0.0026
bartowski
Qwen_IQ2_XXS
8.15
9.3427
6.0607
0.3457
bartowski
Qwen_Q2_K_L
11.98
7.5504
3.8095
0.1559
bartowski
Qwen_IQ3_XXS
12.94
7.0938
2.1563
0.0851
bartowski
Qwen_Q3_K_M
14.95
6.772
1.7779
0.0585
bartowski
Qwen_Q3_K_XL
15.97
6.8245
1.7516
0.0627
bartowski
Qwen_IQ4_XS
17.42
6.6234
0.7265
0.0234
bartowski
Qwen_Q4_K_M
19.77
6.6097
0.5771
0.0182
bartowski
Qwen_Q5_K_M
23.11
6.5828
0.3549
0.0106
noctrex
MXFP4_MOE_BF16
20.55
6.5948
0.7939
0.0248
noctrex
MXFP4_MOE_F16
20.55
6.5937
0.7614
0.0247
最終更新
役に立ちましたか?

