chart-fftQwen3.5 GGUF ベンチマーク

Unsloth Dynamic GGUF の性能、パープレキシティ、KL ダイバージェンス、MXFP4 の分析をご覧ください。

Qwen3.5-35B Unsloth Dynamicの量子化を更新しました 最先端(SOTA)です ほぼすべてのビットでSOTAです。KLダイバージェンスのベンチマークを150回以上実施し、合計で 9TBのGGUFをアップロードしました。すべての研究成果を公開しました。また、 ツール呼び出しの チャットテンプレートの バグを修正しました (すべての量子化アップローダーに影響します)

  • Qwen3.5-35B-A3BのGGUFは新しい修正を使うように更新されました(112B、27Bはまだ変換中です。更新されたら再ダウンロードしてください)

  • Bartowski、Ubergram、AesSedai、Noctrex、および当社の新しいDynamic GGUFsをテストしました

  • 99.9%のKLダイバージェンスでSOTAを示します UD-Q4_K_XL、IQ3_XXSなどのパレートフロンティア上で。

  • MXFP4の廃止 すべてのGGUF量子化から:Q2_K_XL、Q3_K_XL、Q4_K_XLを除外します(純粋なMXFP4_MOEは例外)。

パープレキシティのベンチマーク - 小さいほど良い
パープレキシティのベンチマーク - 小さいほど良い
  • Imatrixは確かにKLDとPPLを低減するのに役立ちますが、推論が5〜10%遅くなるというコストがあります。

  • ssm_out(Mambaレイヤー)やffn_down_expsの量子化は良いアイデアではありません。

1) 一部のテンソルは量子化に非常に敏感です

  • 我々はコミュニティがさらに調査できるように9TB以上の研究成果を公開しました(当社の 実験ページarrow-up-rightに掲載しています)。そこにはKLD指標と我々がテストした121の全設定が含まれます。

  • 各テンソルタイプでビット幅を変化させ、以下に99.9% KLDに対する最良および最悪のパレートフロンティアプロットを生成しました。

  • 量子化に適した項目では、一般にffn_up_expsとffn_gate_expsは3ビットに量子化しても問題ありません。ffn_down_expsはやや敏感です。

  • 最悪の項目では、ssm_outはKLDを劇的に増加させ、ディスク容量の節約はごくわずかです。例えば、ssm_outをq2_kにすると大幅に悪化します。 attn_*の量子化は特に敏感です ハイブリッドアーキテクチャでは、これらをより高精度のままにしておくことが有効です。

テンソルタイプ対ビット(99.9% KLダイバージェンス)

  • すべての量子化レベルを99.9% KLDに対してプロットし、最悪のKLDから最良へと並べています。ffn_*レイヤーを過度に量子化するのは良くありません。

  • しかし、 いくつかのビット幅は良好で、特に3ビットは有望です。- 例えばffn_*(down、up、gate)をiq3_xxs付近に残すことは、ディスク容量と99.9% KLDの変化の観点で最良の妥協のようです。2ビットではより劣化が生じます。

多くのテンソルでMXFP4ははるかに悪い です。- attn_gate、attn_q、ssm_beta、ssm_alphaにMXFP4を使うのは良くなく、むしろQ4_Kの方が良いです。さらにMXFP4は重みあたり4.25ビットを使用するのに対し、Q4_Kは4.5ビットを使用します。選択するならMXFP4よりQ4_Kを使う方が良いです。

ご覧の通りMXFP4は異常に高い

2) Imatrixは非常に良く機能します

  • Imatrixは量子化プロセスの重み付けを適切に行うのに確実に役立ちます。例えば以前はssm_outを2ビットにすると非常に悪かったのですが、imatrixは99.9% KLDを大幅に削減します。

  • Imatrixは一般的に低ビットで効果があり、すべての量子化方式とビット幅で機能します。

I量子化(iq3_xxs、iq2_sなど)は推論を5〜10%遅くします。効率の観点では確かに優れていますが、トレードオフがあります。

タイプ
pp512(約)
tg128(約)

mxfp4

1978.69

90.67

q4_k

1976.44

90.38

q3_k

1972.61

91.36

q6_k

1964.55

90.50

q2_k

1964.20

90.77

q8_0

1964.17

90.33

q5_k

1947.74

90.72

iq3_xxs

2030.94

85.68

iq2_xxs

1997.64

85.79

iq3_s

1990.12

84.37

iq2_xs

1967.85

85.19

iq2_s

1952.50

85.04

3) パープレキシティとKLDは誤解を招くことがある

パープレキシティとKLDはキャリブレーションの影響を強く受けるため誤解を招くことがあります。ほとんどのGGUFは512コンテキストウィンドウでWiki-test上で評価されるため、GGUFのimatrixキャリブレーションセットがウィキペディアに似た512コンテキストのサンプルを含むと結果が大きく変わります(多くのGGUFがそうしています)。そのため当社のGGUFは時にパープレキシティが高く出ることがあり、当社のimatrixデータはむしろ長文コンテキストのチャットやツール呼び出しの例を使用しているためです。

Benjaminの最近のMiniMax‑M2.5の分析は、arrow-up-right パープレキシティとKLDがいかに誤解を招くかの事例を示しています。Unsloth Dynamic IQ2_XXSは実世界の評価(LiveCodeBench v6、MMLU Pro)でAesSedaiのIQ3_Sよりも良好に動作し、サイズも11GB小さいにもかかわらず、AesSedaiのパープレキシティとKLDのベンチマークは逆の結果を示します。(PPL: 0.3552 対 0.2441;KLD: 9.0338 対 8.2849 - 小さいほど良い)。

KLダイバージェンス - AesSedai
パープレキシティ - AesSedai

この不一致は、より低いパープレキシティやKLDが必ずしも実世界での性能向上に結びつかないことを示しています。グラフはまた、UD‑Q4-K‑XLが他のQ4量子化より優れており、約8GB小さいことを示しています。これはパープレキシティやKLDが無意味だということではなく、概略の指標を提供するものです。したがって今後は、コミュニティの参照のために各量子化ごとにパープレキシティとKLDを公開します。

フルベンチマーク

量子化器
量子化レベル
ディスク容量(GB)
PPL
KLD 99.9%
平均KLD

AesSedai

IQ3_S

12.65

6.9152

1.8669

0.0613

AesSedai

IQ4_XS

16.4

6.6447

0.8067

0.0235

AesSedai

Q4_K_M

20.62

6.5665

0.3171

0.0096

AesSedai

Q5_K_M

24.45

6.5356

0.21

0.0058

Ubergarm

Q4_0

19.79

6.5784

0.4829

0.0142

Unsloth

IQ2_XXS

9.09

7.716

4.2221

0.1846

Unsloth

Q2_K_XL

12.04

7.0438

2.9092

0.097

Unsloth

IQ3_XXS

13.12

6.7829

1.5296

0.0501

Unsloth

IQ3_S

14.13

6.7715

1.4193

0.0457

Unsloth

Q3_K_M

15.54

6.732

0.9726

0.0324

Unsloth

Q3_K_XL

16.06

6.7245

0.9539

0.0308

Unsloth

MXFP4_MOE

18.17

6.6

0.7789

0.0272

Unsloth

Q4_K_M

18.49

6.6053

0.5478

0.0192

Unsloth

Q4_K_L

18.82

6.5905

0.4828

0.015

Unsloth

Q4_K_XL

19.17

6.5918

0.4097

0.0137

Unsloth

Q5_K_XL

23.22

6.5489

0.236

0.0069

Unsloth

Q6_K_S

26.56

6.5456

0.2226

0.0065

Unsloth

Q6_K_XL

28.22

6.5392

0.1437

0.0041

Unsloth

Q8_K_XL

36.04

6.5352

0.1033

0.0026

bartowski

Qwen_IQ2_XXS

8.15

9.3427

6.0607

0.3457

bartowski

Qwen_Q2_K_L

11.98

7.5504

3.8095

0.1559

bartowski

Qwen_IQ3_XXS

12.94

7.0938

2.1563

0.0851

bartowski

Qwen_Q3_K_M

14.95

6.772

1.7779

0.0585

bartowski

Qwen_Q3_K_XL

15.97

6.8245

1.7516

0.0627

bartowski

Qwen_IQ4_XS

17.42

6.6234

0.7265

0.0234

bartowski

Qwen_Q4_K_M

19.77

6.6097

0.5771

0.0182

bartowski

Qwen_Q5_K_M

23.11

6.5828

0.3549

0.0106

noctrex

MXFP4_MOE_BF16

20.55

6.5948

0.7939

0.0248

noctrex

MXFP4_MOE_F16

20.55

6.5937

0.7614

0.0247

最終更新

役に立ちましたか?