chart-fftQwen3.5 GGUF-Benchmarks

Sieh, wie Unsloth Dynamic GGUFs abschneiden und Analysen zu Perplexity, KL-Divergenz und MXFP4.

Wir haben Qwen3.5-35B Unsloth Dynamic-Quants aktualisiert und sind damit SOTA bei fast allen Bitbreiten. Wir haben über 150 KL-Divergenz-Benchmarks durchgeführt, insgesamt 9 TB an GGUFs. Wir haben alle Forschungsartefakte hochgeladen. Wir haben außerdem einen Tool-Aufruf Chat-Vorlage Fehler (betrifft alle Quant-Uploader)

  • Qwen3.5-35B-A3B GGUFs wurden aktualisiert, um neue Fixes zu verwenden (112B, 27B werden noch konvertiert, bitte erneut herunterladen, sobald sie aktualisiert sind)

  • Wir haben Bartowski, Ubergarm, AesSedai, Noctrex und unsere neuen Dynamic-GGUFs getestet

  • 99,9% KL-Divergenz zeigt SOTA an der Pareto-Grenze für UD-Q4_K_XL, IQ3_XXS und mehr.

  • MXFP4 wird zurückgezogen aus allen GGUF-Quants: Q2_K_XL, Q3_K_XL und Q4_K_XL, mit Ausnahme von reinem MXFP4_MOE.

Perplexity-Benchmarks - niedriger ist besser
Perplexity-Benchmarks - niedriger ist besser
  • Imatrix hilft definitiv, KLD & PPL zu reduzieren, auf Kosten einer um 5–10% langsameren Inferenz.

  • Das Quantisieren von ssm_out (Mamba-Layer) ist keine gute Idee, ebenso wenig wie ffn_down_exps.

1) Einige Tensoren sind sehr empfindlich gegenüber Quantisierung

  • Wir haben über 9 TB Forschungsartefakte der Community zur weiteren Untersuchung auf unserer Experimente-Seitearrow-up-right. Sie enthält KLD-Metriken und alle 121 Konfigurationen, die wir getestet haben.

  • Wir haben die Bitbreiten für jeden Tensor-Typ variiert und unten ein Best- und Worst-Pareto-Front-Plot im Vergleich zur 99,9% KLD erstellt.

  • Bei den am besten quantisierbaren Elementen sind ffn_up_exps und ffn_gate_exps im Allgemeinen ok, um auf 3 Bit quantisiert zu werden. ffn_down_exps ist etwas empfindlicher.

  • Bei den schlechtesten Elementen erhöht ssm_out die KLD dramatisch, und die Einsparung an Festplattenspeicher ist verschwindend gering. Zum Beispiel ist ssm_out bei q2_k deutlich schlechter. Das Quantisieren von beliebigen attn_* ist besonders empfindlich für hybride Architekturen, daher funktioniert es gut, sie in höherer Präzision zu belassen.

Tensor-Typ vs. Bits bei 99,9% KL-Divergenz

  • Wir plotten alle Quant-Stufen gegen 99,9% KLD und sortieren von schlechtester KLD bis zur besten. Das zu starke Herunterskalieren der ffn_*-Layer ist keine gute Idee.

  • Allerdings, einige Bitbreiten sind gut, besonders 3 Bit. - zum Beispiel scheint es der beste Kompromiss zwischen Festplattenspeicher und Veränderung der 99,9% KLD zu sein, ffn_* (down, up, gate) bei etwa iq3_xxs zu belassen. 2 Bits verursachen stärkere Verschlechterungen.

MXFP4 ist bei vielen Tensoren deutlich schlechter - attn_gate, attn_q, ssm_beta, ssm_alpha mit MXFP4 zu verwenden ist keine gute Idee, hier ist Q4_K eher besser – außerdem verwendet MXFP4 4,25 Bits pro Gewicht, während Q4_K 4,5 Bits pro Gewicht verwendet. Es ist besser, Q4_K statt MXFP4 zu verwenden, wenn man zwischen ihnen wählen muss.

Wie man sehen kann, ist MXFP4 ungewöhnlich hoch

2) Imatrix funktioniert bemerkenswert gut

  • Imatrix hilft definitiv, den Quantisierungsprozess in die richtige Richtung zu gewichten. Zum Beispiel war zuvor ssm_out bei 2 Bits wirklich schlecht, jedoch reduziert Imatrix die 99,9% KLD stark.

  • Imatrix hilft allgemein bei niedrigeren Bits und funktioniert für alle Quants und Bitbreiten.

I-Quants (iq3_xxs, iq2_s usw.) machen die Inferenz 5–10% langsamer, sie sind in Bezug auf Effizienz definitiv besser, aber es gibt einen Kompromiss.

Typ
pp512 (≈)
tg128 (≈)

mxfp4

1978.69

90.67

q4_k

1976.44

90.38

q3_k

1972.61

91.36

q6_k

1964.55

90.50

q2_k

1964.20

90.77

q8_0

1964.17

90.33

q5_k

1947.74

90.72

iq3_xxs

2030.94

85.68

iq2_xxs

1997.64

85.79

iq3_s

1990.12

84.37

iq2_xs

1967.85

85.19

iq2_s

1952.50

85.04

3) Perplexity & KLD können irreführend sein

Perplexity und KLD können irreführend sein, da sie stark von der Kalibrierung beeinflusst werden. Die meisten GGUFs werden auf Wiki-Test mit 512-Kontextfenstern bewertet, sodass sich die Ergebnisse stark verschieben, wenn der Imatrix-Kalibriersatz des GGUF Wikipedia-ähnliche und 512-Kontext-Proben enthält (wie die meisten GGUFs). Deshalb zeigen unsere GGUFs manchmal höhere Perplexity, da unsere Imatrix-Daten stattdessen eher Langkontext-Chat- und Tool-Calling-Beispiele verwenden.

Benjamins jüngste MiniMax‑M2.5-Analysearrow-up-right zeigt ein Beispiel dafür, wie Perplexity und KLD sehr irreführend sein können. Unsloth Dynamic IQ2_XXS schneidet in realen Bewertungen (LiveCodeBench v6, MMLU Pro) besser ab als AesSedais IQ3_S, obwohl es 11 GB kleiner ist. Dennoch deuten AesSedais Perplexity- und KLD-Benchmarks auf das Gegenteil hin. (PPL: 0,3552 vs. 0,2441; KLD: 9,0338 vs. 8,2849 - niedriger ist besser).

KL-Divergenz - AesSedai
Perplexity - AesSedai

Diese Diskrepanz zeigt, dass niedrigere Perplexity oder KLD nicht unbedingt eine bessere Leistung in der Praxis bedeuten. Die Grafik zeigt außerdem, dass UD‑Q4-K‑XL andere Q4-Quants übertrifft, während es etwa 8 GB kleiner ist. Das bedeutet nicht, dass Perplexity oder KLD nutzlos sind, da sie ein grobes Signal liefern. Daher werden wir künftig Perplexity und KLD für jeden Quant veröffentlichen, damit die Community eine Referenz hat.

Vollständige Benchmarks

Quantisierer
Quant-Stufe
Festplattenspeicher (GB)
PPL
KLD 99,9%
Mittlere KLD

AesSedai

IQ3_S

12.65

6.9152

1.8669

0.0613

AesSedai

IQ4_XS

16.4

6.6447

0.8067

0.0235

AesSedai

Q4_K_M

20.62

6.5665

0.3171

0.0096

AesSedai

Q5_K_M

24.45

6.5356

0.21

0.0058

Ubergarm

Q4_0

19.79

6.5784

0.4829

0.0142

Unsloth

IQ2_XXS

9.09

7.716

4.2221

0.1846

Unsloth

Q2_K_XL

12.04

7.0438

2.9092

0.097

Unsloth

IQ3_XXS

13.12

6.7829

1.5296

0.0501

Unsloth

IQ3_S

14.13

6.7715

1.4193

0.0457

Unsloth

Q3_K_M

15.54

6.732

0.9726

0.0324

Unsloth

Q3_K_XL

16.06

6.7245

0.9539

0.0308

Unsloth

MXFP4_MOE

18.17

6.6

0.7789

0.0272

Unsloth

Q4_K_M

18.49

6.6053

0.5478

0.0192

Unsloth

Q4_K_L

18.82

6.5905

0.4828

0.015

Unsloth

Q4_K_XL

19.17

6.5918

0.4097

0.0137

Unsloth

Q5_K_XL

23.22

6.5489

0.236

0.0069

Unsloth

Q6_K_S

26.56

6.5456

0.2226

0.0065

Unsloth

Q6_K_XL

28.22

6.5392

0.1437

0.0041

Unsloth

Q8_K_XL

36.04

6.5352

0.1033

0.0026

bartowski

Qwen_IQ2_XXS

8.15

9.3427

6.0607

0.3457

bartowski

Qwen_Q2_K_L

11.98

7.5504

3.8095

0.1559

bartowski

Qwen_IQ3_XXS

12.94

7.0938

2.1563

0.0851

bartowski

Qwen_Q3_K_M

14.95

6.772

1.7779

0.0585

bartowski

Qwen_Q3_K_XL

15.97

6.8245

1.7516

0.0627

bartowski

Qwen_IQ4_XS

17.42

6.6234

0.7265

0.0234

bartowski

Qwen_Q4_K_M

19.77

6.6097

0.5771

0.0182

bartowski

Qwen_Q5_K_M

23.11

6.5828

0.3549

0.0106

noctrex

MXFP4_MOE_BF16

20.55

6.5948

0.7939

0.0248

noctrex

MXFP4_MOE_F16

20.55

6.5937

0.7614

0.0247

Zuletzt aktualisiert

War das hilfreich?