chart-fftQwen3.5 GGUF-Benchmarks

Sieh, wie sich die dynamischen GGUFs von Unsloth schlagen + Analyse von Perplexity, KL-Divergenz & MXFP4.

Wir haben alle aktualisiert Qwen3.5 Unsloth Dynamic Quants als SOTA bei fast allen Bit-Größen. Wir führten über 150 KL-Divergenz-Benchmarks durch, insgesamt 9TB an GGUFs. Wir haben alle Forschungsartefakte hochgeladen.

Wir haben außerdem ein Tool-Aufruf Chat-Vorlagenproblem (betrifft alle Quant-Uploader und -Typen, unabhängig davon, wo Sie sie verwenden oder wo sie herkommen).

circle-check
circle-info

Möchten Sie sehen, wie man das Modell ausführt + Hardwareanforderungen? Lesen Sie unseren Inference-Guide.

99,9% KL-Divergenz zeigt SOTA auf der Pareto-Grenze für Unsloth Dynamic Q4_K_XL, IQ3_XXS usw.:

Qwen3.5-122B-A10B Benchmarks
Qwen3.5-35B-A3B Benchmarks
  • Imatrix hilft definitiv, KLD & PPL zu reduzieren, auf Kosten einer 5–10% langsameren Inferenz.

  • Wir haben unsere GGUFs gegen viele andere Anbieter getestet

  • Die Quantisierung von ssm_out (Mamba-Schichten) ist keine gute Idee, ebenso wenig wie ffn_down_exps.

  • MXFP4 wird eingestellt aus allen GGUF-Quants: Q2_K_XL, Q3_K_XL und Q4_K_XL, außer für reines MXFP4_MOE.

Neue Qwen3.5-9B GGUF-Benchmarks durchgeführt von Benjamin Marie

1) Einige Tensoren sind sehr empfindlich gegenüber Quantisierung

  • Wir haben über 9TB an Forschungsartefakten für die Community bereitgestellt, damit diese weiter untersucht werden können auf unserer Experimente-Seitearrow-up-right. Sie enthält KLD-Metriken und alle 121 Konfigurationen, die wir getestet haben.

  • Wir variierten die Bit-Breiten über jeden Tensor-Typ und erzeugten unten ein Best- und Worst-Pareto-Front-Plot gegenüber 99,9% KLD.

  • Bei den am besten zu quantisierenden Elementen sind ffn_up_exps und ffn_gate_exps allgemein in Ordnung, auf 3 Bit zu quantisieren. ffn_down_exps ist etwas empfindlicher.

  • Bei den schlechtesten Elementen erhöht ssm_out die KLD drastisch und die Einsparungen an Festplattenspeicher sind minimal. Zum Beispiel schneidet ssm_out bei q2_k dramatisch schlechter ab. Die Quantisierung irgendeines attn_* ist besonders empfindlich für hybride Architekturen, und sie in höherer Präzision zu belassen funktioniert gut.

Tensor-Typ vs. Bits bei 99,9% KL-Divergenz

  • Wir plotten alle Quant-Stufen gegen 99,9% KLD und sortieren von schlechtester KLD bis bester. Das zu starke Herunterquantisieren von ffn_* Schichten ist keine gute Idee.

  • Allerdings, einige Bit-Breiten sind gut, besonders 3 Bit. - zum Beispiel scheint es ein guter Kompromiss zwischen Festplattenplatz und 99,9% KLD-Änderung zu sein, ffn_* (down, up, gate) bei etwa iq3_xxs zu belassen. 2 Bits verursachen mehr Verschlechterung.

MXFP4 ist bei vielen Tensoren deutlich schlechter - attn_gate, attn_q, ssm_beta, ssm_alpha mit MXFP4 zu verwenden ist keine gute Idee, eher ist Q4_K besser – außerdem verwendet MXFP4 4,25 Bits pro Gewicht, während Q4_K 4,5 Bits pro Gewicht verwendet. Es ist besser, Q4_K statt MXFP4 zu verwenden, wenn man zwischen ihnen wählt.

Wie Sie sehen können, ist MXFP4 ungewöhnlich hoch

2) Imatrix funktioniert sehr gut

  • Imatrix hilft definitiv, den Quantisierungsprozess in die richtige Richtung zu gewichten. Zum Beispiel war ssm_out zuvor bei 2 Bits wirklich schlecht, jedoch reduziert imatrix die 99,9% KLD erheblich.

  • Imatrix hilft generell bei niedrigeren Bits und funktioniert bei allen Quants und Bit-Breiten.

I-Quants (iq3_xxs, iq2_s etc.) machen die Inferenz 5–10% langsamer, sie sind in Bezug auf Effizienz definitiv besser, aber es gibt einen Kompromiss.

Typ
pp512 (≈)
tg128 (≈)

mxfp4

1978.69

90.67

q4_k

1976.44

90.38

q3_k

1972.61

91.36

q6_k

1964.55

90.50

q2_k

1964.20

90.77

q8_0

1964.17

90.33

q5_k

1947.74

90.72

iq3_xxs

2030.94

85.68

iq2_xxs

1997.64

85.79

iq3_s

1990.12

84.37

iq2_xs

1967.85

85.19

iq2_s

1952.50

85.04

3) Perplexität & KLD können irreführend sein

Perplexität und KLD können irreführend sein, da sie stark durch Kalibrierung beeinflusst werden. Die meisten GGUFs werden auf Wiki-Test mit 512 Kontextfenstern bewertet, sodass sich die Ergebnisse stark verschieben, wenn der Imatrix-Kalibrierungssatz des GGUF Wikipedia-ähnliche und 512-Kontext-Beispiele enthält (wie die meisten GGUFs). Deshalb zeigen unsere GGUFs manchmal höhere Perplexität, da unsere imatrix-Daten eher lange Kontext-Chats und Tool-Calling-Beispiele verwenden.

Benjamins kürzliche MiniMax‑M2.5-Analysearrow-up-right zeigt ein Beispiel dafür, wie Perplexität und KLD sehr irreführend sein können. Unsloth Dynamic IQ2_XXS schneidet bei realen Evaluierungen (LiveCodeBench v6, MMLU Pro) besser ab als AesSedais IQ3_S, obwohl es 11 GB kleiner ist. Dennoch legen AesSedais Perplexity- und KLD-Benchmarks das Gegenteil nahe. (PPL: 0,3552 vs. 0,2441; KLD: 9,0338 vs. 8,2849 - niedriger ist besser).

KL-Divergenz - AesSedai
Perplexität - AesSedai

Diese Diskrepanz zeigt, dass niedrigere Perplexität oder KLD nicht unbedingt in bessere reale Leistung übersetzt. Das Diagramm zeigt außerdem UD‑Q4-K‑XL, das andere Q4-Quants übertrifft, während es ~8 GB kleiner ist. Das bedeutet nicht, dass Perplexität oder KLD nutzlos sind, da sie ein grobes Signal liefern. Daher werden wir zukünftig Perplexität und KLD für jeden Quant veröffentlichen, damit die Community eine Art Referenz hat.

4) Update vom 5. März 2026 - mehr Robustheit

Wir haben unsere Quantisierungsmethode für Qwen3.5 MoEs weiter verbessert, um die maximale KLD direkt zu reduzieren. 99,9% ist das, was allgemein verwendet wird, aber für massive Ausreißer kann die maximale KLD nützlich sein. Unsere neue Methode senkt die maximale KLD im Allgemeinen deutlich im Vergleich zur Zeit vor dem Update vom 5. März.

Quant
Alt GB
Neu GB
Alte Max-KLD
Neue Max-KLD

UD-Q2_K_XL

12.0

11.3

8.237

8.155

UD-Q3_K_XL

16.1

15.5

5.505

5.146

UD-Q4_K_XL

19.2

20.7 (+7.8%)

5.894

2.877 (-51%)

UD-Q5_K_XL

23.2

24.6 (+6%)

5.536

3.210 (-42%)

Volle Benchmarks

Quantisierer
Quant-Stufe
Plattenspeicher (GB)
PPL
KLD 99,9%
Mittlere KLD

AesSedai

IQ3_S

12.65

6.9152

1.8669

0.0613

AesSedai

IQ4_XS

16.4

6.6447

0.8067

0.0235

AesSedai

Q4_K_M

20.62

6.5665

0.3171

0.0096

AesSedai

Q5_K_M

24.45

6.5356

0.21

0.0058

Ubergarm

Q4_0

19.79

6.5784

0.4829

0.0142

Unsloth

IQ2_XXS

9.09

7.716

4.2221

0.1846

Unsloth

Q2_K_XL

12.04

7.0438

2.9092

0.097

Unsloth

IQ3_XXS

13.12

6.7829

1.5296

0.0501

Unsloth

IQ3_S

14.13

6.7715

1.4193

0.0457

Unsloth

Q3_K_M

15.54

6.732

0.9726

0.0324

Unsloth

Q3_K_XL

16.06

6.7245

0.9539

0.0308

Unsloth

MXFP4_MOE

18.17

6.6

0.7789

0.0272

Unsloth

Q4_K_M

18.49

6.6053

0.5478

0.0192

Unsloth

Q4_K_L

18.82

6.5905

0.4828

0.015

Unsloth

Q4_K_XL

19.17

6.5918

0.4097

0.0137

Unsloth

Q5_K_XL

23.22

6.5489

0.236

0.0069

Unsloth

Q6_K_S

26.56

6.5456

0.2226

0.0065

Unsloth

Q6_K_XL

28.22

6.5392

0.1437

0.0041

Unsloth

Q8_K_XL

36.04

6.5352

0.1033

0.0026

bartowski

Qwen_IQ2_XXS

8.15

9.3427

6.0607

0.3457

bartowski

Qwen_Q2_K_L

11.98

7.5504

3.8095

0.1559

bartowski

Qwen_IQ3_XXS

12.94

7.0938

2.1563

0.0851

bartowski

Qwen_Q3_K_M

14.95

6.772

1.7779

0.0585

bartowski

Qwen_Q3_K_XL

15.97

6.8245

1.7516

0.0627

bartowski

Qwen_IQ4_XS

17.42

6.6234

0.7265

0.0234

bartowski

Qwen_Q4_K_M

19.77

6.6097

0.5771

0.0182

bartowski

Qwen_Q5_K_M

23.11

6.5828

0.3549

0.0106

noctrex

MXFP4_MOE_BF16

20.55

6.5948

0.7939

0.0248

noctrex

MXFP4_MOE_F16

20.55

6.5937

0.7614

0.0247

Zuletzt aktualisiert

War das hilfreich?