Qwen3.5 GGUF-Benchmarks
Sieh, wie Unsloth Dynamic GGUFs abschneiden und Analysen zu Perplexity, KL-Divergenz und MXFP4.
Wir haben Qwen3.5-35B Unsloth Dynamic-Quants aktualisiert und sind damit SOTA bei fast allen Bitbreiten. Wir haben über 150 KL-Divergenz-Benchmarks durchgeführt, insgesamt 9 TB an GGUFs. Wir haben alle Forschungsartefakte hochgeladen. Wir haben außerdem einen Tool-Aufruf Chat-Vorlage Fehler (betrifft alle Quant-Uploader)
Qwen3.5-35B-A3B GGUFs wurden aktualisiert, um neue Fixes zu verwenden (112B, 27B werden noch konvertiert, bitte erneut herunterladen, sobald sie aktualisiert sind)
Wir haben Bartowski, Ubergarm, AesSedai, Noctrex und unsere neuen Dynamic-GGUFs getestet
99,9% KL-Divergenz zeigt SOTA an der Pareto-Grenze für UD-Q4_K_XL, IQ3_XXS und mehr.
MXFP4 wird zurückgezogen aus allen GGUF-Quants: Q2_K_XL, Q3_K_XL und Q4_K_XL, mit Ausnahme von reinem MXFP4_MOE.


Imatrix hilft definitiv, KLD & PPL zu reduzieren, auf Kosten einer um 5–10% langsameren Inferenz.
Das Quantisieren von ssm_out (Mamba-Layer) ist keine gute Idee, ebenso wenig wie ffn_down_exps.
1) Einige Tensoren sind sehr empfindlich gegenüber Quantisierung
Wir haben über 9 TB Forschungsartefakte der Community zur weiteren Untersuchung auf unserer Experimente-Seite. Sie enthält KLD-Metriken und alle 121 Konfigurationen, die wir getestet haben.
Wir haben die Bitbreiten für jeden Tensor-Typ variiert und unten ein Best- und Worst-Pareto-Front-Plot im Vergleich zur 99,9% KLD erstellt.
Bei den am besten quantisierbaren Elementen sind ffn_up_exps und ffn_gate_exps im Allgemeinen ok, um auf 3 Bit quantisiert zu werden. ffn_down_exps ist etwas empfindlicher.
Bei den schlechtesten Elementen erhöht ssm_out die KLD dramatisch, und die Einsparung an Festplattenspeicher ist verschwindend gering. Zum Beispiel ist ssm_out bei q2_k deutlich schlechter. Das Quantisieren von beliebigen attn_* ist besonders empfindlich für hybride Architekturen, daher funktioniert es gut, sie in höherer Präzision zu belassen.

Tensor-Typ vs. Bits bei 99,9% KL-Divergenz
Wir plotten alle Quant-Stufen gegen 99,9% KLD und sortieren von schlechtester KLD bis zur besten. Das zu starke Herunterskalieren der ffn_*-Layer ist keine gute Idee.
Allerdings, einige Bitbreiten sind gut, besonders 3 Bit. - zum Beispiel scheint es der beste Kompromiss zwischen Festplattenspeicher und Veränderung der 99,9% KLD zu sein, ffn_* (down, up, gate) bei etwa iq3_xxs zu belassen. 2 Bits verursachen stärkere Verschlechterungen.

MXFP4 ist bei vielen Tensoren deutlich schlechter - attn_gate, attn_q, ssm_beta, ssm_alpha mit MXFP4 zu verwenden ist keine gute Idee, hier ist Q4_K eher besser – außerdem verwendet MXFP4 4,25 Bits pro Gewicht, während Q4_K 4,5 Bits pro Gewicht verwendet. Es ist besser, Q4_K statt MXFP4 zu verwenden, wenn man zwischen ihnen wählen muss.


2) Imatrix funktioniert bemerkenswert gut
Imatrix hilft definitiv, den Quantisierungsprozess in die richtige Richtung zu gewichten. Zum Beispiel war zuvor ssm_out bei 2 Bits wirklich schlecht, jedoch reduziert Imatrix die 99,9% KLD stark.
Imatrix hilft allgemein bei niedrigeren Bits und funktioniert für alle Quants und Bitbreiten.

I-Quants (iq3_xxs, iq2_s usw.) machen die Inferenz 5–10% langsamer, sie sind in Bezug auf Effizienz definitiv besser, aber es gibt einen Kompromiss.
mxfp4
1978.69
90.67
q4_k
1976.44
90.38
q3_k
1972.61
91.36
q6_k
1964.55
90.50
q2_k
1964.20
90.77
q8_0
1964.17
90.33
q5_k
1947.74
90.72
iq3_xxs
2030.94
85.68
iq2_xxs
1997.64
85.79
iq3_s
1990.12
84.37
iq2_xs
1967.85
85.19
iq2_s
1952.50
85.04
3) Perplexity & KLD können irreführend sein
Perplexity und KLD können irreführend sein, da sie stark von der Kalibrierung beeinflusst werden. Die meisten GGUFs werden auf Wiki-Test mit 512-Kontextfenstern bewertet, sodass sich die Ergebnisse stark verschieben, wenn der Imatrix-Kalibriersatz des GGUF Wikipedia-ähnliche und 512-Kontext-Proben enthält (wie die meisten GGUFs). Deshalb zeigen unsere GGUFs manchmal höhere Perplexity, da unsere Imatrix-Daten stattdessen eher Langkontext-Chat- und Tool-Calling-Beispiele verwenden.

Benjamins jüngste MiniMax‑M2.5-Analyse zeigt ein Beispiel dafür, wie Perplexity und KLD sehr irreführend sein können. Unsloth Dynamic IQ2_XXS schneidet in realen Bewertungen (LiveCodeBench v6, MMLU Pro) besser ab als AesSedais IQ3_S, obwohl es 11 GB kleiner ist. Dennoch deuten AesSedais Perplexity- und KLD-Benchmarks auf das Gegenteil hin. (PPL: 0,3552 vs. 0,2441; KLD: 9,0338 vs. 8,2849 - niedriger ist besser).


Diese Diskrepanz zeigt, dass niedrigere Perplexity oder KLD nicht unbedingt eine bessere Leistung in der Praxis bedeuten. Die Grafik zeigt außerdem, dass UD‑Q4-K‑XL andere Q4-Quants übertrifft, während es etwa 8 GB kleiner ist. Das bedeutet nicht, dass Perplexity oder KLD nutzlos sind, da sie ein grobes Signal liefern. Daher werden wir künftig Perplexity und KLD für jeden Quant veröffentlichen, damit die Community eine Referenz hat.
Vollständige Benchmarks
AesSedai
IQ3_S
12.65
6.9152
1.8669
0.0613
AesSedai
IQ4_XS
16.4
6.6447
0.8067
0.0235
AesSedai
Q4_K_M
20.62
6.5665
0.3171
0.0096
AesSedai
Q5_K_M
24.45
6.5356
0.21
0.0058
Ubergarm
Q4_0
19.79
6.5784
0.4829
0.0142
Unsloth
IQ2_XXS
9.09
7.716
4.2221
0.1846
Unsloth
Q2_K_XL
12.04
7.0438
2.9092
0.097
Unsloth
IQ3_XXS
13.12
6.7829
1.5296
0.0501
Unsloth
IQ3_S
14.13
6.7715
1.4193
0.0457
Unsloth
Q3_K_M
15.54
6.732
0.9726
0.0324
Unsloth
Q3_K_XL
16.06
6.7245
0.9539
0.0308
Unsloth
MXFP4_MOE
18.17
6.6
0.7789
0.0272
Unsloth
Q4_K_M
18.49
6.6053
0.5478
0.0192
Unsloth
Q4_K_L
18.82
6.5905
0.4828
0.015
Unsloth
Q4_K_XL
19.17
6.5918
0.4097
0.0137
Unsloth
Q5_K_XL
23.22
6.5489
0.236
0.0069
Unsloth
Q6_K_S
26.56
6.5456
0.2226
0.0065
Unsloth
Q6_K_XL
28.22
6.5392
0.1437
0.0041
Unsloth
Q8_K_XL
36.04
6.5352
0.1033
0.0026
bartowski
Qwen_IQ2_XXS
8.15
9.3427
6.0607
0.3457
bartowski
Qwen_Q2_K_L
11.98
7.5504
3.8095
0.1559
bartowski
Qwen_IQ3_XXS
12.94
7.0938
2.1563
0.0851
bartowski
Qwen_Q3_K_M
14.95
6.772
1.7779
0.0585
bartowski
Qwen_Q3_K_XL
15.97
6.8245
1.7516
0.0627
bartowski
Qwen_IQ4_XS
17.42
6.6234
0.7265
0.0234
bartowski
Qwen_Q4_K_M
19.77
6.6097
0.5771
0.0182
bartowski
Qwen_Q5_K_M
23.11
6.5828
0.3549
0.0106
noctrex
MXFP4_MOE_BF16
20.55
6.5948
0.7939
0.0248
noctrex
MXFP4_MOE_F16
20.55
6.5937
0.7614
0.0247
Zuletzt aktualisiert
War das hilfreich?

