Qwen3.5 GGUF-Benchmarks
Sieh, wie sich die dynamischen GGUFs von Unsloth schlagen + Analyse von Perplexity, KL-Divergenz & MXFP4.
Wir haben alle aktualisiert Qwen3.5 Unsloth Dynamic Quants als SOTA bei fast allen Bit-Größen. Wir führten über 150 KL-Divergenz-Benchmarks durch, insgesamt 9TB an GGUFs. Wir haben alle Forschungsartefakte hochgeladen.
Wir haben außerdem ein Tool-Aufruf Chat-Vorlagenproblem (betrifft alle Quant-Uploader und -Typen, unabhängig davon, wo Sie sie verwenden oder wo sie herkommen).
Update vom 5. März: Qwen3.5- erneut herunterladen35B, 27B, 122B und 397B.
Alle GGUFs sind jetzt mit einer verbesserten Quantisierungs- algorithmus aktualisiert.
Alle verwenden unsere neuen imatrix-Daten. Sehen Sie einige Verbesserungen im Chat, beim Codieren, bei langen Kontexten und bei Tool-Calling-Anwendungsfällen.
Neue Benchmarks für Qwen3.5-122B-A10B und 35-A3B jetzt verfügbar!
Möchten Sie sehen, wie man das Modell ausführt + Hardwareanforderungen? Lesen Sie unseren Inference-Guide.
99,9% KL-Divergenz zeigt SOTA auf der Pareto-Grenze für Unsloth Dynamic Q4_K_XL, IQ3_XXS usw.:


Imatrix hilft definitiv, KLD & PPL zu reduzieren, auf Kosten einer 5–10% langsameren Inferenz.
Wir haben unsere GGUFs gegen viele andere Anbieter getestet
Die Quantisierung von ssm_out (Mamba-Schichten) ist keine gute Idee, ebenso wenig wie ffn_down_exps.
MXFP4 wird eingestellt aus allen GGUF-Quants: Q2_K_XL, Q3_K_XL und Q4_K_XL, außer für reines MXFP4_MOE.

1) Einige Tensoren sind sehr empfindlich gegenüber Quantisierung
Wir haben über 9TB an Forschungsartefakten für die Community bereitgestellt, damit diese weiter untersucht werden können auf unserer Experimente-Seite. Sie enthält KLD-Metriken und alle 121 Konfigurationen, die wir getestet haben.
Wir variierten die Bit-Breiten über jeden Tensor-Typ und erzeugten unten ein Best- und Worst-Pareto-Front-Plot gegenüber 99,9% KLD.
Bei den am besten zu quantisierenden Elementen sind ffn_up_exps und ffn_gate_exps allgemein in Ordnung, auf 3 Bit zu quantisieren. ffn_down_exps ist etwas empfindlicher.
Bei den schlechtesten Elementen erhöht ssm_out die KLD drastisch und die Einsparungen an Festplattenspeicher sind minimal. Zum Beispiel schneidet ssm_out bei q2_k dramatisch schlechter ab. Die Quantisierung irgendeines attn_* ist besonders empfindlich für hybride Architekturen, und sie in höherer Präzision zu belassen funktioniert gut.

Tensor-Typ vs. Bits bei 99,9% KL-Divergenz
Wir plotten alle Quant-Stufen gegen 99,9% KLD und sortieren von schlechtester KLD bis bester. Das zu starke Herunterquantisieren von ffn_* Schichten ist keine gute Idee.
Allerdings, einige Bit-Breiten sind gut, besonders 3 Bit. - zum Beispiel scheint es ein guter Kompromiss zwischen Festplattenplatz und 99,9% KLD-Änderung zu sein, ffn_* (down, up, gate) bei etwa iq3_xxs zu belassen. 2 Bits verursachen mehr Verschlechterung.

MXFP4 ist bei vielen Tensoren deutlich schlechter - attn_gate, attn_q, ssm_beta, ssm_alpha mit MXFP4 zu verwenden ist keine gute Idee, eher ist Q4_K besser – außerdem verwendet MXFP4 4,25 Bits pro Gewicht, während Q4_K 4,5 Bits pro Gewicht verwendet. Es ist besser, Q4_K statt MXFP4 zu verwenden, wenn man zwischen ihnen wählt.


2) Imatrix funktioniert sehr gut
Imatrix hilft definitiv, den Quantisierungsprozess in die richtige Richtung zu gewichten. Zum Beispiel war ssm_out zuvor bei 2 Bits wirklich schlecht, jedoch reduziert imatrix die 99,9% KLD erheblich.
Imatrix hilft generell bei niedrigeren Bits und funktioniert bei allen Quants und Bit-Breiten.

I-Quants (iq3_xxs, iq2_s etc.) machen die Inferenz 5–10% langsamer, sie sind in Bezug auf Effizienz definitiv besser, aber es gibt einen Kompromiss.
mxfp4
1978.69
90.67
q4_k
1976.44
90.38
q3_k
1972.61
91.36
q6_k
1964.55
90.50
q2_k
1964.20
90.77
q8_0
1964.17
90.33
q5_k
1947.74
90.72
iq3_xxs
2030.94
85.68
iq2_xxs
1997.64
85.79
iq3_s
1990.12
84.37
iq2_xs
1967.85
85.19
iq2_s
1952.50
85.04
3) Perplexität & KLD können irreführend sein
Perplexität und KLD können irreführend sein, da sie stark durch Kalibrierung beeinflusst werden. Die meisten GGUFs werden auf Wiki-Test mit 512 Kontextfenstern bewertet, sodass sich die Ergebnisse stark verschieben, wenn der Imatrix-Kalibrierungssatz des GGUF Wikipedia-ähnliche und 512-Kontext-Beispiele enthält (wie die meisten GGUFs). Deshalb zeigen unsere GGUFs manchmal höhere Perplexität, da unsere imatrix-Daten eher lange Kontext-Chats und Tool-Calling-Beispiele verwenden.

Benjamins kürzliche MiniMax‑M2.5-Analyse zeigt ein Beispiel dafür, wie Perplexität und KLD sehr irreführend sein können. Unsloth Dynamic IQ2_XXS schneidet bei realen Evaluierungen (LiveCodeBench v6, MMLU Pro) besser ab als AesSedais IQ3_S, obwohl es 11 GB kleiner ist. Dennoch legen AesSedais Perplexity- und KLD-Benchmarks das Gegenteil nahe. (PPL: 0,3552 vs. 0,2441; KLD: 9,0338 vs. 8,2849 - niedriger ist besser).


Diese Diskrepanz zeigt, dass niedrigere Perplexität oder KLD nicht unbedingt in bessere reale Leistung übersetzt. Das Diagramm zeigt außerdem UD‑Q4-K‑XL, das andere Q4-Quants übertrifft, während es ~8 GB kleiner ist. Das bedeutet nicht, dass Perplexität oder KLD nutzlos sind, da sie ein grobes Signal liefern. Daher werden wir zukünftig Perplexität und KLD für jeden Quant veröffentlichen, damit die Community eine Art Referenz hat.
4) Update vom 5. März 2026 - mehr Robustheit
Wir haben unsere Quantisierungsmethode für Qwen3.5 MoEs weiter verbessert, um die maximale KLD direkt zu reduzieren. 99,9% ist das, was allgemein verwendet wird, aber für massive Ausreißer kann die maximale KLD nützlich sein. Unsere neue Methode senkt die maximale KLD im Allgemeinen deutlich im Vergleich zur Zeit vor dem Update vom 5. März.

UD-Q2_K_XL
12.0
11.3
8.237
8.155
UD-Q3_K_XL
16.1
15.5
5.505
5.146
UD-Q4_K_XL
19.2
20.7 (+7.8%)
5.894
2.877 (-51%)
UD-Q5_K_XL
23.2
24.6 (+6%)
5.536
3.210 (-42%)
Volle Benchmarks
AesSedai
IQ3_S
12.65
6.9152
1.8669
0.0613
AesSedai
IQ4_XS
16.4
6.6447
0.8067
0.0235
AesSedai
Q4_K_M
20.62
6.5665
0.3171
0.0096
AesSedai
Q5_K_M
24.45
6.5356
0.21
0.0058
Ubergarm
Q4_0
19.79
6.5784
0.4829
0.0142
Unsloth
IQ2_XXS
9.09
7.716
4.2221
0.1846
Unsloth
Q2_K_XL
12.04
7.0438
2.9092
0.097
Unsloth
IQ3_XXS
13.12
6.7829
1.5296
0.0501
Unsloth
IQ3_S
14.13
6.7715
1.4193
0.0457
Unsloth
Q3_K_M
15.54
6.732
0.9726
0.0324
Unsloth
Q3_K_XL
16.06
6.7245
0.9539
0.0308
Unsloth
MXFP4_MOE
18.17
6.6
0.7789
0.0272
Unsloth
Q4_K_M
18.49
6.6053
0.5478
0.0192
Unsloth
Q4_K_L
18.82
6.5905
0.4828
0.015
Unsloth
Q4_K_XL
19.17
6.5918
0.4097
0.0137
Unsloth
Q5_K_XL
23.22
6.5489
0.236
0.0069
Unsloth
Q6_K_S
26.56
6.5456
0.2226
0.0065
Unsloth
Q6_K_XL
28.22
6.5392
0.1437
0.0041
Unsloth
Q8_K_XL
36.04
6.5352
0.1033
0.0026
bartowski
Qwen_IQ2_XXS
8.15
9.3427
6.0607
0.3457
bartowski
Qwen_Q2_K_L
11.98
7.5504
3.8095
0.1559
bartowski
Qwen_IQ3_XXS
12.94
7.0938
2.1563
0.0851
bartowski
Qwen_Q3_K_M
14.95
6.772
1.7779
0.0585
bartowski
Qwen_Q3_K_XL
15.97
6.8245
1.7516
0.0627
bartowski
Qwen_IQ4_XS
17.42
6.6234
0.7265
0.0234
bartowski
Qwen_Q4_K_M
19.77
6.6097
0.5771
0.0182
bartowski
Qwen_Q5_K_M
23.11
6.5828
0.3549
0.0106
noctrex
MXFP4_MOE_BF16
20.55
6.5948
0.7939
0.0248
noctrex
MXFP4_MOE_F16
20.55
6.5937
0.7614
0.0247
Zuletzt aktualisiert
War das hilfreich?

