chart-fftBenchmarks GGUF Qwen3.5

Voyez les performances des GGUF dynamiques d'Unsloth + une analyse de la perplexité, de la divergence KL et de MXFP4.

Nous avons mis à jour tous Qwen3.5 Unsloth Dynamic quants étant SOTA sur presque tous les bits. Nous avons effectué plus de 150 benchmarks de divergence KL, au total 9 To de GGUFs. Nous avons téléversé tous les artefacts de recherche.

Nous avons également corrigé un appel d'outil problème de modèle de chat (affecte tous les téléverseurs et types de quantification quel que soit l'endroit où vous l'utilisez ou d'où il provient).

circle-check
circle-info

Vous voulez voir comment exécuter le modèle + exigences matérielles ? Lisez notre guide d'inférence.

La divergence KL à 99,9 % montre le SOTA sur le front de Pareto pour Unsloth Dynamic Q4_K_XL, IQ3_XXS etc. :

Qwen3.5-122B-A10B Benchmarks
Qwen3.5-35B-A3B Benchmarks
  • Imatrix aide définitivement à réduire KLD et PPL, au prix d'une inference 5-10 % plus lente.

  • Nous avons testé nos GGUFs contre de nombreux autres fournisseurs

  • Quantifier ssm_out (couches Mamba) n'est pas une bonne idée, ni ffn_down_exps.

  • Retrait de MXFP4 de toutes les quants GGUF : Q2_K_XL, Q3_K_XL et Q4_K_XL, sauf pour le pur MXFP4_MOE.

Nouveaux benchmarks GGUF Qwen3.5-9B réalisés par Benjamin Marie

1) Certaines tenseurs sont très sensibles à la quantification

  • Nous avons rendu plus de 9 To d'artefacts de recherche disponibles pour la communauté afin d'investiguer davantage sur notre page Expériencesarrow-up-right. Elle inclut les métriques KLD et toutes les 121 configurations que nous avons testées.

  • Nous avons varié les largeurs de bits pour chaque type de tenseur, et généré un tracé du front de Pareto meilleur et pire ci-dessous vs KLD à 99,9 %.

  • Pour les éléments les mieux quantifiables, ffn_up_exps et ffn_gate_exps sont généralement acceptables à quantifier en 3 bits. ffn_down_exps est légèrement plus sensible.

  • Pour les pires éléments, ssm_out augmente dramatiquement la KLD et les économies d'espace disque sont minimes. Par exemple, ssm_out en q2_k fait beaucoup pire. Quantifier n'importe quel attn_* est particulièrement sensible pour les architectures hybrides, et donc les laisser en précision supérieure fonctionne bien.

Type de tenseur vs bits sur la divergence KL à 99,9 %

  • Nous traçons tous les niveaux de quantification vs KLD à 99,9 %, et trions du pire KLD au meilleur. Quantifier excessivement les couches ffn_* n'est pas une bonne idée.

  • Cependant, certaines largeurs de bits sont bonnes, en particulier 3 bits. - par exemple laisser ffn_* (down, up, gate) autour de iq3_xxs semble être le meilleur compromis entre l'espace disque et le changement de KLD à 99,9 %. 2 bits causent plus de dégradation.

MXFP4 est bien pire sur de nombreux tenseurs - attn_gate, attn_q, ssm_beta, ssm_alpha utiliser MXFP4 n'est pas une bonne idée, et Q4_K est plutôt meilleur - aussi MXFP4 utilise 4,25 bits par poids, tandis que Q4_K utilise 4,5 bits par poids. Il vaut mieux utiliser Q4_K que MXFP4 quand on choisit entre eux.

Comme vous pouvez le voir, MXFP4 est inhabituellement élevé

2) Imatrix fonctionne très bien

  • Imatrix aide définitivement à orienter correctement le processus de quantification. Par exemple auparavant ssm_out à 2 bits était vraiment mauvais, cependant imatrix réduit beaucoup la KLD à 99,9 %.

  • Imatrix aide généralement sur les bits faibles, et fonctionne sur toutes les quants et largeurs de bits.

Les quants I (iq3_xxs, iq2_s etc.) rendent l'inférence 5-10 % plus lente, ils sont définitivement meilleurs en termes d'efficacité, mais il y a un compromis.

Type
pp512 (≈)
tg128 (≈)

mxfp4

1978.69

90.67

q4_k

1976.44

90.38

q3_k

1972.61

91.36

q6_k

1964.55

90.50

q2_k

1964.20

90.77

q8_0

1964.17

90.33

q5_k

1947.74

90.72

iq3_xxs

2030.94

85.68

iq2_xxs

1997.64

85.79

iq3_s

1990.12

84.37

iq2_xs

1967.85

85.19

iq2_s

1952.50

85.04

3) La perplexité et la KLD peuvent être trompeuses

La perplexité et la KLD peuvent être trompeuses car elles sont fortement influencées par la calibration. La plupart des GGUFs sont évalués sur Wiki-test avec des fenêtres de contexte de 512, donc les résultats changent beaucoup si l'ensemble de calibration imatrix du GGUF inclut des échantillons de type Wikipedia et de contexte 512 (comme c'est le cas pour la plupart des GGUFs). C'est pourquoi nos GGUFs montrent parfois une perplexité plus élevée car nos données imatrix utilisent plutôt des exemples de chat à long contexte et d'appel d'outils.

L'analyse récente MiniMax‑M2.5 de Benjaminarrow-up-right montre un cas où la perplexité et la KLD peuvent être très trompeuses. Unsloth Dynamic IQ2_XXS performe mieux que IQ3_S d'AesSedai sur des évaluations réelles (LiveCodeBench v6, MMLU Pro) malgré être 11 Go plus petit. Pourtant, les benchmarks de perplexité et KLD d'AesSedai suggèrent le contraire. (PPL : 0.3552 vs 0.2441 ; KLD : 9.0338 vs 8.2849 - plus bas est meilleur).

Divergence KL - AesSedai
Perplexité - AesSedai

Ce décalage montre qu'une perplexité ou une KLD plus basse ne se traduit pas nécessairement par de meilleures performances dans le monde réel. Le graphique montre aussi UD‑Q4‑K‑XL surpassant d'autres quants Q4, tout en étant ~8 Go plus petit. Cela ne signifie pas que la perplexité ou la KLD soit inutile, puisqu'elles donnent un signal approximatif. Ainsi, à l'avenir, nous publierons la perplexité et la KLD pour chaque quant afin que la communauté dispose d'une sorte de référence.

4) Mise à jour du 5 mars 2026 - plus de robustesse

Nous avons encore amélioré notre méthode de quantification pour les MoE Qwen3.5 afin de réduire directement la KLD maximale. 99,9 % est généralement utilisé, mais pour des valeurs aberrantes massives, la KLD maximale peut être utile. Notre nouvelle méthode réduit généralement beaucoup la KLD maximale par rapport à l'état avant la mise à jour du 5 mars.

Quant
Ancien Go
Nouveau Go
Ancienne KLD Max
Nouvelle KLD Max

UD-Q2_K_XL

12.0

11.3

8.237

8.155

UD-Q3_K_XL

16.1

15.5

5.505

5.146

UD-Q4_K_XL

19.2

20.7 (+7.8%)

5.894

2.877 (-51%)

UD-Q5_K_XL

23.2

24.6 (+6%)

5.536

3.210 (-42%)

Benchmarks complets

Quantiseur
Niveau de quantification
Espace disque (Go)
PPL
KLD 99,9 %
KLD moyenne

AesSedai

IQ3_S

12.65

6.9152

1.8669

0.0613

AesSedai

IQ4_XS

16.4

6.6447

0.8067

0.0235

AesSedai

Q4_K_M

20.62

6.5665

0.3171

0.0096

AesSedai

Q5_K_M

24.45

6.5356

0.21

0.0058

Ubergarm

Q4_0

19.79

6.5784

0.4829

0.0142

Unsloth

IQ2_XXS

9.09

7.716

4.2221

0.1846

Unsloth

Q2_K_XL

12.04

7.0438

2.9092

0.097

Unsloth

IQ3_XXS

13.12

6.7829

1.5296

0.0501

Unsloth

IQ3_S

14.13

6.7715

1.4193

0.0457

Unsloth

Q3_K_M

15.54

6.732

0.9726

0.0324

Unsloth

Q3_K_XL

16.06

6.7245

0.9539

0.0308

Unsloth

MXFP4_MOE

18.17

6.6

0.7789

0.0272

Unsloth

Q4_K_M

18.49

6.6053

0.5478

0.0192

Unsloth

Q4_K_L

18.82

6.5905

0.4828

0.015

Unsloth

Q4_K_XL

19.17

6.5918

0.4097

0.0137

Unsloth

Q5_K_XL

23.22

6.5489

0.236

0.0069

Unsloth

Q6_K_S

26.56

6.5456

0.2226

0.0065

Unsloth

Q6_K_XL

28.22

6.5392

0.1437

0.0041

Unsloth

Q8_K_XL

36.04

6.5352

0.1033

0.0026

bartowski

Qwen_IQ2_XXS

8.15

9.3427

6.0607

0.3457

bartowski

Qwen_Q2_K_L

11.98

7.5504

3.8095

0.1559

bartowski

Qwen_IQ3_XXS

12.94

7.0938

2.1563

0.0851

bartowski

Qwen_Q3_K_M

14.95

6.772

1.7779

0.0585

bartowski

Qwen_Q3_K_XL

15.97

6.8245

1.7516

0.0627

bartowski

Qwen_IQ4_XS

17.42

6.6234

0.7265

0.0234

bartowski

Qwen_Q4_K_M

19.77

6.6097

0.5771

0.0182

bartowski

Qwen_Q5_K_M

23.11

6.5828

0.3549

0.0106

noctrex

MXFP4_MOE_BF16

20.55

6.5948

0.7939

0.0248

noctrex

MXFP4_MOE_F16

20.55

6.5937

0.7614

0.0247

Mis à jour

Ce contenu vous a-t-il été utile ?