# Benchmarks Qwen3.5 GGUF Nous avons mis à jour tous [Qwen3.5](/docs/fr/modeles/qwen3.5.md) Unsloth Dynamic quants **étant SOTA** sur presque tous les bits. Nous avons effectué plus de 150 benchmarks de divergence KL, au total **9 To de GGUFs**. Nous avons téléversé tous les artefacts de recherche. Nous avons également corrigé un **appel d'outil** problème de modèle de chat **(affecte tous les téléverseurs et types de quantification quel que soit l'endroit où vous l'utilisez ou d'où il provient)**. {% hint style="success" %} [**Mise à jour du 5 mars**](#id-4-march-5th-2026-update-more-robustness)**:** Retéléchargez Qwen3.5-**35B**, **27B,** **122B** et **397B.** * Tous les GGUFs sont désormais mis à jour avec une **quantification améliorée** algorithme. * Tous utilisent notre **nouvelle donnée imatrix**. Voyez quelques améliorations dans les cas d'utilisation chat, codage, contexte long et appel d'outils. **Nouveaux benchmarks** pour Qwen3.5-122B-A10B et 35-A3B disponibles maintenant ! {% endhint %} {% hint style="info" %} Vous voulez voir comment exécuter le modèle + exigences matérielles ? Lisez notre [guide d'inférence](/docs/fr/modeles/qwen3.5.md). {% endhint %} **La divergence KL à 99,9 % montre le SOTA** sur le front de Pareto pour [Unsloth Dynamic](/docs/fr/bases/unsloth-dynamic-2.0-ggufs.md) `Q4_K_XL`, `IQ3_XXS` etc. :

* Imatrix aide définitivement à réduire KLD et PPL, au prix d'une inference 5-10 % plus lente. * Nous avons testé nos GGUFs contre de nombreux autres fournisseurs * Quantifier ssm\_out (couches Mamba) n'est pas une bonne idée, ni ffn\_down\_exps. * **Retrait de MXFP4** de toutes les quants GGUF : Q2\_K\_XL, Q3\_K\_XL et Q4\_K\_XL, sauf pour le pur MXFP4\_MOE. | [Qwen3.5-35B-A3B](https://huggingface.co/unsloth/Qwen3.5-35B-A3B-GGUF) | [Qwen3.5-27B](https://huggingface.co/unsloth/Qwen3.5-27B-GGUF) | [Qwen3.5-122B-A10B](https://huggingface.co/unsloth/Qwen3.5-122B-A10B-GGUF) | [Qwen3.5-397B-A17B](https://huggingface.co/unsloth/Qwen3.5-397B-A17B-GGUF) | | ---------------------------------------------------------------------- | -------------------------------------------------------------- | -------------------------------------------------------------------------- | -------------------------------------------------------------------------- |

Nouveaux benchmarks GGUF Qwen3.5-9B réalisés par Benjamin Marie

### 1) **Certaines tenseurs sont très sensibles à la quantification** * Nous avons rendu plus de 9 To d'artefacts de recherche disponibles pour la communauté afin d'investiguer davantage sur notre [page Expériences](https://huggingface.co/unsloth/Qwen3.5-35B-A3B-Experiments-GGUF). Elle inclut les métriques KLD et toutes les 121 configurations que nous avons testées. * Nous avons varié les largeurs de bits pour chaque type de tenseur, et généré un tracé du front de Pareto meilleur et pire ci-dessous vs KLD à 99,9 %. * Pour les éléments les mieux quantifiables, ffn\_up\_exps et ffn\_gate\_exps sont généralement acceptables à quantifier en 3 bits. ffn\_down\_exps est légèrement plus sensible. * Pour les pires éléments, ssm\_out augmente dramatiquement la KLD et les économies d'espace disque sont minimes. Par exemple, ssm\_out en q2\_k fait beaucoup pire. **Quantifier n'importe quel attn\_\* est particulièrement sensible** pour les architectures hybrides, et donc les laisser en précision supérieure fonctionne bien.

{% columns %} {% column %} **Type de tenseur vs bits sur la divergence KL à 99,9 %** * Nous traçons tous les niveaux de quantification vs KLD à 99,9 %, et trions du pire KLD au meilleur. Quantifier excessivement les couches ffn\_\* n'est pas une bonne idée. * Cependant, **certaines largeurs de bits sont bonnes, en particulier 3 bits**. - par exemple laisser ffn\_\* (down, up, gate) autour de iq3\_xxs semble être le meilleur compromis entre l'espace disque et le changement de KLD à 99,9 %. 2 bits causent plus de dégradation. {% endcolumn %} {% column %}

{% endcolumn %} {% endcolumns %} **MXFP4 est bien pire sur de nombreux tenseurs** - attn\_gate, attn\_q, ssm\_beta, ssm\_alpha utiliser MXFP4 n'est pas une bonne idée, et Q4\_K est plutôt meilleur - aussi MXFP4 utilise 4,25 bits par poids, tandis que Q4\_K utilise 4,5 bits par poids. Il vaut mieux utiliser Q4\_K que MXFP4 quand on choisit entre eux.

Comme vous pouvez le voir, MXFP4 est inhabituellement élevé

### **2) Imatrix fonctionne très bien** * Imatrix aide définitivement à orienter correctement le processus de quantification. Par exemple auparavant ssm\_out à 2 bits était vraiment mauvais, cependant imatrix réduit beaucoup la KLD à 99,9 %. * Imatrix aide généralement sur les bits faibles, et fonctionne sur toutes les quants et largeurs de bits. * ```

``` Les quants I (iq3\_xxs, iq2\_s etc.) rendent l'inférence 5-10 % plus lente, ils sont définitivement meilleurs en termes d'efficacité, mais il y a un compromis. | Type | pp512 (≈) | tg128 (≈) | | -------- | --------- | --------- | | mxfp4 | 1978.69 | 90.67 | | q4\_k | 1976.44 | 90.38 | | q3\_k | 1972.61 | 91.36 | | q6\_k | 1964.55 | 90.50 | | q2\_k | 1964.20 | 90.77 | | q8\_0 | 1964.17 | 90.33 | | q5\_k | 1947.74 | 90.72 | | iq3\_xxs | 2030.94 | 85.68 | | iq2\_xxs | 1997.64 | 85.79 | | iq3\_s | 1990.12 | 84.37 | | iq2\_xs | 1967.85 | 85.19 | | iq2\_s | 1952.50 | 85.04 | ### **3) La perplexité et la KLD peuvent être trompeuses** La perplexité et la KLD peuvent être trompeuses car elles sont fortement influencées par la calibration. La plupart des GGUFs sont évalués sur Wiki-test avec des fenêtres de contexte de 512, donc les résultats changent beaucoup si l'ensemble de calibration imatrix du GGUF inclut des échantillons de type Wikipedia et de contexte 512 (comme c'est le cas pour la plupart des GGUFs). C'est pourquoi nos GGUFs montrent parfois une perplexité plus élevée car nos données imatrix utilisent plutôt des exemples de chat à long contexte et d'appel d'outils.

[L'analyse récente MiniMax‑M2.5 de Benjamin](https://x.com/bnjmn_marie/status/2027043753484021810) montre un cas où la perplexité et la KLD peuvent être très trompeuses. Unsloth Dynamic IQ2\_XXS performe mieux que IQ3\_S d'AesSedai sur des évaluations réelles (LiveCodeBench v6, MMLU Pro) malgré être 11 Go plus petit. Pourtant, les benchmarks de perplexité et KLD d'AesSedai suggèrent le contraire. (PPL : 0.3552 vs 0.2441 ; KLD : 9.0338 vs 8.2849 - plus bas est meilleur).

Ce décalage montre qu'une perplexité ou une KLD plus basse ne se traduit pas nécessairement par de meilleures performances dans le monde réel. Le graphique montre aussi UD‑Q4‑K‑XL surpassant d'autres quants Q4, tout en étant \~8 Go plus petit. Cela ne signifie pas que la perplexité ou la KLD soit inutile, puisqu'elles donnent un signal approximatif. Ainsi, à l'avenir, nous publierons la perplexité et la KLD pour chaque quant afin que la communauté dispose d'une sorte de référence. ### 4) Mise à jour du 5 mars 2026 - plus de robustesse Nous avons encore amélioré notre méthode de quantification pour les MoE Qwen3.5 afin de réduire directement la KLD maximale. 99,9 % est généralement utilisé, mais pour des valeurs aberrantes massives, la KLD maximale peut être utile. Notre nouvelle méthode réduit généralement beaucoup la KLD maximale par rapport à l'état avant la mise à jour du 5 mars.

| Quant | Ancien Go | Nouveau Go | Ancienne KLD Max | Nouvelle KLD Max | | ------------ | ---------- | ------------ | ---------------- | ------------------ | | UD-Q2\_K\_XL | 12.0 | ***11.3*** | 8.237 | ***8.155*** | | UD-Q3\_K\_XL | 16.1 | ***15.5*** | 5.505 | ***5.146*** | | UD-Q4\_K\_XL | ***19.2*** | 20.7 (+7.8%) | 5.894 | ***2.877 (-51%)*** | | UD-Q5\_K\_XL | ***23.2*** | 24.6 (+6%) | 5.536 | ***3.210 (-42%)*** | ### Benchmarks complets | Quantiseur | Niveau de quantification | Espace disque (Go) | PPL | KLD 99,9 % | KLD moyenne | | ---------- | ------------------------ | ------------------ | ------ | ---------- | ----------- | | AesSedai | IQ3\_S | 12.65 | 6.9152 | 1.8669 | 0.0613 | | AesSedai | IQ4\_XS | 16.4 | 6.6447 | 0.8067 | 0.0235 | | AesSedai | Q4\_K\_M | 20.62 | 6.5665 | 0.3171 | 0.0096 | | AesSedai | Q5\_K\_M | 24.45 | 6.5356 | 0.21 | 0.0058 | | Ubergarm | Q4\_0 | 19.79 | 6.5784 | 0.4829 | 0.0142 | | Unsloth | IQ2\_XXS | 9.09 | 7.716 | 4.2221 | 0.1846 | | Unsloth | Q2\_K\_XL | 12.04 | 7.0438 | 2.9092 | 0.097 | | Unsloth | IQ3\_XXS | 13.12 | 6.7829 | 1.5296 | 0.0501 | | Unsloth | IQ3\_S | 14.13 | 6.7715 | 1.4193 | 0.0457 | | Unsloth | Q3\_K\_M | 15.54 | 6.732 | 0.9726 | 0.0324 | | Unsloth | Q3\_K\_XL | 16.06 | 6.7245 | 0.9539 | 0.0308 | | Unsloth | MXFP4\_MOE | 18.17 | 6.6 | 0.7789 | 0.0272 | | Unsloth | Q4\_K\_M | 18.49 | 6.6053 | 0.5478 | 0.0192 | | Unsloth | Q4\_K\_L | 18.82 | 6.5905 | 0.4828 | 0.015 | | Unsloth | Q4\_K\_XL | 19.17 | 6.5918 | 0.4097 | 0.0137 | | Unsloth | Q5\_K\_XL | 23.22 | 6.5489 | 0.236 | 0.0069 | | Unsloth | Q6\_K\_S | 26.56 | 6.5456 | 0.2226 | 0.0065 | | Unsloth | Q6\_K\_XL | 28.22 | 6.5392 | 0.1437 | 0.0041 | | Unsloth | Q8\_K\_XL | 36.04 | 6.5352 | 0.1033 | 0.0026 | | bartowski | Qwen\_IQ2\_XXS | 8.15 | 9.3427 | 6.0607 | 0.3457 | | bartowski | Qwen\_Q2\_K\_L | 11.98 | 7.5504 | 3.8095 | 0.1559 | | bartowski | Qwen\_IQ3\_XXS | 12.94 | 7.0938 | 2.1563 | 0.0851 | | bartowski | Qwen\_Q3\_K\_M | 14.95 | 6.772 | 1.7779 | 0.0585 | | bartowski | Qwen\_Q3\_K\_XL | 15.97 | 6.8245 | 1.7516 | 0.0627 | | bartowski | Qwen\_IQ4\_XS | 17.42 | 6.6234 | 0.7265 | 0.0234 | | bartowski | Qwen\_Q4\_K\_M | 19.77[^1] | 6.6097 | 0.5771 | 0.0182 | | bartowski | Qwen\_Q5\_K\_M | 23.11 | 6.5828 | 0.3549 | 0.0106 | | noctrex | MXFP4\_MOE\_BF16 | 20.55 | 6.5948 | 0.7939 | 0.0248 | | noctrex | MXFP4\_MOE\_F16 | 20.55 | 6.5937 | 0.7614 | 0.0247 | [^1]: Le Q4\_K\_M de Bartowski est 1 Go plus grand que celui d'Unsloth --- # Agent Instructions: Querying This Documentation If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question. Perform an HTTP GET request on the current page URL with the `ask` query parameter: ``` GET https://unsloth.ai/docs/fr/modeles/qwen3.5/gguf-benchmarks.md?ask= ``` The question should be specific, self-contained, and written in natural language. The response will contain a direct answer to the question and relevant excerpts and sources from the documentation. Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.