# Qwen3.5 GGUF-Benchmarks Wir haben alle aktualisiert [Qwen3.5](/docs/de/modelle/qwen3.5.md) Unsloth Dynamic Quants **als SOTA** bei fast allen Bit-Größen. Wir führten über 150 KL-Divergenz-Benchmarks durch, insgesamt **9TB an GGUFs**. Wir haben alle Forschungsartefakte hochgeladen. Wir haben außerdem ein **Tool-Aufruf** Chat-Vorlagenproblem **(betrifft alle Quant-Uploader und -Typen, unabhängig davon, wo Sie sie verwenden oder wo sie herkommen)**. {% hint style="success" %} [**Update vom 5. März**](#id-4-march-5th-2026-update-more-robustness)**:** Qwen3.5- erneut herunterladen**35B**, **27B,** **122B** und **397B.** * Alle GGUFs sind jetzt mit einer **verbesserten Quantisierungs-** algorithmus aktualisiert. * Alle verwenden unsere **neuen imatrix-Daten**. Sehen Sie einige Verbesserungen im Chat, beim Codieren, bei langen Kontexten und bei Tool-Calling-Anwendungsfällen. **Neue Benchmarks** für Qwen3.5-122B-A10B und 35-A3B jetzt verfügbar! {% endhint %} {% hint style="info" %} Möchten Sie sehen, wie man das Modell ausführt + Hardwareanforderungen? Lesen Sie unseren [Inference-Guide](/docs/de/modelle/qwen3.5.md). {% endhint %} **99,9% KL-Divergenz zeigt SOTA** auf der Pareto-Grenze für [Unsloth Dynamic](/docs/de/grundlagen/unsloth-dynamic-2.0-ggufs.md) `Q4_K_XL`, `IQ3_XXS` usw.:

* Imatrix hilft definitiv, KLD & PPL zu reduzieren, auf Kosten einer 5–10% langsameren Inferenz. * Wir haben unsere GGUFs gegen viele andere Anbieter getestet * Die Quantisierung von ssm\_out (Mamba-Schichten) ist keine gute Idee, ebenso wenig wie ffn\_down\_exps. * **MXFP4 wird eingestellt** aus allen GGUF-Quants: Q2\_K\_XL, Q3\_K\_XL und Q4\_K\_XL, außer für reines MXFP4\_MOE. | [Qwen3.5-35B-A3B](https://huggingface.co/unsloth/Qwen3.5-35B-A3B-GGUF) | [Qwen3.5-27B](https://huggingface.co/unsloth/Qwen3.5-27B-GGUF) | [Qwen3.5-122B-A10B](https://huggingface.co/unsloth/Qwen3.5-122B-A10B-GGUF) | [Qwen3.5-397B-A17B](https://huggingface.co/unsloth/Qwen3.5-397B-A17B-GGUF) | | ---------------------------------------------------------------------- | -------------------------------------------------------------- | -------------------------------------------------------------------------- | -------------------------------------------------------------------------- |

Neue Qwen3.5-9B GGUF-Benchmarks durchgeführt von Benjamin Marie

### 1) **Einige Tensoren sind sehr empfindlich gegenüber Quantisierung** * Wir haben über 9TB an Forschungsartefakten für die Community bereitgestellt, damit diese weiter untersucht werden können auf unserer [Experimente-Seite](https://huggingface.co/unsloth/Qwen3.5-35B-A3B-Experiments-GGUF). Sie enthält KLD-Metriken und alle 121 Konfigurationen, die wir getestet haben. * Wir variierten die Bit-Breiten über jeden Tensor-Typ und erzeugten unten ein Best- und Worst-Pareto-Front-Plot gegenüber 99,9% KLD. * Bei den am besten zu quantisierenden Elementen sind ffn\_up\_exps und ffn\_gate\_exps allgemein in Ordnung, auf 3 Bit zu quantisieren. ffn\_down\_exps ist etwas empfindlicher. * Bei den schlechtesten Elementen erhöht ssm\_out die KLD drastisch und die Einsparungen an Festplattenspeicher sind minimal. Zum Beispiel schneidet ssm\_out bei q2\_k dramatisch schlechter ab. **Die Quantisierung irgendeines attn\_\* ist besonders empfindlich** für hybride Architekturen, und sie in höherer Präzision zu belassen funktioniert gut.

{% columns %} {% column %} **Tensor-Typ vs. Bits bei 99,9% KL-Divergenz** * Wir plotten alle Quant-Stufen gegen 99,9% KLD und sortieren von schlechtester KLD bis bester. Das zu starke Herunterquantisieren von ffn\_\* Schichten ist keine gute Idee. * Allerdings, **einige Bit-Breiten sind gut, besonders 3 Bit**. - zum Beispiel scheint es ein guter Kompromiss zwischen Festplattenplatz und 99,9% KLD-Änderung zu sein, ffn\_\* (down, up, gate) bei etwa iq3\_xxs zu belassen. 2 Bits verursachen mehr Verschlechterung. {% endcolumn %} {% column %}

{% endcolumn %} {% endcolumns %} **MXFP4 ist bei vielen Tensoren deutlich schlechter** - attn\_gate, attn\_q, ssm\_beta, ssm\_alpha mit MXFP4 zu verwenden ist keine gute Idee, eher ist Q4\_K besser – außerdem verwendet MXFP4 4,25 Bits pro Gewicht, während Q4\_K 4,5 Bits pro Gewicht verwendet. Es ist besser, Q4\_K statt MXFP4 zu verwenden, wenn man zwischen ihnen wählt.

Wie Sie sehen können, ist MXFP4 ungewöhnlich hoch

### **2) Imatrix funktioniert sehr gut** * Imatrix hilft definitiv, den Quantisierungsprozess in die richtige Richtung zu gewichten. Zum Beispiel war ssm\_out zuvor bei 2 Bits wirklich schlecht, jedoch reduziert imatrix die 99,9% KLD erheblich. * Imatrix hilft generell bei niedrigeren Bits und funktioniert bei allen Quants und Bit-Breiten. * ```

``` I-Quants (iq3\_xxs, iq2\_s etc.) machen die Inferenz 5–10% langsamer, sie sind in Bezug auf Effizienz definitiv besser, aber es gibt einen Kompromiss. | Typ | pp512 (≈) | tg128 (≈) | | -------- | --------- | --------- | | mxfp4 | 1978.69 | 90.67 | | q4\_k | 1976.44 | 90.38 | | q3\_k | 1972.61 | 91.36 | | q6\_k | 1964.55 | 90.50 | | q2\_k | 1964.20 | 90.77 | | q8\_0 | 1964.17 | 90.33 | | q5\_k | 1947.74 | 90.72 | | iq3\_xxs | 2030.94 | 85.68 | | iq2\_xxs | 1997.64 | 85.79 | | iq3\_s | 1990.12 | 84.37 | | iq2\_xs | 1967.85 | 85.19 | | iq2\_s | 1952.50 | 85.04 | ### **3) Perplexität & KLD können irreführend sein** Perplexität und KLD können irreführend sein, da sie stark durch Kalibrierung beeinflusst werden. Die meisten GGUFs werden auf Wiki-Test mit 512 Kontextfenstern bewertet, sodass sich die Ergebnisse stark verschieben, wenn der Imatrix-Kalibrierungssatz des GGUF Wikipedia-ähnliche und 512-Kontext-Beispiele enthält (wie die meisten GGUFs). Deshalb zeigen unsere GGUFs manchmal höhere Perplexität, da unsere imatrix-Daten eher lange Kontext-Chats und Tool-Calling-Beispiele verwenden.

[Benjamins kürzliche MiniMax‑M2.5-Analyse](https://x.com/bnjmn_marie/status/2027043753484021810) zeigt ein Beispiel dafür, wie Perplexität und KLD sehr irreführend sein können. Unsloth Dynamic IQ2\_XXS schneidet bei realen Evaluierungen (LiveCodeBench v6, MMLU Pro) besser ab als AesSedais IQ3\_S, obwohl es 11 GB kleiner ist. Dennoch legen AesSedais Perplexity- und KLD-Benchmarks das Gegenteil nahe. (PPL: 0,3552 vs. 0,2441; KLD: 9,0338 vs. 8,2849 - niedriger ist besser).

Diese Diskrepanz zeigt, dass niedrigere Perplexität oder KLD nicht unbedingt in bessere reale Leistung übersetzt. Das Diagramm zeigt außerdem UD‑Q4-K‑XL, das andere Q4-Quants übertrifft, während es \~8 GB kleiner ist. Das bedeutet nicht, dass Perplexität oder KLD nutzlos sind, da sie ein grobes Signal liefern. Daher werden wir zukünftig Perplexität und KLD für jeden Quant veröffentlichen, damit die Community eine Art Referenz hat. ### 4) Update vom 5. März 2026 - mehr Robustheit Wir haben unsere Quantisierungsmethode für Qwen3.5 MoEs weiter verbessert, um die maximale KLD direkt zu reduzieren. 99,9% ist das, was allgemein verwendet wird, aber für massive Ausreißer kann die maximale KLD nützlich sein. Unsere neue Methode senkt die maximale KLD im Allgemeinen deutlich im Vergleich zur Zeit vor dem Update vom 5. März.

| Quant | Alt GB | Neu GB | Alte Max-KLD | Neue Max-KLD | | ------------ | ---------- | ------------ | ------------ | ------------------ | | UD-Q2\_K\_XL | 12.0 | ***11.3*** | 8.237 | ***8.155*** | | UD-Q3\_K\_XL | 16.1 | ***15.5*** | 5.505 | ***5.146*** | | UD-Q4\_K\_XL | ***19.2*** | 20.7 (+7.8%) | 5.894 | ***2.877 (-51%)*** | | UD-Q5\_K\_XL | ***23.2*** | 24.6 (+6%) | 5.536 | ***3.210 (-42%)*** | ### Volle Benchmarks | Quantisierer | Quant-Stufe | Plattenspeicher (GB) | PPL | KLD 99,9% | Mittlere KLD | | ------------ | ---------------- | -------------------- | ------ | --------- | ------------ | | AesSedai | IQ3\_S | 12.65 | 6.9152 | 1.8669 | 0.0613 | | AesSedai | IQ4\_XS | 16.4 | 6.6447 | 0.8067 | 0.0235 | | AesSedai | Q4\_K\_M | 20.62 | 6.5665 | 0.3171 | 0.0096 | | AesSedai | Q5\_K\_M | 24.45 | 6.5356 | 0.21 | 0.0058 | | Ubergarm | Q4\_0 | 19.79 | 6.5784 | 0.4829 | 0.0142 | | Unsloth | IQ2\_XXS | 9.09 | 7.716 | 4.2221 | 0.1846 | | Unsloth | Q2\_K\_XL | 12.04 | 7.0438 | 2.9092 | 0.097 | | Unsloth | IQ3\_XXS | 13.12 | 6.7829 | 1.5296 | 0.0501 | | Unsloth | IQ3\_S | 14.13 | 6.7715 | 1.4193 | 0.0457 | | Unsloth | Q3\_K\_M | 15.54 | 6.732 | 0.9726 | 0.0324 | | Unsloth | Q3\_K\_XL | 16.06 | 6.7245 | 0.9539 | 0.0308 | | Unsloth | MXFP4\_MOE | 18.17 | 6.6 | 0.7789 | 0.0272 | | Unsloth | Q4\_K\_M | 18.49 | 6.6053 | 0.5478 | 0.0192 | | Unsloth | Q4\_K\_L | 18.82 | 6.5905 | 0.4828 | 0.015 | | Unsloth | Q4\_K\_XL | 19.17 | 6.5918 | 0.4097 | 0.0137 | | Unsloth | Q5\_K\_XL | 23.22 | 6.5489 | 0.236 | 0.0069 | | Unsloth | Q6\_K\_S | 26.56 | 6.5456 | 0.2226 | 0.0065 | | Unsloth | Q6\_K\_XL | 28.22 | 6.5392 | 0.1437 | 0.0041 | | Unsloth | Q8\_K\_XL | 36.04 | 6.5352 | 0.1033 | 0.0026 | | bartowski | Qwen\_IQ2\_XXS | 8.15 | 9.3427 | 6.0607 | 0.3457 | | bartowski | Qwen\_Q2\_K\_L | 11.98 | 7.5504 | 3.8095 | 0.1559 | | bartowski | Qwen\_IQ3\_XXS | 12.94 | 7.0938 | 2.1563 | 0.0851 | | bartowski | Qwen\_Q3\_K\_M | 14.95 | 6.772 | 1.7779 | 0.0585 | | bartowski | Qwen\_Q3\_K\_XL | 15.97 | 6.8245 | 1.7516 | 0.0627 | | bartowski | Qwen\_IQ4\_XS | 17.42 | 6.6234 | 0.7265 | 0.0234 | | bartowski | Qwen\_Q4\_K\_M | 19.77[^1] | 6.6097 | 0.5771 | 0.0182 | | bartowski | Qwen\_Q5\_K\_M | 23.11 | 6.5828 | 0.3549 | 0.0106 | | noctrex | MXFP4\_MOE\_BF16 | 20.55 | 6.5948 | 0.7939 | 0.0248 | | noctrex | MXFP4\_MOE\_F16 | 20.55 | 6.5937 | 0.7614 | 0.0247 | [^1]: Bartowskis Q4\_K\_M ist 1 GB größer als Unsloths --- # Agent Instructions: Querying This Documentation If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question. Perform an HTTP GET request on the current page URL with the `ask` query parameter: ``` GET https://unsloth.ai/docs/de/modelle/qwen3.5/gguf-benchmarks.md?ask= ``` The question should be specific, self-contained, and written in natural language. The response will contain a direct answer to the question and relevant excerpts and sources from the documentation. Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.