# Unsloth Dynamic 2.0 GGUFs

Wir freuen uns, vorzustellen [Unsloth](https://github.com/unslothai/unsloth) Dynamic-v2.0-Quantisierung – ein großes Upgrade gegenüber unseren bisherigen Quants. Diese neue Methode übertrifft führende Quantisierungsmethoden und setzt neue Maßstäbe für [Aider Polglot](https://unsloth.ai/docs/de/grundlagen/unsloth-dynamic-2.0-ggufs/unsloth-dynamic-ggufs-on-aider-polyglot), 5-Shot MMLU und KL-Divergenz.

Das bedeutet, dass du jetzt ausführen und feinabstimmen kannst [quantisierte LLMs](https://unsloth.ai/docs/de/modelle/tutorials) während so viel Genauigkeit wie möglich erhalten bleibt! Du kannst die 2.0 GGUFs auf den meisten Inferenz-Engines wie llama.cpp ausführen, [Unsloth Studio](https://unsloth.ai/docs/de/neu/studio) usw.

{% columns %}
{% column %}
[**Update vom 27. Feb. 2026:**](https://unsloth.ai/docs/de/modelle/qwen3.5/gguf-benchmarks) **Qwen3.5** ist da, und wir haben einige Probleme mit Chat-Templates für Tool-Calls behoben und jeden GGUF in Bezug auf Perplexität und KL-Divergenz bewertet. [Sieh dir die Benchmarks an!](https://unsloth.ai/docs/de/modelle/qwen3.5/gguf-benchmarks)

Der **entscheidende Vorteil** der Verwendung des [Unsloth-Pakets](https://github.com/unslothai/unsloth) und der Quants liegt in unserer aktiven Rolle beim Beheben von Fehlern in großen Modellen. Wir haben direkt mit den Teams hinter [Qwen3](https://www.reddit.com/r/LocalLLaMA/comments/1kaodxu/qwen3_unsloth_dynamic_ggufs_128k_context_bug_fixes/), [Meta (Llama 4)](https://github.com/ggml-org/llama.cpp/pull/12889), [Mistral (Devstral)](https://app.gitbook.com/o/HpyELzcNe0topgVLGCZY/s/xhOjnexMCB3dmuQFQ2Zq/~/changes/618/basics/tutorials-how-to-fine-tune-and-run-llms/devstral-how-to-run-and-fine-tune), [Google (Gemma 1–3)](https://news.ycombinator.com/item?id=39671146) und [Microsoft (Phi-3/4)](https://simonwillison.net/2025/Jan/11/phi-4-bug-fixes)zusammengearbeitet und Fixes beigetragen, die die Genauigkeit erhöhen.
{% endcolumn %}

{% column %}

<figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fj1czqFbUVh9iLLqCTxaS%2Fjengejejr.png?alt=media&#x26;token=1fcff72d-6540-4016-8664-db4f146eb731" alt=""><figcaption></figcaption></figure>
{% endcolumn %}
{% endcolumns %}

{% hint style="success" %}
Unsloth Dynamic GGUFs können jetzt ausgeführt werden in [Unsloth Studio](https://unsloth.ai/docs/de/neu/studio) ✨

<img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FVrLgXwplAMcvkU4owjPk%2F26b%20gif.gif?alt=media&#x26;token=8a569952-c152-435f-b815-c9f295619587" alt="" data-size="original">
{% endhint %}

{% hint style="success" %}
[Update vom 10. Sept. 2025:](https://unsloth.ai/docs/de/grundlagen/unsloth-dynamic-2.0-ggufs/unsloth-dynamic-ggufs-on-aider-polyglot) Ihr habt nach härteren Benchmarks gefragt, also hier sind die Ergebnisse von Aider Polyglot! Unser Dynamic-3-Bit-DeepSeek-V3.1-GGUF erzielt **75.6%**&#x75;nd übertrifft damit viele SOTA-LLMs in voller Präzision. [Mehr lesen.](https://unsloth.ai/docs/de/grundlagen/unsloth-dynamic-2.0-ggufs/unsloth-dynamic-ggufs-on-aider-polyglot)

<img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-a114143bdd47add988182aabf9313ab40be38d7d%2Faider%20thinking.png?alt=media" alt="DeepSeek-V3.2 Thinking Aider Benchmarks" data-size="original"><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-b085c16c7f8351308229f1341846cbf1a2617d0a%2Faider%20non.png?alt=media" alt="Llama 4 5-shot MMLU Benchmarks" data-size="original">
{% endhint %}

Du kannst auch reale Anwendungsfall-Benchmarks ansehen, die von Benjamin Marie für LiveCodeBench v6, MMLU Pro usw. durchgeführt wurden:

<div><figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FhfO2gsbz2lWrZXg3ojyE%2FHCGBTzgboAASv_A.png?alt=media&#x26;token=7d6334ca-4f3c-4946-aacd-d55527375fce" alt="" width="563"><figcaption></figcaption></figure> <figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Ftbfnqq8ppzwFbeqPhnw0%2FHAfMRrrXQAALkQb.png?alt=media&#x26;token=9730d4e1-3d4a-4ae6-92bf-32aa6724ab86" alt="" width="450"><figcaption></figcaption></figure></div>

Du kannst sehen, wie die GGUFs von Unsloth besser abschneiden als die nicht von Unsloth stammenden Quants, obwohl sie etwa 8 GB kleiner sind.

Eine detaillierte Analyse unserer Benchmarks und der Auswertung findest du weiter unten.

### 💡 Was ist neu in Dynamic v2.0?

* **Überarbeitete Layer-Auswahl für GGUFs + safetensors:** Unsloth Dynamic 2.0 quantisiert nun selektiv und deutlich intelligenter sowie umfassender Layer. Statt nur ausgewählte Layer zu verändern, passen wir jetzt dynamisch den Quantisierungstyp jedes möglichen Layers an, und die Kombinationen unterscheiden sich für jeden Layer und jedes Modell.
* Die aktuell ausgewählten und alle zukünftigen GGUF-Uploads verwenden Dynamic 2.0 und unseren neuen Kalibrierungsdatensatz. Der Datensatz enthält mehr als >1,5 Mio. **Tokens** (je nach Modell) und besteht aus hochwertigen, von Hand kuratierten und bereinigten Daten – um die Chat-Leistung erheblich zu verbessern.
* Zuvor funktionierte unsere dynamische Quantisierung (DeepSeek-R1 1,58-Bit-GGUF) nur für MoE-Architekturen. <mark style="background-color:green;">**Dynamic-2.0-Quantisierung funktioniert jetzt auf allen Modellen (einschließlich MOEs und Non-MOEs)**</mark>.
* **Modellspezifische Quants:** Jedes Modell verwendet jetzt ein maßgeschneidertes Quantisierungsschema. Z. B. unterscheiden sich die in Gemma 3 quantisierten Layer deutlich von denen in Llama 4.
* Um die Effizienz zu maximieren, insbesondere auf Apple-Silicon- und ARM-Geräten, fügen wir jetzt auch Q4\_NL-, Q5.1-, Q5.0-, Q4.1- und Q4.0-Formate hinzu.

Um ein genaues Benchmarking sicherzustellen, haben wir ein internes Evaluierungsframework entwickelt, das die offiziell gemeldeten 5-Shot-MMLU-Scores von Llama 4 und Gemma 3 reproduziert. Dies ermöglichte einen direkten Vergleich zwischen voller Präzision vs. Dynamic v2.0, **QAT** und standardmäßigen **imatrix** GGUF-Quants.

<div><figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-fd0a92a2bea8efa37b71946ea934a22f00589f40%2Fkldivergence%20graph.png?alt=media" alt="" width="563"><figcaption></figcaption></figure> <figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-76662317725a3b76fb1e5e33b586c86e712bee6f%2F5shotmmlu.png?alt=media" alt="" width="563"><figcaption></figcaption></figure></div>

Alle zukünftigen GGUF-Uploads werden Unsloth Dynamic 2.0 verwenden, und unsere Dynamic-4-Bit-Safe-Tensor-Quants werden davon in Zukunft ebenfalls profitieren.

## 📊 Warum KL-Divergenz?

[Genauigkeit ist nicht alles, was du brauchst](https://arxiv.org/pdf/2407.09141) zeigt, wie das Beschneiden von Layern, selbst wenn unnötige ausgewählt werden, dennoch enorme Unterschiede in Bezug auf „Flips“ erzeugt. Ein „Flip“ ist definiert als ein Wechsel der Antworten von falsch zu richtig oder umgekehrt. Das Paper zeigt, dass MMLU möglicherweise nicht abnimmt, wenn wir Layer beschneiden oder quantisieren, aber das liegt daran, dass einige falsche Antworten zu richtigen „geflippt“ sein könnten. Unser Ziel ist es, das Originalmodell nachzubilden, daher ist das Messen von „Flips“ eine gute Kennzahl.

<div><figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-5a97c101b0df31fb49df20ce4241930897098cf8%2Fimage.png?alt=media" alt=""><figcaption></figcaption></figure> <figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-e4a60354ad8613b6f2361f63fa82c552e00fdda9%2Fimage.png?alt=media" alt=""><figcaption></figcaption></figure></div>

{% hint style="info" %}
**KL-Divergenz** sollte **einer der Goldstandards für die Berichterstattung über Quantisierungsfehler sein** gemäß dem Forschungsartikel „Accuracy is Not All You Need“. **Perplexity zu verwenden ist falsch** da sich die Werte der Ausgabetokens aufheben können, also müssen wir KLD oder härtere Benchmarks wie [Aider](https://unsloth.ai/docs/de/grundlagen/unsloth-dynamic-2.0-ggufs/unsloth-dynamic-ggufs-on-aider-polyglot).
{% endhint %}

Das Paper zeigt außerdem interessanterweise, dass KL-Divergenz stark mit Flips korreliert, und daher ist unser Ziel, die mittlere KL-Divergenz zu reduzieren und dabei den zusätzlichen Speicherbedarf der Quantisierung so gering wie möglich zu halten.

## ⚖️ Überfitting auf den Kalibrierungsdatensatz

Die meisten Frameworks berichten Perplexity und KL-Divergenz anhand eines Testsets aus Wikipedia-Artikeln. Allerdings haben wir festgestellt, dass die Verwendung des Kalibrierungsdatensatzes, der ebenfalls Wikipedia-bezogen ist, dazu führt, dass Quants überfitten und niedrigere Perplexity-Werte erreichen. Wir verwenden [Calibration\_v3](https://gist.github.com/bartowski1182/eb213dccb3571f863da82e99418f81e8) und [Calibration\_v5](https://gist.github.com/tristandruyen/9e207a95c7d75ddf37525d353e00659c/) Datensätze für faire Tests, die unter anderem einige Wikitext-Daten enthalten. <mark style="background-color:red;">**Außerdem haben Instruktionsmodelle einzigartige Chat-Templates, und die Verwendung reiner Text-Kalibrierungsdatensätze ist für Instruktionsmodelle nicht wirksam**</mark> (Basis-Modelle schon). Tatsächlich werden die meisten imatrix GGUFs typischerweise mit diesen Problemen kalibriert. Dadurch schneiden sie bei KL-Divergenz-Benchmarks, die ebenfalls Wikipedia-Daten verwenden, naturgemäß besser ab, da das Modell im Wesentlichen für diese Domäne optimiert ist.

Um eine faire und kontrollierte Bewertung sicherzustellen, verwenden wir unseren eigenen Kalibrierungsdatensatz (der für Chat-Leistung optimiert ist) nicht, wenn wir KL-Divergenz benchmarken. Stattdessen haben wir Tests mit denselben Standard-Wikipedia-Datensätzen durchgeführt, sodass wir die Leistung unserer Dynamic-2.0-Methode direkt mit dem Baseline-imatrix-Ansatz vergleichen konnten.

## :1234: MMLU-Replikationsabenteuer

* Die Reproduktion von MMLU 5-Shot war ein Albtraum. Wir <mark style="background-color:red;">**konnten nicht**</mark> MMLU-Ergebnisse für viele Modelle, einschließlich Llama 3.1 (8B) Instruct, Gemma 3 (12B) und andere, aufgrund von <mark style="background-color:yellow;">**subtilen Implementierungsproblemen**</mark>reproduzieren. Llama 3.1 (8B) sollte zum Beispiel etwa 68,2 % erreichen, während fehlerhafte Implementierungen <mark style="background-color:red;">**35 % Genauigkeit**</mark>

<figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-cc2b4b2bc512b3c9bc065250930259b9b9a9fce0%2FMMLU%20differences.png?alt=media" alt="" width="375"><figcaption><p>Probleme bei der MMLU-Implementierung</p></figcaption></figure>

* Llama 3.1 (8B) Instruct hat bei einer naiven MMLU-Implementierung eine MMLU-5-Shot-Genauigkeit von 67,8 %. Wir stellen jedoch fest, dass Llama **„A“ und „\_A“ (A mit einem Leerzeichen davor) als unterschiedliche Token-IDs tokenisiert**. Wenn wir sowohl Tokens mit als auch ohne Leerzeichen berücksichtigen, erhalten wir 68,2 % <mark style="background-color:green;">(+0.4%)</mark>
* Interessanterweise hängt Llama 3 laut dem [LLM Harness](https://github.com/EleutherAI/lm-evaluation-harness/blob/main/lm_eval/tasks/llama3/instruct/mmlu/_continuation_template_yaml) auch <mark style="background-color:purple;">**„Die beste Antwort ist“**</mark> an die Frage an, entsprechend den ursprünglichen MMLU-Benchmarks von Llama 3.
* Es gibt viele weitere subtile Probleme, und um alles in einer kontrollierten Umgebung zu benchmarken, haben wir unsere eigene MMLU-Implementierung von Grund auf neu entworfen, indem wir [github.com/hendrycks/test](https://github.com/hendrycks/test) direkt untersucht und unsere Ergebnisse über mehrere Modelle hinweg verifiziert und mit den berichteten Zahlen verglichen haben.

## :sparkles: Gemma 3 QAT-Replikation, Benchmarks

Das Gemma-Team hat zwei QAT-Versionen (Quantization Aware Training) von Gemma 3 veröffentlicht:

1. Q4\_0 GGUF – quantisiert alle Layer über die Formel `w = q * block_scale` wobei jeder Block 32 Gewichte hat. Siehe [llama.cpp-Wiki ](https://github.com/ggml-org/llama.cpp/wiki/Tensor-Encoding-Schemes)für weitere Details.
2. int4-Version – vermutlich [TorchAO-int4-Stil](https://github.com/pytorch/ao/blob/main/torchao/quantization/README.md)?

Wir haben alle Q4\_0-GGUF-Versionen gebenchmarkt und umfangreiche Experimente am 12B-Modell durchgeführt. Wir sehen, dass das **12B Q4\_0 QAT-Modell 67,07 % erreicht** während die volle bfloat16-12B-Version bei 5-Shot MMLU 67,15 % erreicht. Das ist sehr beeindruckend! Das 27B-Modell ist größtenteils fast dort!

<table><thead><tr><th>Metrik</th><th>1B</th><th valign="middle">4B</th><th>12B</th><th>27B</th></tr></thead><tbody><tr><td>MMLU 5-Shot</td><td>26.12%</td><td valign="middle">55.13%</td><td><mark style="background-color:blue;"><strong>67,07 % (67,15 % BF16)</strong></mark></td><td><strong>70,64 % (71,5 % BF16)</strong></td></tr><tr><td>Speicherplatz</td><td>0,93 GB</td><td valign="middle">2,94 GB</td><td><strong>7,52 GB</strong></td><td>16,05 GB</td></tr><tr><td><mark style="background-color:green;"><strong>Effizienz*</strong></mark></td><td>1.20</td><td valign="middle">10.26</td><td><strong>5.59</strong></td><td>2.84</td></tr></tbody></table>

Wir haben eine neue **Effizienzmetrik** entwickelt, die den Nutzen des Modells berechnet und dabei auch seine Datenträgergröße und den MMLU-5-Shot-Score berücksichtigt:

$$
\text{Efficiency} = \frac{\text{MMLU 5 shot score} - 25}{\text{Disk Space GB}}
$$

{% hint style="warning" %}
Wir müssen **minus 25** verwenden, da MMLU 4 Auswahlmöglichkeiten hat – A, B, C oder D. Nehmen wir an, wir erstellen ein Modell, das einfach zufällig Antworten auswählt – es würde 25 % Genauigkeit und nur wenige Bytes Speicherplatz haben. Aber offensichtlich ist das kein nützliches Modell.
{% endhint %}

Zur KL-Divergenz im Vergleich zum Basismodell zeigt die folgende Tabelle die Verbesserungen. Erinnerung: Je näher die KL-Divergenz an 0 liegt, desto besser (d. h. 0 bedeutet identisch mit dem Modell in voller Präzision)

| Quant     | Basis-KLD | GB    | Neue KLD | GB    |
| --------- | --------- | ----- | -------- | ----- |
| IQ1\_S    | 1.035688  | 5.83  | 0.972932 | 6.06  |
| IQ1\_M    | 0.832252  | 6.33  | 0.800049 | 6.51  |
| IQ2\_XXS  | 0.535764  | 7.16  | 0.521039 | 7.31  |
| IQ2\_M    | 0.26554   | 8.84  | 0.258192 | 8.96  |
| Q2\_K\_XL | 0.229671  | 9.78  | 0.220937 | 9.95  |
| Q3\_K\_XL | 0.087845  | 12.51 | 0.080617 | 12.76 |
| Q4\_K\_XL | 0.024916  | 15.41 | 0.023701 | 15.64 |

Wenn wir das Verhältnis des Anstiegs des Speicherplatzes und die Veränderung des KL-Divergenz-Verhältnisses auftragen, können wir einen viel klareren Vorteil sehen! Unser dynamisches 2-Bit-Q2\_K\_XL reduziert KLD ziemlich deutlich (um etwa 7,5 %).

<figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-5b352d0449e723556e6e871396c2ee78ae8ec3dc%2Fchart(2).svg?alt=media" alt=""><figcaption></figcaption></figure>

Gekürzte Ergebnistabelle für MMLU für Gemma 3 (27B). Siehe unten.

1. **Unsere dynamische 4-Bit-Version ist 2 GB kleiner und hat gleichzeitig +1 % zusätzliche Genauigkeit gegenüber der QAT-Version!**
2. In puncto Effizienz scheinen 2-Bit Q2\_K\_XL und andere sehr gut abzuschneiden!

| Quant          | Unsloth   | Unsloth + QAT | Datenträgergröße | Effizienz |
| -------------- | --------- | ------------- | ---------------- | --------- |
| IQ1\_M         | 48.10     | 47.23         | 6.51             | 3.42      |
| IQ2\_XXS       | 59.20     | 56.57         | 7.31             | 4.32      |
| IQ2\_M         | 66.47     | 64.47         | 8.96             | 4.40      |
| Q2\_K\_XL      | 68.70     | 67.77         | 9.95             | 4.30      |
| Q3\_K\_XL      | 70.87     | 69.50         | 12.76            | 3.49      |
| **Q4\_K\_XL**  | **71.47** | **71.07**     | **15.64**        | **2.94**  |
| **Google QAT** |           | **70.64**     | **17.2**         | **2.65**  |

<details>

<summary><mark style="color:grün;">Hier klicken</mark> für die vollständigen QAT-Benchmarks von Googles Gemma 3 (27B):</summary>

| Modell         | Unsloth   | Unsloth + QAT | Datenträgergröße | Effizienz |
| -------------- | --------- | ------------- | ---------------- | --------- |
| IQ1\_S         | 41.87     | 43.37         | 6.06             | 3.03      |
| IQ1\_M         | 48.10     | 47.23         | 6.51             | 3.42      |
| IQ2\_XXS       | 59.20     | 56.57         | 7.31             | 4.32      |
| IQ2\_M         | 66.47     | 64.47         | 8.96             | 4.40      |
| Q2\_K          | 68.50     | 67.60         | 9.78             | 4.35      |
| Q2\_K\_XL      | 68.70     | 67.77         | 9.95             | 4.30      |
| IQ3\_XXS       | 68.27     | 67.07         | 10.07            | 4.18      |
| Q3\_K\_M       | 70.70     | 69.77         | 12.51            | 3.58      |
| Q3\_K\_XL      | 70.87     | 69.50         | 12.76            | 3.49      |
| Q4\_K\_M       | 71.23     | 71.00         | 15.41            | 2.98      |
| **Q4\_K\_XL**  | **71.47** | **71.07**     | **15.64**        | **2.94**  |
| Q5\_K\_M       | 71.77     | 71.23         | 17.95            | 2.58      |
| Q6\_K          | 71.87     | 71.60         | 20.64            | 2.26      |
| Q8\_0          | 71.60     | 71.53         | 26.74            | 1.74      |
| **Google QAT** |           | **70.64**     | **17.2**         | **2.65**  |

</details>

## :llama: Llama 4 Bugfixes + Ausführen

Wir haben auch bei einigen Llama-4-Fehlern geholfen und diese behoben:

* Llama 4 Scout hat die RoPE-Scaling-Konfiguration in ihrem offiziellen Repo geändert. Wir haben geholfen, Probleme in llama.cpp zu beheben, um dies zu ermöglichen [Änderung hier](https://github.com/ggml-org/llama.cpp/pull/12889)

  <figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-7ff8229dfa96425f50c2c87f9ca988ef9cc99eff%2Fimage.png?alt=media" alt=""><figcaption></figcaption></figure>
* Das Epsilon von Llama 4s QK Norm für sowohl Scout als auch Maverick sollte aus der Konfigurationsdatei stammen – das bedeutet, 1e-05 und nicht 1e-06 zu verwenden. Wir haben geholfen, diese in [llama.cpp](https://github.com/ggml-org/llama.cpp/pull/12889) und [transformers](https://github.com/huggingface/transformers/pull/37418)
* Das Llama-4-Team und vLLM haben ebenfalls unabhängig voneinander ein Problem behoben, bei dem QK Norm über alle Heads hinweg geteilt wurde (sollte nicht so sein) [hier](https://github.com/vllm-project/vllm/pull/16311). MMLU Pro stieg von 68,58 % auf 71,53 % Genauigkeit.
* [Wolfram Ravenwolf](https://x.com/WolframRvnwlf/status/1909735579564331016) zeigte, wie unsere GGUFs über llama.cpp eine deutlich höhere Genauigkeit erreichen als Drittanbieter-Inferenzdienste – das war höchstwahrscheinlich eine Kombination der oben erläuterten Probleme und wahrscheinlich auch auf Quantisierungsprobleme zurückzuführen.

  <figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-76c49d8c8e3e42f7407f431a2cede369f87878e4%2FGoC79hYXwAAPTMs.jpg?alt=media" alt=""><figcaption></figcaption></figure>

Wie in unserer Grafik gezeigt, liefert unsere 4-Bit-Dynamic-QAT-Quantisierung eine bessere Leistung bei 5-Shot MMLU und ist zugleich kleiner.

### Llama 4 Scout ausführen:

Um zum Beispiel Llama 4 Scout auszuführen, klone zuerst llama.cpp:

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \\
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

Dann lade unsere neue Dynamic-v2.0-Quant für Scout herunter:

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Llama-4-Scout-17B-16E-Instruct-GGUF",
    local_dir = "unsloth/Llama-4-Scout-17B-16E-Instruct-GGUF",
    allow_patterns = ["*IQ2_XXS*"],
)
```

Und jetzt lass uns Inferenz durchführen!

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \\
    --model unsloth/Llama-4-Scout-17B-16E-Instruct-GGUF/Llama-4-Scout-17B-16E-Instruct-UD-IQ2_XXS.gguf \\
    --threads 32 \\
    --ctx-size 16384 \\
    --n-gpu-layers 99 \\
    -ot ".ffn_.*_exps.=CPU" \\
    --seed 3407 \\
    --prio 3 \\
    --temp 0.6 \\
    --min-p 0.01 \\
    --top-p 0.9 \\
    -no-cnv \\
    --prompt "<|header_start|>user<|header_end|>\n\nErstelle ein Flappy-Bird-Spiel.<|eot|><|header_start|>assistant<|header_end|>\n\n"
```

{% endcode %}

{% hint style="success" %}
Mehr zum Ausführen von Llama 4 findest du hier: <https://docs.unsloth.ai/basics/tutorial-how-to-run-and-fine-tune-llama-4>
{% endhint %}


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/de/grundlagen/unsloth-dynamic-2.0-ggufs.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
