> For the complete documentation index, see [llms.txt](https://unsloth.ai/docs/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://unsloth.ai/docs/de/grundlagen/unsloth-dynamic-2.0-ggufs.md).

# Unsloth Dynamic 2.0 GGUFs

Wir freuen uns, vorzustellen [Unsloth](https://github.com/unslothai/unsloth) Die Dynamic-v2.0-Quantisierung – ein großes Upgrade gegenüber unseren bisherigen Quants. Diese neue Methode übertrifft führende Quantisierungsmethoden und setzt neue Maßstäbe für [Aider Polyglot](/docs/de/grundlagen/unsloth-dynamic-2.0-ggufs/unsloth-dynamic-ggufs-on-aider-polyglot.md), 5-Shot-MMLU und KL-Divergenz.

Das bedeutet, dass Sie jetzt ausführen + feinabstimmen können [quantisierte LLMs](/docs/de/modelle/tutorials.md) wobei so viel Genauigkeit wie möglich erhalten bleibt! Sie können die 2.0-GGUFs auf den meisten Inferenz-Engines wie llama.cpp ausführen, [Unsloth Studio](/docs/de/neu/studio.md) usw.

{% columns %}
{% column %}
**Update vom 20. Apr. 2026:** Sehen Sie sich unsere neuen GGUF-Benchmarks für [Qwen3.6](/docs/de/modelle/qwen3.6.md#unsloth-gguf-benchmarks) und [Gemma 4](/docs/de/modelle/gemma-4.md#unsloth-gguf-benchmarks).

[Update vom 27. Feb. 2026:](/docs/de/modelle/qwen3.5/gguf-benchmarks.md) **Qwen3.5** ist da, und wir haben einige Probleme mit Chat-Templates für Tool-Aufrufe behoben und jedes GGUF auf Perplexität und KL-Divergenz getestet. [Siehe Benchmarks!](/docs/de/modelle/qwen3.5/gguf-benchmarks.md)

Der **Hauptvorteil** der Verwendung des [Unsloth-Pakets](https://github.com/unslothai/unsloth) und Quants ist unsere aktive Rolle beim Beheben von Fehlern in großen Modellen. Wir haben direkt mit den Teams hinter [Qwen3](https://www.reddit.com/r/LocalLLaMA/comments/1kaodxu/qwen3_unsloth_dynamic_ggufs_128k_context_bug_fixes/), [Meta (Llama 4)](https://github.com/ggml-org/llama.cpp/pull/12889), [Mistral (Devstral)](https://app.gitbook.com/o/HpyELzcNe0topgVLGCZY/s/xhOjnexMCB3dmuQFQ2Zq/~/changes/618/basics/tutorials-how-to-fine-tune-and-run-llms/devstral-how-to-run-and-fine-tune), [Google (Gemma 1–3)](https://news.ycombinator.com/item?id=39671146) und [Microsoft (Phi-3/4)](https://simonwillison.net/2025/Jan/11/phi-4-bug-fixes), und dabei Korrekturen beigetragen, die die Genauigkeit erhöhen.
{% endcolumn %}

{% column %}

<figure><img src="/files/77a35e40de621cafc51c11dbb1812999ef4ffadf" alt=""><figcaption><p>Gemma 4 26B A4B Benchmarks (niedriger ist besser)</p></figcaption></figure>

<figure><img src="/files/101f64692735cf853b86932c7c39548985abec3a" alt=""><figcaption><p>Qwen3.6 Benchmarks (niedriger ist besser)</p></figcaption></figure>
{% endcolumn %}
{% endcolumns %}

{% hint style="success" %}
Unsloth Dynamic GGUFs können jetzt ausgeführt werden in [Unsloth Studio](/docs/de/neu/studio.md) ✨

<img src="/files/0d35eb4b2d8f8d310dac25e6054f257e57c04b55" alt="" data-size="original">
{% endhint %}

{% hint style="success" %}
[Update vom 10. Sept. 2025:](/docs/de/grundlagen/unsloth-dynamic-2.0-ggufs/unsloth-dynamic-ggufs-on-aider-polyglot.md) Ihr habt nach härteren Benchmarks gefragt, also hier sind die Aider-Polyglot-Ergebnisse! Unser Dynamic-3-Bit-DeepSeek-V3.1-GGUF erzielt **75.6%**, und übertrifft damit viele SOTA-LLMs in voller Präzision. [Mehr erfahren.](/docs/de/grundlagen/unsloth-dynamic-2.0-ggufs/unsloth-dynamic-ggufs-on-aider-polyglot.md)

<img src="/files/78b017e1e9dd3e613b1faa73c40ea53f7f1a57de" alt="DeepSeek-V3.2 Thinking Aider Benchmarks" data-size="original"><img src="/files/46f5429d7865858663bc7548a67f5a2aa407e8c8" alt="Llama 4 5-shot MMLU Benchmarks" data-size="original">
{% endhint %}

Sie können auch Benchmarks für reale Anwendungsfälle ansehen, die von Benjamin Marie für LiveCodeBench v6, MMLU Pro usw. durchgeführt wurden:

<div><figure><img src="/files/842f81160683e416edff8cb6476057d37328d1e2" alt="" width="563"><figcaption></figcaption></figure> <figure><img src="/files/5a161268a218457077febd58e55816b4d03592da" alt="" width="450"><figcaption></figcaption></figure></div>

Sie können sehen, wie Unsloths GGUFs besser abschneiden als die Nicht-Unsloth-Quants, obwohl sie etwa 8 GB kleiner sind.

Eine detaillierte Analyse unserer Benchmarks und Bewertungen finden Sie weiter unten.

### 💡 Was ist neu in Dynamic v2.0?

* **Überarbeitete Layer-Auswahl für GGUFs + safetensors:** Unsloth Dynamic 2.0 quantisiert Layer jetzt viel intelligenter und umfangreicher selektiv. Anstatt nur bestimmte Layer zu verändern, passen wir nun dynamisch den Quantisierungstyp jedes möglichen Layers an, und die Kombinationen unterscheiden sich je nach Layer und Modell.
* Aktuell ausgewählte und alle zukünftigen GGUF-Uploads werden Dynamic 2.0 und unseren neuen Kalibrierungsdatensatz verwenden. Der Datensatz enthält mehr als >1,5 Mio. **Token** (je nach Modell) und besteht aus hochwertigen, von Hand kuratierten und bereinigten Daten – um die Konversations-Chat-Leistung erheblich zu verbessern.
* Früher war unsere Dynamic-Quantisierung (DeepSeek-R1 1,58-Bit-GGUF) nur für MoE-Architekturen wirksam. <mark style="background-color:green;">**Dynamic-2.0-Quantisierung funktioniert jetzt bei allen Modellen (einschließlich MOEs und Nicht-MoEs)**</mark>.
* **Modellspezifische Quants:** Jedes Modell verwendet jetzt ein maßgeschneidertes Quantisierungsschema. Z. B. unterscheiden sich die in Gemma 3 quantisierten Layer deutlich von denen in Llama 4.
* Um die Effizienz zu maximieren, insbesondere auf Apple Silicon und ARM-Geräten, fügen wir jetzt auch die Formate Q4\_NL, Q5.1, Q5.0, Q4.1 und Q4.0 hinzu.

Um präzises Benchmarking sicherzustellen, haben wir ein internes Bewertungs-Framework entwickelt, um die offiziell berichteten 5-Shot-MMLU-Werte von Llama 4 und Gemma 3 zu erreichen. Dies ermöglichte einen direkten Vergleich zwischen voller Präzision und Dynamic v2.0, **QAT** und standardmäßigen **imatrix** GGUF-Quants.

<div><figure><img src="/files/9e56faf25756f2eb4672daa55e10b5723f33e1db" alt="" width="563"><figcaption></figcaption></figure> <figure><img src="/files/00a7fc77da5eee1b8d143db35a49309df1305846" alt="" width="563"><figcaption></figcaption></figure></div>

Alle zukünftigen GGUF-Uploads werden Unsloth Dynamic 2.0 verwenden, und unsere Dynamic-4-Bit-Safe-Tensor-Quants werden davon künftig ebenfalls profitieren.

## 📊 Warum KL-Divergenz?

[Genauigkeit ist nicht alles, was Sie brauchen](https://arxiv.org/pdf/2407.09141) zeigt, wie das Beschneiden von Layern, selbst durch die Auswahl unnötiger, dennoch enorme Unterschiede in Bezug auf „Flips“ erzeugt. Ein „Flip“ ist definiert als ein Wechsel von Antworten von falsch zu richtig oder umgekehrt. Das Papier zeigt, dass MMLU möglicherweise nicht sinkt, wenn wir Layer beschneiden oder quantisieren, aber das liegt daran, dass einige falsche Antworten zu richtigen „geflippt“ sein könnten. Unser Ziel ist es, das ursprüngliche Modell nachzubilden, daher ist das Messen von „Flips“ eine gute Kennzahl.

<div><figure><img src="/files/69e08169f539426e5eb00961cc7d25dc3fe8d849" alt=""><figcaption></figcaption></figure> <figure><img src="/files/0b79e789ca15bbd51e47631fd2c4e7a69cf61ab8" alt=""><figcaption></figcaption></figure></div>

{% hint style="info" %}
**KL-Divergenz** sollte **einer der Goldstandards für die Berichterstattung über Quantisierungsfehler sein** gemäß dem Forschungsartikel „Accuracy is Not All You Need“. **Die Verwendung von Perplexity ist falsch** da sich Ausgabewerte von Tokens gegenseitig aufheben können, müssen wir also KLD oder schwierigere Benchmarks wie [Aider](/docs/de/grundlagen/unsloth-dynamic-2.0-ggufs/unsloth-dynamic-ggufs-on-aider-polyglot.md).
{% endhint %}

Das Papier zeigt auch interessanterweise, dass KL-Divergenz stark mit Flips korreliert, und daher ist unser Ziel, die mittlere KL-Divergenz zu verringern und gleichzeitig den zusätzlichen Speicherbedarf der Quantisierung so wenig wie möglich zu erhöhen.

## ⚖️ Overfitting des Kalibrierungsdatensatzes

Die meisten Frameworks berichten Perplexity und KL-Divergenz anhand eines Testsets aus Wikipedia-Artikeln. Wir haben jedoch festgestellt, dass die Verwendung des Kalibrierungsdatensatzes, der ebenfalls Wikipedia-bezogen ist, dazu führt, dass Quants overfitten und niedrigere Perplexity-Werte erzielen. Wir verwenden [Calibration\_v3](https://gist.github.com/bartowski1182/eb213dccb3571f863da82e99418f81e8) und [Calibration\_v5](https://gist.github.com/tristandruyen/9e207a95c7d75ddf37525d353e00659c/) Datensätze für faire Tests, die unter anderem einige Wikitext-Daten enthalten. <mark style="background-color:red;">**Außerdem haben Instruct-Modelle einzigartige Chat-Templates, und die Verwendung textbasierter Kalibrierungsdatensätze ist für Instruct-Modelle nicht effektiv**</mark> (bei Basismodellen ja). Tatsächlich werden die meisten imatrix-GGUFs typischerweise mit diesen Problemen kalibriert. Dadurch schneiden sie auf KL-Divergenz-Benchmarks, die ebenfalls Wikipedia-Daten verwenden, natürlich besser ab, da das Modell im Wesentlichen für diese Domäne optimiert ist.

Um eine faire und kontrollierte Bewertung sicherzustellen, verwenden wir unseren eigenen Kalibrierungsdatensatz (der für Chat-Leistung optimiert ist) nicht beim Benchmarking der KL-Divergenz. Stattdessen führten wir Tests mit denselben standardmäßigen Wikipedia-Datensätzen durch, sodass wir die Leistung unserer Dynamic-2.0-Methode direkt mit dem Basisansatz imatrix vergleichen konnten.

## :1234: MMLU-Replikationsabenteuer

* Die Replikation von MMLU 5-Shot war ein Albtraum. Wir <mark style="background-color:red;">**konnten nicht**</mark> MMLU-Ergebnisse für viele Modelle, darunter Llama 3.1 (8B) Instruct, Gemma 3 (12B) und andere, reproduzieren aufgrund von <mark style="background-color:yellow;">**subtilen Implementierungsproblemen**</mark>. Llama 3.1 (8B) sollte beispielsweise etwa 68,2 % erreichen, während fehlerhafte Implementierungen <mark style="background-color:red;">**35 % Genauigkeit erreichen können.**</mark>

<figure><img src="/files/6edae4c9e3b6d4da8fc7789269b52124f905c6e0" alt="" width="375"><figcaption><p>MMLU-Implementierungsprobleme</p></figcaption></figure>

* Llama 3.1 (8B) Instruct hat mit einer naiven MMLU-Implementierung eine MMLU-5-Shot-Genauigkeit von 67,8 %. Wir stellen jedoch fest, dass Llama **„A“ und „\_A“ (A mit einem Leerzeichen davor) als unterschiedliche Token-IDs tokenisiert**. Wenn wir sowohl Token mit als auch ohne Leerzeichen berücksichtigen, erhalten wir 68,2 % <mark style="background-color:green;">(+0.4%)</mark>
* Interessanterweise Llama 3 laut Eleuther AIs [LLM Harness](https://github.com/EleutherAI/lm-evaluation-harness/blob/main/lm_eval/tasks/llama3/instruct/mmlu/_continuation_template_yaml) hängt ebenfalls <mark style="background-color:purple;">**„Die beste Antwort ist“**</mark> an die Frage an, entsprechend Llama 3s ursprünglichen MMLU-Benchmarks.
* Es gibt viele weitere subtile Probleme, und um alles in einer kontrollierten Umgebung zu benchmarken, haben wir unsere eigene MMLU-Implementierung von Grund auf neu entworfen, indem wir [github.com/hendrycks/test](https://github.com/hendrycks/test) direkt untersucht und unsere Ergebnisse über mehrere Modelle hinweg sowie im Vergleich zu den berichteten Zahlen verifiziert haben.

## :sparkles: Replikation und Benchmarks von Gemma 3 QAT

Das Gemma-Team hat zwei QAT-(quantization aware training-)Versionen von Gemma 3 veröffentlicht:

1. Q4\_0 GGUF – quantisiert alle Layer mittels der Formel auf Q4\_0 `w = q * block_scale` wobei jeder Block 32 Gewichte hat. Siehe [llama.cpp-Wiki ](https://github.com/ggml-org/llama.cpp/wiki/Tensor-Encoding-Schemes)für weitere Details.
2. int4-Version – vermutlich [TorchAO-int4-Stil](https://github.com/pytorch/ao/blob/main/torchao/quantization/README.md)?

Wir haben alle Q4\_0-GGUF-Versionen benchmarked und umfangreiche Experimente mit dem 12B-Modell durchgeführt. Wir sehen, dass das **12B Q4\_0 QAT-Modell 67,07 % erreicht** während die vollständige bfloat16-12B-Version bei 5-Shot-MMLU 67,15 % erreicht. Das ist sehr beeindruckend! Das 27B-Modell ist größtenteils schon fast dort!

<table><thead><tr><th>Metrik</th><th>1B</th><th valign="middle">4B</th><th>12B</th><th>27B</th></tr></thead><tbody><tr><td>MMLU 5-Shot</td><td>26.12%</td><td valign="middle">55.13%</td><td><mark style="background-color:blue;"><strong>67,07 % (67,15 % BF16)</strong></mark></td><td><strong>70,64 % (71,5 % BF16)</strong></td></tr><tr><td>Speicherplatz</td><td>0,93 GB</td><td valign="middle">2,94 GB</td><td><strong>7,52 GB</strong></td><td>16,05 GB</td></tr><tr><td><mark style="background-color:green;"><strong>Effizienz*</strong></mark></td><td>1.20</td><td valign="middle">10.26</td><td><strong>5.59</strong></td><td>2.84</td></tr></tbody></table>

Wir haben eine neue **Effizienzmetrik** entwickelt, die den Nutzen des Modells berechnet und dabei auch seine Speichergröße sowie seinen MMLU-5-Shot-Score berücksichtigt:

$$
\text{Efficiency} = \frac{\text{MMLU 5 shot score} - 25}{\text{Disk Space GB}}
$$

{% hint style="warning" %}
Wir müssen **25 abziehen** da MMLU 4 Antwortmöglichkeiten hat – A, B, C oder D. Nehmen wir an, wir erstellen ein Modell, das Antworten einfach zufällig auswählt – es würde 25 % Genauigkeit erzielen und einen Speicherbedarf von nur wenigen Bytes haben. Aber offensichtlich ist das kein nützliches Modell.
{% endhint %}

Zur KL-Divergenz gegenüber dem Basismodell zeigt die folgende Tabelle die Verbesserungen. Erinnerung: Je näher die KL-Divergenz bei 0 liegt, desto besser (d. h. 0 bedeutet identisch zum Modell in voller Präzision)

| Quant     | Basis-KLD | GB    | Neue KLD | GB    |
| --------- | --------- | ----- | -------- | ----- |
| IQ1\_S    | 1.035688  | 5.83  | 0.972932 | 6.06  |
| IQ1\_M    | 0.832252  | 6.33  | 0.800049 | 6.51  |
| IQ2\_XXS  | 0.535764  | 7.16  | 0.521039 | 7.31  |
| IQ2\_M    | 0.26554   | 8.84  | 0.258192 | 8.96  |
| Q2\_K\_XL | 0.229671  | 9.78  | 0.220937 | 9.95  |
| Q3\_K\_XL | 0.087845  | 12.51 | 0.080617 | 12.76 |
| Q4\_K\_XL | 0.024916  | 15.41 | 0.023701 | 15.64 |

Wenn wir das Verhältnis des Anstiegs des Speicherplatzes und der Veränderung des KL-Divergenz-Verhältnisses auftragen, sehen wir einen viel klareren Vorteil! Unser dynamisches 2-Bit-Q2\_K\_XL reduziert KLD deutlich (etwa 7,5 %).

<figure><img src="/files/c2ec87c9c8b59feb7669f275230393a64e9914bd" alt=""><figcaption></figcaption></figure>

Gekürzte Ergebnistabelle für MMLU für Gemma 3 (27B). Siehe unten.

1. **Unsere dynamische 4-Bit-Version ist 2 GB kleiner und hat gleichzeitig +1 % zusätzliche Genauigkeit gegenüber der QAT-Version!**
2. Hinsichtlich der Effizienz scheinen 2-Bit-Q2\_K\_XL und andere sehr gut abzuschneiden!

| Quant          | Unsloth   | Unsloth + QAT | Speichergröße | Effizienz |
| -------------- | --------- | ------------- | ------------- | --------- |
| IQ1\_M         | 48.10     | 47.23         | 6.51          | 3.42      |
| IQ2\_XXS       | 59.20     | 56.57         | 7.31          | 4.32      |
| IQ2\_M         | 66.47     | 64.47         | 8.96          | 4.40      |
| Q2\_K\_XL      | 68.70     | 67.77         | 9.95          | 4.30      |
| Q3\_K\_XL      | 70.87     | 69.50         | 12.76         | 3.49      |
| **Q4\_K\_XL**  | **71.47** | **71.07**     | **15.64**     | **2.94**  |
| **Google QAT** |           | **70.64**     | **17.2**      | **2.65**  |

<details>

<summary><mark style="color:grün;">Hier klicken</mark> für die vollständigen QAT-Benchmarks von Googles Gemma 3 (27B):</summary>

| Modell         | Unsloth   | Unsloth + QAT | Speichergröße | Effizienz |
| -------------- | --------- | ------------- | ------------- | --------- |
| IQ1\_S         | 41.87     | 43.37         | 6.06          | 3.03      |
| IQ1\_M         | 48.10     | 47.23         | 6.51          | 3.42      |
| IQ2\_XXS       | 59.20     | 56.57         | 7.31          | 4.32      |
| IQ2\_M         | 66.47     | 64.47         | 8.96          | 4.40      |
| Q2\_K          | 68.50     | 67.60         | 9.78          | 4.35      |
| Q2\_K\_XL      | 68.70     | 67.77         | 9.95          | 4.30      |
| IQ3\_XXS       | 68.27     | 67.07         | 10.07         | 4.18      |
| Q3\_K\_M       | 70.70     | 69.77         | 12.51         | 3.58      |
| Q3\_K\_XL      | 70.87     | 69.50         | 12.76         | 3.49      |
| Q4\_K\_M       | 71.23     | 71.00         | 15.41         | 2.98      |
| **Q4\_K\_XL**  | **71.47** | **71.07**     | **15.64**     | **2.94**  |
| Q5\_K\_M       | 71.77     | 71.23         | 17.95         | 2.58      |
| Q6\_K          | 71.87     | 71.60         | 20.64         | 2.26      |
| Q8\_0          | 71.60     | 71.53         | 26.74         | 1.74      |
| **Google QAT** |           | **70.64**     | **17.2**      | **2.65**  |

</details>

## :llama: Llama-4-Fehlerbehebungen + Ausführung

Wir haben auch bei einigen Llama-4-Fehlern geholfen und sie behoben:

* Llama 4 Scout hat die RoPE-Scaling-Konfiguration in ihrem offiziellen Repo geändert. Wir haben geholfen, Probleme in llama.cpp zu beheben, um dies zu ermöglichen [Änderung hier](https://github.com/ggml-org/llama.cpp/pull/12889)

  <figure><img src="/files/4a9c502bd28dd4a016b13492ccde8ea7030a7ac7" alt=""><figcaption></figcaption></figure>
* Das Epsilon von Llama 4s QK Norm für sowohl Scout als auch Maverick sollte aus der Konfigurationsdatei stammen – das bedeutet, 1e-05 und nicht 1e-06 zu verwenden. Wir haben geholfen, dies zu beheben in [llama.cpp](https://github.com/ggml-org/llama.cpp/pull/12889) und [transformers](https://github.com/huggingface/transformers/pull/37418)
* Das Llama-4-Team und vLLM haben außerdem unabhängig voneinander ein Problem behoben, bei dem QK Norm über alle Heads hinweg geteilt wurde (was nicht so sein sollte) [hier](https://github.com/vllm-project/vllm/pull/16311). MMLU Pro stieg bei der Genauigkeit von 68,58 % auf 71,53 %.
* [Wolfram Ravenwolf](https://x.com/WolframRvnwlf/status/1909735579564331016) zeigte, dass unsere GGUFs über llama.cpp eine deutlich höhere Genauigkeit erreichen als Inferenzanbieter von Drittanbietern – dies war höchstwahrscheinlich eine Kombination der oben erläuterten Probleme und wahrscheinlich auch auf Quantisierungsprobleme zurückzuführen.

  <figure><img src="/files/e868bf90bf3c39d9a66f5222b300255acd37d9af" alt=""><figcaption></figcaption></figure>

Wie in unserer Grafik gezeigt, liefert unsere 4-Bit-Dynamic-QAT-Quantisierung eine bessere Leistung bei 5-Shot-MMLU und ist gleichzeitig kleiner.

### Llama 4 Scout ausführen:

Um Llama 4 Scout auszuführen, klonen Sie zuerst llama.cpp:

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \\
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

Dann laden Sie unsere neue Dynamic-v2.0-Quantisierung für Scout herunter:

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Llama-4-Scout-17B-16E-Instruct-GGUF",
    local_dir = "unsloth/Llama-4-Scout-17B-16E-Instruct-GGUF",
    allow_patterns = ["*IQ2_XXS*"],
)
```

Und und lassen wir Inferenz durchführen!

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \\
    --model unsloth/Llama-4-Scout-17B-16E-Instruct-GGUF/Llama-4-Scout-17B-16E-Instruct-UD-IQ2_XXS.gguf \\
    --threads 32 \\
    --ctx-size 16384 \\
    --n-gpu-layers 99 \\
    -ot ".ffn_.*_exps.=CPU" \\
    --seed 3407 \\
    --prio 3 \\
    --temp 0.6 \\
    --min-p 0.01 \\
    --top-p 0.9 \\
    -no-cnv \\
    --prompt "<|header_start|>user<|header_end|>\n\nErstelle ein Flappy-Bird-Spiel.<|eot|><|header_start|>assistant<|header_end|>\n\n"
```

{% endcode %}

{% hint style="success" %}
Mehr zum Ausführen von Llama 4 hier lesen: <https://docs.unsloth.ai/basics/tutorial-how-to-run-and-fine-tune-llama-4>
{% endhint %}


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/de/grundlagen/unsloth-dynamic-2.0-ggufs.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
