# Unsloth Dynamic 2.0 GGUFs

Wir freuen uns, vorzustellen [Unsloth](https://github.com/unslothai/unsloth) Dynamische v2.0-Quantisierung - ein großes Upgrade gegenüber unseren vorherigen Quants. Diese neue Methode übertrifft führende Quantisierungsmethoden und setzt neue Maßstäbe für [Aider Polglot](/docs/de/grundlagen/unsloth-dynamic-2.0-ggufs/unsloth-dynamic-ggufs-on-aider-polyglot.md), 5-Shot MMLU und KL-Divergenz.

Das bedeutet, dass Sie jetzt [quantisierte LLMs](/docs/de/modelle/tutorials.md) ausführen + feinabstimmen können, während Sie so viel Genauigkeit wie möglich beibehalten! Sie können die 2.0 GGUFs auf den meisten Inferenz-Engines wie llama.cpp, [Unsloth Studio](/docs/de/neu/studio.md) usw.

{% columns %}
{% column %}
**Aktualisierung vom 20. Apr. 2026:** Sehen Sie sich unsere neuen GGUF-Benchmarks für [Qwen3.6](/docs/de/modelle/qwen3.6.md#unsloth-gguf-benchmarks) und [Gemma 4](/docs/de/modelle/gemma-4.md#unsloth-gguf-benchmarks).

[Aktualisierung vom 27. Feb. 2026:](/docs/de/modelle/qwen3.5/gguf-benchmarks.md) **Qwen3.5** ist verfügbar, und wir haben einige Probleme mit Chat-Templates beim Tool-Calling behoben und jede GGUF hinsichtlich Perplexity und KL-Divergenz benchmarked. [Benchmarks ansehen!](/docs/de/modelle/qwen3.5/gguf-benchmarks.md)

Der **Schlüsselfaktor** bei der Verwendung des [Unsloth-Pakets](https://github.com/unslothai/unsloth) und der Quants ist unsere aktive Rolle beim Beheben von Fehlern in großen Modellen. Wir haben direkt mit Teams hinter [Qwen3](https://www.reddit.com/r/LocalLLaMA/comments/1kaodxu/qwen3_unsloth_dynamic_ggufs_128k_context_bug_fixes/), [Meta (Llama 4)](https://github.com/ggml-org/llama.cpp/pull/12889), [Mistral (Devstral)](https://app.gitbook.com/o/HpyELzcNe0topgVLGCZY/s/xhOjnexMCB3dmuQFQ2Zq/~/changes/618/basics/tutorials-how-to-fine-tune-and-run-llms/devstral-how-to-run-and-fine-tune), [Google (Gemma 1–3)](https://news.ycombinator.com/item?id=39671146) und [Microsoft (Phi-3/4)](https://simonwillison.net/2025/Jan/11/phi-4-bug-fixes)zusammengearbeitet und Korrekturen beigetragen, die die Genauigkeit erhöhen.
{% endcolumn %}

{% column %}

<figure><img src="/files/77a35e40de621cafc51c11dbb1812999ef4ffadf" alt=""><figcaption><p>Gemma 4 26B A4B Benchmarks (niedriger ist besser)</p></figcaption></figure>

<figure><img src="/files/101f64692735cf853b86932c7c39548985abec3a" alt=""><figcaption><p>Qwen3.6 Benchmarks (niedriger ist besser)</p></figcaption></figure>
{% endcolumn %}
{% endcolumns %}

{% hint style="success" %}
Unsloths Dynamic GGUFs können jetzt ausgeführt werden in [Unsloth Studio](/docs/de/neu/studio.md) ✨

<img src="/files/25b89cbb431e29420702ee3c1e8f64e47233d588" alt="" data-size="original">
{% endhint %}

{% hint style="success" %}
[Update vom 10. Sept. 2025:](/docs/de/grundlagen/unsloth-dynamic-2.0-ggufs/unsloth-dynamic-ggufs-on-aider-polyglot.md) Sie wollten härtere Benchmarks, also hier sind die Aider-Polyglot-Ergebnisse! Unser dynamisches 3-Bit DeepSeek V3.1 GGUF erreicht **75.6%**, und übertrifft damit viele vollständige SOTA-LLMs in Genauigkeit. [Mehr lesen.](/docs/de/grundlagen/unsloth-dynamic-2.0-ggufs/unsloth-dynamic-ggufs-on-aider-polyglot.md)

<img src="/files/78b017e1e9dd3e613b1faa73c40ea53f7f1a57de" alt="DeepSeek-V3.2 Thinking Aider Benchmarks" data-size="original"><img src="/files/46f5429d7865858663bc7548a67f5a2aa407e8c8" alt="Llama 4 5-shot MMLU Benchmarks" data-size="original">
{% endhint %}

Sie können auch echte Anwendungsfall-Benchmarks ansehen, die von Benjamin Marie für LiveCodeBench v6, MMLU Pro usw. durchgeführt wurden:

<div><figure><img src="/files/842f81160683e416edff8cb6476057d37328d1e2" alt="" width="563"><figcaption></figcaption></figure> <figure><img src="/files/5a161268a218457077febd58e55816b4d03592da" alt="" width="450"><figcaption></figcaption></figure></div>

Sie können sehen, wie Unsloths GGUFs besser abschneiden als die Nicht-Unsloth-Quants, obwohl sie etwa 8 GB kleiner sind.

Detaillierte Analyse unserer Benchmarks und Auswertung weiter unten.

### 💡 Was ist neu in Dynamic v2.0?

* **Überarbeitete Layer-Auswahl für GGUFs + safetensors:** Unsloth Dynamic 2.0 quantisiert nun selektiv Schichten viel intelligenter und umfassender. Anstatt nur ausgewählte Schichten zu ändern, passen wir jetzt dynamisch den Quantisierungstyp jeder möglichen Schicht an, und die Kombinationen unterscheiden sich für jede Schicht und jedes Modell.
* Alle aktuell ausgewählten und alle zukünftigen GGUF-Uploads werden Dynamic 2.0 und unseren neuen Kalibrierungsdatensatz verwenden. Der Datensatz enthält mehr als >1,5 Mio. **Tokens** (je nach Modell) und besteht aus hochwertigen, handkuratierten und bereinigten Daten – um die Konversations-Chat-Leistung deutlich zu verbessern.
* Zuvor war unsere dynamische Quantisierung (DeepSeek-R1 1.58-Bit GGUF) nur für MoE-Architekturen wirksam. <mark style="background-color:green;">**Dynamic-2.0-Quantisierung funktioniert jetzt bei allen Modellen (einschließlich MOEs und Nicht-MOEs)**</mark>.
* **Modellspezifische Quants:** Jedes Modell verwendet jetzt ein maßgeschneidertes Quantisierungsschema. Z. B. unterscheiden sich die in Gemma 3 quantisierten Schichten erheblich von denen in Llama 4.
* Um die Effizienz zu maximieren, insbesondere auf Apple-Silicon- und ARM-Geräten, fügen wir jetzt auch Q4\_NL-, Q5.1-, Q5.0-, Q4.1- und Q4.0-Formate hinzu.

Um präzises Benchmarking zu gewährleisten, haben wir ein internes Bewertungsframework entwickelt, das die offiziell gemeldeten 5-Shot-MMLU-Werte von Llama 4 und Gemma 3 nachbildet. Dies ermöglichte einen direkten Vergleich zwischen Vollpräzision vs. Dynamic v2.0, **QAT** und standardmäßigen **imatrix** GGUF-Quants.

<div><figure><img src="/files/9e56faf25756f2eb4672daa55e10b5723f33e1db" alt="" width="563"><figcaption></figcaption></figure> <figure><img src="/files/00a7fc77da5eee1b8d143db35a49309df1305846" alt="" width="563"><figcaption></figcaption></figure></div>

Alle zukünftigen GGUF-Uploads werden Unsloth Dynamic 2.0 verwenden, und unsere Dynamic-4-Bit-Safetensor-Quants werden davon künftig ebenfalls profitieren.

## 📊 Warum KL-Divergenz?

[Genauigkeit ist nicht alles, was Sie brauchen](https://arxiv.org/pdf/2407.09141) zeigt, wie das Beschneiden von Schichten, selbst durch die Auswahl unnötiger, dennoch enorme Unterschiede in Bezug auf „Flips“ erzeugt. Ein „Flip“ ist definiert als Antworten, die von falsch zu richtig oder umgekehrt wechseln. Das Papier zeigt, dass MMLU möglicherweise nicht sinkt, wenn wir Schichten beschneiden oder quantisieren, aber das liegt daran, dass einige falsche Antworten möglicherweise „geflippt“ sind und dadurch korrekt wurden. Unser Ziel ist es, das ursprüngliche Modell nachzubilden, daher ist das Messen von „Flips“ eine gute Kennzahl.

<div><figure><img src="/files/69e08169f539426e5eb00961cc7d25dc3fe8d849" alt=""><figcaption></figcaption></figure> <figure><img src="/files/0b79e789ca15bbd51e47631fd2c4e7a69cf61ab8" alt=""><figcaption></figcaption></figure></div>

{% hint style="info" %}
**KL-Divergenz** sollte **einer der Goldstandards für die Berichterstattung von Quantisierungsfehlern sein** gemäß dem Forschungspapier „Accuracy is Not All You Need“. **Die Verwendung von Perplexity ist falsch** da sich Ausgabewert-Tokens gegenseitig aufheben können, daher müssen wir KLD oder schwierigere Benchmarks wie [Aider](/docs/de/grundlagen/unsloth-dynamic-2.0-ggufs/unsloth-dynamic-ggufs-on-aider-polyglot.md).
{% endhint %}

Das Papier zeigt auch interessant, dass KL-Divergenz stark mit Flips korreliert, und daher ist unser Ziel, die mittlere KL-Divergenz zu reduzieren und dabei die Speichergröße der Quantisierung so wenig wie möglich zu erhöhen.

## ⚖️ Überanpassung des Kalibrierungsdatensatzes

Die meisten Frameworks berichten Perplexity und KL-Divergenz mithilfe eines Testsets mit Wikipedia-Artikeln. Wir haben jedoch festgestellt, dass die Verwendung des Kalibrierungsdatensatzes, der ebenfalls Wikipedia-bezogen ist, dazu führt, dass Quants überanpassen und niedrigere Perplexity-Werte erreichen. Wir verwenden [Calibration\_v3](https://gist.github.com/bartowski1182/eb213dccb3571f863da82e99418f81e8) und [Calibration\_v5](https://gist.github.com/tristandruyen/9e207a95c7d75ddf37525d353e00659c/) Datensätze für faire Tests, die unter anderem einige Wikitext-Daten enthalten. <mark style="background-color:red;">**Auch Instruktionsmodelle haben einzigartige Chat-Templates, und die Verwendung von nur textbasierten Kalibrierungsdatensätzen ist für Instruktionsmodelle nicht effektiv**</mark> (Basis-Modelle ja). Tatsächlich werden die meisten imatrix-GGUFs typischerweise mit diesen Problemen kalibriert. Dadurch schneiden sie bei KL-Divergenz-Benchmarks, die ebenfalls Wikipedia-Daten verwenden, naturgemäß besser ab, da das Modell im Wesentlichen für diese Domäne optimiert ist.

Um eine faire und kontrollierte Bewertung sicherzustellen, verwenden wir unseren eigenen Kalibrierungsdatensatz nicht für das Benchmarking der KL-Divergenz (der für Chat-Leistung optimiert ist). Stattdessen führten wir Tests mit denselben standardmäßigen Wikipedia-Datasets durch, wodurch wir die Leistung unserer Dynamic-2.0-Methode direkt mit dem baseline imatrix-Ansatz vergleichen konnten.

## :1234: Das MMLU-Replikationsabenteuer

* MMLU 5-Shot zu replizieren war ein Albtraum. Wir <mark style="background-color:red;">**konnten**</mark> MMLU-Ergebnisse für viele Modelle nicht replizieren, darunter Llama 3.1 (8B) Instruct, Gemma 3 (12B) und andere, aufgrund von <mark style="background-color:yellow;">**subtilen Implementierungsproblemen**</mark>. Llama 3.1 (8B) sollte beispielsweise etwa 68,2 % erreichen, während inkorrekte Implementierungen <mark style="background-color:red;">**35 % Genauigkeit**</mark>

<figure><img src="/files/6edae4c9e3b6d4da8fc7789269b52124f905c6e0" alt="" width="375"><figcaption><p>MMLU-Implementierungsprobleme</p></figcaption></figure>

* Llama 3.1 (8B) Instruct hat mit einer naiven MMLU-Implementierung eine MMLU-5-Shot-Genauigkeit von 67,8 %. Wir stellen jedoch fest, dass Llama **"A" und "\_A" (A mit einem Leerzeichen davor) als unterschiedliche Token-IDs tokenisiert**. Wenn wir sowohl Tokens mit als auch ohne Leerzeichen berücksichtigen, erhalten wir 68,2 % <mark style="background-color:green;">(+0.4%)</mark>
* Interessanterweise hängt Llama 3 gemäß Eleuther AIs [LLM Harness](https://github.com/EleutherAI/lm-evaluation-harness/blob/main/lm_eval/tasks/llama3/instruct/mmlu/_continuation_template_yaml) auch <mark style="background-color:purple;">**„Die beste Antwort ist“**</mark> an die Frage an, entsprechend Llama 3s ursprünglichen MMLU-Benchmarks.
* Es gibt viele weitere subtile Probleme, und um alles in einer kontrollierten Umgebung zu benchmarken, haben wir unsere eigene MMLU-Implementierung von Grund auf neu entwickelt, indem wir [github.com/hendrycks/test](https://github.com/hendrycks/test) direkt untersucht und unsere Ergebnisse über mehrere Modelle hinweg verifiziert sowie mit den berichteten Werten verglichen haben.

## :sparkles: Gemma 3 QAT-Replikation, Benchmarks

Das Gemma-Team hat zwei QAT-Versionen (quantization aware training) von Gemma 3 veröffentlicht:

1. Q4\_0 GGUF - Quantisiert alle Schichten auf Q4\_0 über die Formel `w = q * block_scale` wobei jeder Block 32 Gewichte hat. Siehe [llama.cpp-Wiki ](https://github.com/ggml-org/llama.cpp/wiki/Tensor-Encoding-Schemes)für weitere Details.
2. int4-Version - vermutlich [TorchAO int4-Stil](https://github.com/pytorch/ao/blob/main/torchao/quantization/README.md)?

Wir haben alle Q4\_0-GGUF-Versionen benchmarked und umfangreiche Experimente mit dem 12B-Modell durchgeführt. Wir sehen, dass das **12B Q4\_0 QAT-Modell 67,07 % erreicht** während die vollständige bfloat16-12B-Version 67,15 % bei 5-Shot MMLU erreicht. Das ist sehr beeindruckend! Das 27B-Modell ist fast schon dort!

<table><thead><tr><th>Metrik</th><th>1B</th><th valign="middle">4B</th><th>12B</th><th>27B</th></tr></thead><tbody><tr><td>MMLU 5-Shot</td><td>26.12%</td><td valign="middle">55.13%</td><td><mark style="background-color:blue;"><strong>67,07 % (67,15 % BF16)</strong></mark></td><td><strong>70,64 % (71,5 % BF16)</strong></td></tr><tr><td>Speicherplatz</td><td>0,93 GB</td><td valign="middle">2,94 GB</td><td><strong>7,52 GB</strong></td><td>16,05 GB</td></tr><tr><td><mark style="background-color:green;"><strong>Effizienz*</strong></mark></td><td>1.20</td><td valign="middle">10.26</td><td><strong>5.59</strong></td><td>2.84</td></tr></tbody></table>

Wir haben eine neue **Effizienzmetrik** entwickelt, die den Nutzen des Modells berechnet und dabei auch seine Speichergröße und den MMLU-5-Shot-Score berücksichtigt:

$$
\text{Efficiency} = \frac{\text{MMLU 5 shot score} - 25}{\text{Disk Space GB}}
$$

{% hint style="warning" %}
Wir müssen **minus 25** nehmen, da MMLU 4 Antwortmöglichkeiten hat – A, B, C oder D. Angenommen, wir erstellen ein Modell, das einfach zufällig Antworten auswählt – es würde 25 % Genauigkeit erzielen und nur wenige Bytes Speicherplatz benötigen. Aber eindeutig ist das kein nützliches Modell.
{% endhint %}

Zur KL-Divergenz gegenüber dem Basismodell zeigt die folgende Tabelle die Verbesserungen. Erinnerung: Je näher die KL-Divergenz bei 0 liegt, desto besser (d. h. 0 bedeutet identisch zum Vollpräzisionsmodell)

| Quant     | Baseline-KLD | GB    | Neue KLD | GB    |
| --------- | ------------ | ----- | -------- | ----- |
| IQ1\_S    | 1.035688     | 5.83  | 0.972932 | 6.06  |
| IQ1\_M    | 0.832252     | 6.33  | 0.800049 | 6.51  |
| IQ2\_XXS  | 0.535764     | 7.16  | 0.521039 | 7.31  |
| IQ2\_M    | 0.26554      | 8.84  | 0.258192 | 8.96  |
| Q2\_K\_XL | 0.229671     | 9.78  | 0.220937 | 9.95  |
| Q3\_K\_XL | 0.087845     | 12.51 | 0.080617 | 12.76 |
| Q4\_K\_XL | 0.024916     | 15.41 | 0.023701 | 15.64 |

Wenn wir das Verhältnis des Anstiegs des Speicherplatzes und die Änderung des KL-Divergenz-Verhältnisses darstellen, sehen wir einen viel klareren Vorteil! Unser dynamisches 2-Bit Q2\_K\_XL reduziert KLD ziemlich stark (etwa 7,5 %).

<figure><img src="/files/c2ec87c9c8b59feb7669f275230393a64e9914bd" alt=""><figcaption></figcaption></figure>

Gekürzte Ergebnistabelle für MMLU für Gemma 3 (27B). Siehe unten.

1. **Unsere dynamische 4-Bit-Version ist 2 GB kleiner und hat dabei +1 % zusätzliche Genauigkeit gegenüber der QAT-Version!**
2. In Sachen Effizienz scheinen 2-Bit Q2\_K\_XL und andere sehr gut abzuschneiden!

| Quant          | Unsloth   | Unsloth + QAT | Speichergröße | Effizienz |
| -------------- | --------- | ------------- | ------------- | --------- |
| IQ1\_M         | 48.10     | 47.23         | 6.51          | 3.42      |
| IQ2\_XXS       | 59.20     | 56.57         | 7.31          | 4.32      |
| IQ2\_M         | 66.47     | 64.47         | 8.96          | 4.40      |
| Q2\_K\_XL      | 68.70     | 67.77         | 9.95          | 4.30      |
| Q3\_K\_XL      | 70.87     | 69.50         | 12.76         | 3.49      |
| **Q4\_K\_XL**  | **71.47** | **71.07**     | **15.64**     | **2.94**  |
| **Google QAT** |           | **70.64**     | **17.2**      | **2.65**  |

<details>

<summary><mark style="color:grün;">Hier klicken</mark> für vollständige Google-Gemma-3-(27B)-QAT-Benchmarks:</summary>

| Modell         | Unsloth   | Unsloth + QAT | Speichergröße | Effizienz |
| -------------- | --------- | ------------- | ------------- | --------- |
| IQ1\_S         | 41.87     | 43.37         | 6.06          | 3.03      |
| IQ1\_M         | 48.10     | 47.23         | 6.51          | 3.42      |
| IQ2\_XXS       | 59.20     | 56.57         | 7.31          | 4.32      |
| IQ2\_M         | 66.47     | 64.47         | 8.96          | 4.40      |
| Q2\_K          | 68.50     | 67.60         | 9.78          | 4.35      |
| Q2\_K\_XL      | 68.70     | 67.77         | 9.95          | 4.30      |
| IQ3\_XXS       | 68.27     | 67.07         | 10.07         | 4.18      |
| Q3\_K\_M       | 70.70     | 69.77         | 12.51         | 3.58      |
| Q3\_K\_XL      | 70.87     | 69.50         | 12.76         | 3.49      |
| Q4\_K\_M       | 71.23     | 71.00         | 15.41         | 2.98      |
| **Q4\_K\_XL**  | **71.47** | **71.07**     | **15.64**     | **2.94**  |
| Q5\_K\_M       | 71.77     | 71.23         | 17.95         | 2.58      |
| Q6\_K          | 71.87     | 71.60         | 20.64         | 2.26      |
| Q8\_0          | 71.60     | 71.53         | 26.74         | 1.74      |
| **Google QAT** |           | **70.64**     | **17.2**      | **2.65**  |

</details>

## :llama: Llama 4 Fehlerbehebungen + Ausführung

Wir haben auch bei einigen Llama-4-Fehlern geholfen und diese behoben:

* Llama 4 Scout hat die RoPE-Scaling-Konfiguration in ihrem offiziellen Repo geändert. Wir haben geholfen, Probleme in llama.cpp zu lösen, um dies zu ermöglichen [Änderung hier](https://github.com/ggml-org/llama.cpp/pull/12889)

  <figure><img src="/files/4a9c502bd28dd4a016b13492ccde8ea7030a7ac7" alt=""><figcaption></figcaption></figure>
* Das QK-Norm-Epsilon von Llama 4 für Scout und Maverick sollte aus der Konfigurationsdatei stammen - das bedeutet 1e-05 statt 1e-06 zu verwenden. Wir haben geholfen, dies zu beheben in [llama.cpp](https://github.com/ggml-org/llama.cpp/pull/12889) und [transformers](https://github.com/huggingface/transformers/pull/37418)
* Das Llama-4-Team und vLLM haben außerdem unabhängig voneinander ein Problem behoben, bei dem QK Norm über alle Heads hinweg geteilt wurde (was nicht so sein sollte) [hier](https://github.com/vllm-project/vllm/pull/16311). MMLU Pro stieg von 68,58 % auf 71,53 % Genauigkeit.
* [Wolfram Ravenwolf](https://x.com/WolframRvnwlf/status/1909735579564331016) zeigte, dass unsere GGUFs über llama.cpp deutlich höhere Genauigkeit erreichen als Inferenzanbieter von Drittanbietern - dies war höchstwahrscheinlich eine Kombination der oben erläuterten Probleme und wahrscheinlich auch auf Quantisierungsprobleme zurückzuführen.

  <figure><img src="/files/e868bf90bf3c39d9a66f5222b300255acd37d9af" alt=""><figcaption></figcaption></figure>

Wie in unserem Diagramm gezeigt, liefern unsere 4-Bit-Dynamic-QAT-Quantisierung bessere Leistung bei 5-Shot MMLU und sind gleichzeitig kleiner.

### Llama 4 Scout ausführen:

Um beispielsweise Llama 4 Scout auszuführen, klonen Sie zunächst llama.cpp:

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

Dann laden Sie unsere neue dynamische v2.0-Quant für Scout herunter:

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Llama-4-Scout-17B-16E-Instruct-GGUF",
    local_dir = "unsloth/Llama-4-Scout-17B-16E-Instruct-GGUF",
    allow_patterns = ["*IQ2_XXS*"],
)
```

Und dann lassen Sie uns Inferenz machen!

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \
    --model unsloth/Llama-4-Scout-17B-16E-Instruct-GGUF/Llama-4-Scout-17B-16E-Instruct-UD-IQ2_XXS.gguf \
    --threads 32 \
    --ctx-size 16384 \
    --n-gpu-layers 99 \
    -ot ".ffn_.*_exps.=CPU" \
    --seed 3407 \
    --prio 3 \
    --temp 0.6 \
    --min-p 0.01 \
    --top-p 0.9 \
    -no-cnv \
    --prompt "<|header_start|>user<|header_end|>\n\nErstelle ein Flappy-Bird-Spiel.<|eot|><|header_start|>assistant<|header_end|>\n\n"
```

{% endcode %}

{% hint style="success" %}
Mehr zum Ausführen von Llama 4 hier lesen: <https://docs.unsloth.ai/basics/tutorial-how-to-run-and-fine-tune-llama-4>
{% endhint %}


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/de/grundlagen/unsloth-dynamic-2.0-ggufs.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
