> For the complete documentation index, see [llms.txt](https://unsloth.ai/docs/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://unsloth.ai/docs/de/modelle/tutorials/devstral-how-to-run-and-fine-tune.md).

# Devstral: So wird es ausgeführt und feinabgestimmt

**Devstral-Small-2507** (Devstral 1.1) ist Mistrals neues agentisches LLM für Softwareentwicklung. Es überzeugt beim Aufrufen von Tools, beim Erkunden von Codebasen und beim Antrieb von Coding-Agenten. Mistral AI veröffentlichte die ursprüngliche Version 2505 im Mai 2025.

Feinabgestimmt von [**Mistral-Small-3.1**](https://huggingface.co/unsloth/Mistral-Small-3.1-24B-Instruct-2503-GGUF), unterstützt Devstral ein Kontextfenster von 128k. Devstral Small 1.1 hat eine verbesserte Leistung und erreicht einen Wert von 53,6 % auf [SWE-bench verified](https://openai.com/index/introducing-swe-bench-verified/), womit es (10. Juli 2025) das offene Modell Nr. 1 auf dem Benchmark ist.

Unsloth Devstral 1.1 GGUFs enthalten zusätzliche <mark style="background-color:green;">**Unterstützung für Tool-Aufrufe**</mark> und <mark style="background-color:green;">**Korrekturen am Chat-Template**</mark>. Devstral 1.1 funktioniert weiterhin gut mit OpenHands, generalisiert nun aber auch besser auf andere Prompts und Coding-Umgebungen.

Da es sich um ein reines Textmodell handelt, wurde Devstrals Vision-Encoder vor dem Feinabstimmen entfernt. Wir haben [*<mark style="background-color:green;">**optionale Vision-Unterstützung**</mark>*](#possible-vision-support) für das Modell hinzugefügt.

{% hint style="success" %}
Wir haben außerdem im Hintergrund mit Mistral zusammengearbeitet, um beim Debuggen, Testen und Korrigieren möglicher Fehler und Probleme zu helfen! Stellen Sie sicher, **Mistrals offizielle Downloads oder die GGUFs von Unsloth** / Dynamic-Quants herunterzuladen, um die **korrekte Implementierung** (d. h. korrekter System-Prompt, korrektes Chat-Template usw.)

Bitte verwenden Sie `--jinja` in llama.cpp, um den System-Prompt zu aktivieren!
{% endhint %}

Alle Devstral-Uploads verwenden unsere Unsloth- [Dynamic 2.0](/docs/de/grundlagen/unsloth-dynamic-2.0-ggufs.md) Methodik, die die beste Leistung bei den 5-Shot-MMLU- und KL-Divergence-Benchmarks liefert. Das bedeutet, dass Sie quantisierte Mistral-LLMs mit minimalem Genauigkeitsverlust ausführen und feinabstimmen können!

#### **Devstral - Unsloth Dynamic** Quants:

| Devstral 2507 (neu)                                                                                                    | Devstral 2505                                                                                               |
| ---------------------------------------------------------------------------------------------------------------------- | ----------------------------------------------------------------------------------------------------------- |
| GGUF: [Devstral-Small-2507-GGUF](https://huggingface.co/unsloth/Devstral-Small-2507-GGUF)                              | [Devstral-Small-2505-GGUF](https://huggingface.co/unsloth/Devstral-Small-2505-GGUF)                         |
| 4-Bit BnB: [Devstral-Small-2507-unsloth-bnb-4bit](https://huggingface.co/unsloth/Devstral-Small-2507-unsloth-bnb-4bit) | [Devstral-Small-2505-unsloth-bnb-4bit](https://huggingface.co/unsloth/Devstral-Small-2505-unsloth-bnb-4bit) |

## 🖥️ **Devstral ausführen**

### :gear: Offizielle empfohlene Einstellungen

Laut Mistral AI sind dies die empfohlenen Einstellungen für die Inferenz:

* <mark style="background-color:blue;">**Temperatur von 0,0 bis 0,15**</mark>
* Min\_P von 0,01 (optional, aber 0,01 funktioniert gut; der Standardwert von llama.cpp ist 0,1)
* <mark style="background-color:orange;">**Verwenden Sie**</mark><mark style="background-color:orange;">**&#x20;**</mark><mark style="background-color:orange;">**`--jinja`**</mark><mark style="background-color:orange;">**&#x20;**</mark><mark style="background-color:orange;">**um den System-Prompt zu aktivieren.**</mark>

**Ein System-Prompt wird empfohlen**und ist eine Abwandlung des System-Prompts von Open Hands. Der vollständige System-Prompt wird bereitgestellt [hier](https://huggingface.co/unsloth/Devstral-Small-2505/blob/main/SYSTEM_PROMPT.txt).

```
Du bist Devstral, ein hilfreiches agentisches Modell, trainiert von Mistral AI und basierend auf dem OpenHands-Framework. Du kannst mit einem Computer interagieren, um Aufgaben zu lösen.

<ROLLE>
Deine Hauptaufgabe besteht darin, Benutzer zu unterstützen, indem du Befehle ausführst, Code änderst und technische Probleme effektiv löst. Du solltest gründlich und methodisch vorgehen und Qualität über Geschwindigkeit stellen.
* Wenn der Benutzer eine Frage stellt, wie z. B. „warum passiert X“, versuche nicht, das Problem zu beheben. Gib einfach eine Antwort auf die Frage.
</ROLLE>

.... SYSTEM-PROMPT GEHT WEITER ....
```

{% hint style="success" %}
Unsere Dynamic-Uploads haben das Präfix '`UD`'. Diejenigen ohne dieses Präfix sind nicht dynamisch, verwenden aber dennoch unser Kalibrierungs-Dataset.
{% endhint %}

## :llama: Tutorial: So führen Sie Devstral in Ollama aus

1. Installieren `ollama` falls Sie es noch nicht haben!

```bash
apt-get update
apt-get install pciutils -y
curl -fsSL https://ollama.com/install.sh | sh
```

2. Führen Sie das Modell mit unserem dynamischen Quant aus. Beachten Sie, dass Sie `ollama serve &`in einem anderen Terminal aufrufen können, falls es fehlschlägt! Wir enthalten alle vorgeschlagenen Parameter (Temperatur usw.) in `params` in unserem Hugging-Face-Upload!
3. Außerdem unterstützt Devstral Kontextlängen von 128K, daher ist es am besten, [**KV-Cache-Quantisierung**](https://github.com/ollama/ollama/blob/main/docs/faq.md#how-can-i-set-the-quantization-type-for-the-kv-cache)zu aktivieren. Wir verwenden 8-Bit-Quantisierung, die 50 % Speicherverbrauch spart. Sie können auch `"q4_0"`

```bash
export OLLAMA_KV_CACHE_TYPE="q8_0"
ollama run hf.co/unsloth/Devstral-Small-2507-GGUF:UD-Q4_K_XL
```

## 📖 Tutorial: So führen Sie Devstral in llama.cpp aus

1. Laden Sie die neueste `llama.cpp` standardmäßig [GitHub hier](https://github.com/ggml-org/llama.cpp)herunter. Sie können auch den folgenden Build-Anweisungen folgen. Ändern Sie `-DGGML_CUDA=ON` auf `-DGGML_CUDA=OFF` wenn Sie keine GPU haben oder nur eine CPU-Inferenz möchten. **Für Apple-Mac-/Metal-Geräte**, setzen Sie `-DGGML_CUDA=OFF` und fahren Sie dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \\
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-quantize llama-cli llama-gguf-split llama-mtmd-cli
cp llama.cpp/build/bin/llama-* llama.cpp
```

2. Wenn Sie `llama.cpp` direkt zum Laden von Modellen verwenden möchten, können Sie Folgendes tun: (:Q4\_K\_XL) ist der Quantisierungstyp. Sie können auch über Hugging Face herunterladen (Punkt 3). Dies ist ähnlich wie `ollama run`

```bash
./llama.cpp/llama-cli -hf unsloth/Devstral-Small-2507-GGUF:UD-Q4_K_XL --jinja
```

3. **ODER** laden Sie das Modell über herunter (nach der Installation von `pip install huggingface_hub hf_transfer` ). Sie können Q4\_K\_M oder andere quantisierte Versionen wählen (z. B. BF16 in voller Präzision).

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Devstral-Small-2507-GGUF",
    local_dir = "unsloth/Devstral-Small-2507-GGUF",
    allow_patterns = ["*Q4_K_XL*", "*mmproj-F16*"], # Für Q4_K_XL
)
```

4. Führen Sie das Modell aus.
5. Bearbeiten Sie `--threads -1` für die maximale Anzahl CPU-Threads, `--ctx-size 131072` für die Kontextlänge (Devstral unterstützt eine Kontextlänge von 128K!), `--n-gpu-layers 99` für das Auslagern auf die GPU, und zwar für so viele Schichten. Passen Sie es an, falls Ihrer GPU der Speicher ausgeht. Entfernen Sie es außerdem, wenn Sie nur CPU-Inferenz haben. Wir verwenden außerdem 8-Bit-Quantisierung für den K-Cache, um den Speicherverbrauch zu reduzieren.
6. Für den Konversationsmodus:

<pre class="language-bash"><code class="lang-bash">./llama.cpp/llama-cli \\
    --model unsloth/Devstral-Small-2507-GGUF/Devstral-Small-2507-UD-Q4_K_XL.gguf \\
    --threads -1 \\
    --ctx-size 131072 \\
    <a data-footnote-ref href="#user-content-fn-1">--cache-type-k q8_0</a> \\
    --n-gpu-layers 99 \\
    --seed 3407 \\
    --prio 2 \\
    --temp 0.15 \\
    --repeat-penalty 1.0 \\
    --min-p 0.01 \\
    --top-k 64 \\
    --top-p 0.95 \\
    <a data-footnote-ref href="#user-content-fn-2">--jinja</a>
</code></pre>

7. Für den Nicht-Konversationsmodus, um unseren Flappy-Bird-Prompt zu testen:

<pre class="language-bash"><code class="lang-bash">./llama.cpp/llama-cli \\
    --model unsloth/Devstral-Small-2507-GGUF/Devstral-Small-2507-UD-Q4_K_XL.gguf \\
    --threads -1 \\
    --ctx-size 131072 \\
    <a data-footnote-ref href="#user-content-fn-1">--cache-type-k q8_0</a> \\
    --n-gpu-layers 99 \\
    --seed 3407 \\
    --prio 2 \\
    --temp 0.15 \\
    --repeat-penalty 1.0 \\
    --min-p 0.01 \\
    --top-k 64 \\
    --top-p 0.95 \\
    -no-cnv \\
    --prompt "[SYSTEM_PROMPT]Du bist Devstral, ein hilfreiches agentisches Modell, trainiert von Mistral AI und basierend auf dem OpenHands-Framework. Du kannst mit einem Computer interagieren, um Aufgaben zu lösen.\n\n&#x3C;ROLLE>\nDeine Hauptaufgabe besteht darin, Benutzer zu unterstützen, indem du Befehle ausführst, Code änderst und technische Probleme effektiv löst. Du solltest gründlich und methodisch vorgehen und Qualität über Geschwindigkeit stellen.\n* Wenn der Benutzer eine Frage stellt, wie z. B. \"warum passiert X\", versuche nicht, das Problem zu beheben. Gib einfach eine Antwort auf die Frage.\n&#x3C;/ROLLE>\n\n&#x3C;EFFIZIENZ>\n* Jede Aktion, die du ausführst, ist etwas teuer. Wann immer möglich, kombiniere mehrere Aktionen zu einer einzigen Aktion, z. B. mehrere Bash-Befehle in einen einzigen zusammenfassen und sed und grep verwenden, um mehrere Dateien gleichzeitig zu bearbeiten/anzusehen.\n* Beim Erkunden der Codebasis verwende effiziente Werkzeuge wie find-, grep- und git-Befehle mit geeigneten Filtern, um unnötige Operationen zu minimieren.\n&#x3C;/EFFIZIENZ>\n\n&#x3C;DATEISYSTEM-RICHTLINIEN>\n* Wenn ein Benutzer einen Dateipfad angibt, nimm NICHT an, dass er sich auf das aktuelle Arbeitsverzeichnis bezieht. Erkunde zuerst das Dateisystem, um die Datei zu finden, bevor du daran arbeitest.\n* Wenn du gebeten wirst, eine Datei zu bearbeiten, bearbeite die Datei direkt, statt eine neue Datei mit einem anderen Dateinamen zu erstellen.\n* Für globale Suchen-und-Ersetzen-Operationen solltest du `sed` in Betracht ziehen, statt Dateieditoren mehrfach zu öffnen.\n&#x3C;/DATEISYSTEM-RICHTLINIEN>\n\n&#x3C;CODEQUALITÄT>\n* Schreibe sauberen, effizienten Code mit minimalen Kommentaren. Vermeide Redundanz in Kommentaren: Wiederhole keine Informationen, die sich leicht aus dem Code selbst ableiten lassen.\n* Konzentriere dich bei der Implementierung von Lösungen auf die minimal notwendigen Änderungen, um das Problem zu lösen.\n* Bevor du irgendwelche Änderungen vornimmst, verstehe die Codebasis zunächst gründlich durch Erkundung.\n* Wenn du einer Funktion oder Datei viel Code hinzufügst, erwäge gegebenenfalls, die Funktion oder Datei in kleinere Teile aufzuteilen.\n&#x3C;/CODEQUALITÄT>\n\n&#x3C;VERSIONSKONTROLLE>\n* Verwende beim Konfigurieren von Git-Anmeldedaten standardmäßig \"openhands\" als user.name und \"openhands@all-hands.dev\" als user.email, sofern nicht ausdrücklich anders angewiesen.\n* Gehe vorsichtig mit Git-Operationen um. Nimm KEINE potenziell gefährlichen Änderungen vor (z. B. pushen auf main, Löschen von Repositories), sofern nicht ausdrücklich darum gebeten wird.\n* Verwende beim Committen von Änderungen `git status`, um alle geänderten Dateien zu sehen, und stage alle für den Commit notwendigen Dateien. Verwende nach Möglichkeit `git commit -a`.\n* Commite KEINE Dateien, die typischerweise nicht in die Versionskontrolle gehören (z. B. node_modules/, .env-Dateien, Build-Verzeichnisse, Cache-Dateien, große Binärdateien), sofern der Benutzer nicht ausdrücklich darum bittet.\n* Wenn du dir beim Committen bestimmter Dateien unsicher bist, prüfe das Vorhandensein von .gitignore-Dateien oder frage den Benutzer um Klärung.\n&#x3C;/VERSIONSKONTROLLE>\n\n&#x3C;PULL-REQUESTS>\n* Erstelle beim Anlegen von Pull Requests nur EINEN pro Sitzung/Issue, sofern nicht ausdrücklich anders angewiesen.\n* Wenn du mit einem bestehenden PR arbeitest, aktualisiere ihn mit neuen Commits, statt zusätzliche PRs für dasselbe Problem zu erstellen.\n* Bewahre beim Aktualisieren eines PR den ursprünglichen Titel und Zweck bei und aktualisiere die Beschreibung nur bei Bedarf.\n&#x3C;/PULL-REQUESTS>\n\n&#x3C;PROBLEMLÖSUNGS-ARBEITSABLAUF>\n1. ERKUNDUNG: Erkunde gründlich relevante Dateien und verstehe den Kontext, bevor du Lösungen vorschlägst\n2. ANALYSE: Ziehe mehrere Ansätze in Betracht und wähle den vielversprechendsten aus\n3. TESTEN:\n   * Für Fehlerbehebungen: Erstelle Tests, um Probleme vor der Implementierung von Korrekturen zu verifizieren\n   * Für neue Funktionen: Ziehe bei Bedarf testgetriebene Entwicklung in Betracht\n   * Wenn dem Repository eine Testinfrastruktur fehlt und das Implementieren von Tests umfangreiche Einrichtung erfordern würde, konsultiere den Benutzer, bevor du Zeit in den Aufbau einer Testinfrastruktur investierst\n   * Wenn die Umgebung nicht zum Ausführen von Tests eingerichtet ist, konsultiere zuerst den Benutzer, bevor du Zeit in die Installation aller Abhängigkeiten investierst\n4. IMPLEMENTIERUNG: Nimm fokussierte, minimale Änderungen vor, um das Problem zu beheben\n5. VERIFIZIERUNG: Wenn die Umgebung zum Ausführen von Tests eingerichtet ist, teste deine Implementierung gründlich, einschließlich Randfällen. Wenn die Umgebung nicht zum Ausführen von Tests eingerichtet ist, konsultiere zuerst den Benutzer, bevor du Zeit in das Ausführen von Tests investierst.\n&#x3C;/PROBLEMLÖSUNGS-ARBEITSABLAUF>\n\n&#x3C;SICHERHEIT>\n* Verwende GITHUB_TOKEN und andere Anmeldedaten nur auf eine Weise, die der Benutzer ausdrücklich angefordert hat und erwartet.\n* Verwende APIs, um mit GitHub oder anderen Plattformen zu arbeiten, sofern der Benutzer nicht etwas anderes verlangt oder deine Aufgabe das Browsen erfordert.\n&#x3C;/SICHERHEIT>\n\n&#x3C;UMGEBUNGS-EINRICHTUNG>\n* Wenn der Benutzer dich auffordert, eine Anwendung auszuführen, halte nicht an, wenn die Anwendung nicht installiert ist. Installiere stattdessen die Anwendung und führe den Befehl erneut aus.\n* Wenn fehlende Abhängigkeiten auftreten:\n  1. Schau zuerst im Repository nach vorhandenen Abhängigkeitsdateien (requirements.txt, pyproject.toml, package.json, Gemfile usw.)\n  2. Wenn Abhängigkeitsdateien vorhanden sind, verwende sie, um alle Abhängigkeiten auf einmal zu installieren (z. B. `pip install -r requirements.txt`, `npm install` usw.)\n  3. Installiere einzelne Pakete nur direkt, wenn keine Abhängigkeitsdateien gefunden werden oder nur bestimmte Pakete benötigt werden\n* Ebenso gilt: Wenn für wesentliche Werkzeuge, die der Benutzer angefordert hat, Abhängigkeiten fehlen, installiere sie nach Möglichkeit.\n&#x3C;/UMGEBUNGS-EINRICHTUNG>\n\n&#x3C;FEHLERBEHEBUNG>\n* Wenn du mehrere Versuche unternommen hast, ein Problem zu lösen, die Tests aber immer noch fehlschlagen oder der Benutzer meldet, dass es immer noch kaputt ist:\n  1. Tritt einen Schritt zurück und denke über 5-7 verschiedene mögliche Ursachen des Problems nach\n  2. Bewerte die Wahrscheinlichkeit jeder möglichen Ursache\n  3. Behandle systematisch die wahrscheinlichsten Ursachen, beginnend mit der höchsten Wahrscheinlichkeit\n  4. Dokumentiere deinen Denkprozess\n* Wenn du bei der Ausführung eines Plans des Benutzers auf ein größeres Problem stößt, versuche bitte nicht, es direkt zu umgehen. Schlage stattdessen einen neuen Plan vor und bestätige ihn mit dem Benutzer, bevor du fortfährst.\n&#x3C;/FEHLERBEHEBUNG>[/SYSTEM_PROMPT][INST]Erstelle ein Flappy-Bird-Spiel in Python. Du musst diese Dinge einschließen:\n1. Du musst pygame verwenden.\n2. Die Hintergrundfarbe sollte zufällig gewählt werden und ein heller Farbton sein. Beginne mit einem hellblauen Farbton.\n3. Mehrfaches Drücken der LEERTASTE beschleunigt den Vogel.\n4. Die Form des Vogels sollte zufällig als Quadrat, Kreis oder Dreieck gewählt werden. Die Farbe sollte zufällig als dunkle Farbe gewählt werden.\n5. Platziere unten etwas Land, das zufällig dunkelbraun oder gelb gefärbt ist.\n6. Zeige oben rechts eine Punktzahl an. Erhöhe sie, wenn du an Rohren vorbeikommst und sie nicht triffst.\n7. Erzeuge zufällig verteilte Rohre mit genügend Abstand. Färbe sie zufällig als dunkelgrün, hellbraun oder einen dunklen Grauton.\n8. Wenn du verlierst, zeige die Bestpunktzahl an. Der Text soll innerhalb des Bildschirms stehen. Drücken von q oder Esc beendet das Spiel. Ein Neustart erfolgt durch erneutes Drücken der LEERTASTE.\nDas fertige Spiel sollte sich in einem Markdown-Abschnitt in Python befinden. Überprüfe deinen Code auf Fehler[/INST]"
</code></pre>

{% hint style="danger" %}
Denke daran, \<bos> zu entfernen, da Devstral \<bos> automatisch hinzufügt! Bitte verwende außerdem `--jinja` um den System-Prompt zu aktivieren!
{% endhint %}

## :eyes:Experimentelle Vision-Unterstützung

[Xuan-Son](https://x.com/ngxson) von Hugging Face zeigte in seinem [GGUF-Repo](https://huggingface.co/ngxson/Devstral-Small-Vision-2505-GGUF) wie es tatsächlich möglich ist, den Vision-Encoder von Mistral 3.1 Instruct auf Devstral 2507 zu „transplantieren“. Wir haben außerdem unsere mmproj-Dateien hochgeladen, mit denen Sie Folgendes verwenden können:

```bash
./llama.cpp/llama-mtmd-cli \\
    --model unsloth/Devstral-Small-2507-GGUF/Devstral-Small-2507-UD-Q4_K_XL.gguf \\
    --mmproj unsloth/Devstral-Small-2507-GGUF/mmproj-F16.gguf \\
    --threads -1 \\
    --ctx-size 131072 \\
    --cache-type-k q8_0 \\
    --n-gpu-layers 99 \\
    --seed 3407 \\
    --prio 2 \\
    --temp 0.15
```

Zum Beispiel:

| Anleitung und Ausgabecode                                                                                     | Gerenderter Code                                                                                              |
| ------------------------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------- |
| ![](https://cdn-uploads.huggingface.co/production/uploads/63ca214abedad7e2bf1d1517/HDic53ANsCoJbiWu2eE6K.png) | ![](https://cdn-uploads.huggingface.co/production/uploads/63ca214abedad7e2bf1d1517/onV1xfJIT8gzh81RkLn8J.png) |

## 🦥 Devstral mit Unsloth feinabstimmen

Genau wie Standard-Mistral-Modelle, einschließlich Mistral Small 3.1, unterstützt Unsloth das Feinabstimmen von Devstral. Das Training ist 2x schneller, verwendet 70 % weniger VRAM und unterstützt 8x längere Kontextlängen. Devstral passt bequem in eine 24-GB-VRAM-L4-GPU.

Leider überschreitet Devstral die Speichergrenzen von 16 GB VRAM leicht, sodass das kostenlose Feinabstimmen in Google Colab derzeit nicht möglich ist. Du *kannst* das Modell kostenlos feinabstimmen mit unserem [Kaggle-Notebook](https://www.kaggle.com/notebooks/welcome?src=https://github.com/unslothai/notebooks/blob/main/nb/Kaggle-Magistral_\(24B\)-Reasoning-Conversational.ipynb\&accelerator=nvidiaTeslaT4), das Zugriff auf zwei GPUs bietet. Ändere einfach den Modellnamen von Magistral im Notebook auf das Devstral-Modell.

Wenn du eine ältere Version von Unsloth hast und/oder lokal feinabstimmst, installiere die neueste Version von Unsloth:

```bash
pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
```

[^1]: K-Quantisierung zur Reduzierung des Speicherverbrauchs. Kann f16, q8\_0, q4\_0 sein

[^2]: Es muss --jinja verwendet werden, um den System-Prompt zu aktivieren


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/de/modelle/tutorials/devstral-how-to-run-and-fine-tune.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
