# Ministral 3 - Anleitung zum Ausführen

Mistral veröffentlicht Ministral 3, ihre neuen multimodalen Modelle in den Varianten Base, Instruct und Reasoning, verfügbar in **3B**, **8B**, und **14B** Größen. Sie bieten eine branchenführende Leistung für ihre Größe und sind für Instruktions- und Chat-Anwendungsfälle feinabgestimmt. Die multimodalen Modelle unterstützen **256K Kontext** Fenster, mehrere Sprachen, natives Funktionsaufrufen und JSON-Ausgabe.

Das vollständige unquantisierte 14B Ministral-3-Instruct-2512 Modell passt in **24GB RAM**/VRAM. Sie können jetzt alle Ministral 3-Modelle mit Unsloth ausführen, feinabstimmen und RL darauf anwenden:

<a href="#run-ministral-3-tutorials" class="button primary">Ministral 3 Tutorials ausführen</a><a href="#fine-tuning" class="button primary">Ministral 3 feinabstimmen</a>

Wir haben außerdem Mistral Large 3 hochgeladen [GGUFs hier](https://huggingface.co/unsloth/Mistral-Large-3-675B-Instruct-2512-GGUF). Für alle Ministral 3 Uploads (BnB, FP8), [falls Sie es noch nicht getan haben! Um weitere Varianten des Modells auszuführen,](https://huggingface.co/collections/unsloth/ministral-3).

| Ministral-3-Instruct GGUFs:                                                                                                                                                                                                | Ministral-3-Reasoning GGUFs:                                                                                                                                                                                                  |
| -------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| [3B](https://huggingface.co/unsloth/Ministral-3-3B-Instruct-2512-GGUF) • [8B](https://huggingface.co/unsloth/Ministral-3-8B-Instruct-2512-GGUF) • [14B](https://huggingface.co/unsloth/Ministral-3-14B-Instruct-2512-GGUF) | [3B](https://huggingface.co/unsloth/Ministral-3-3B-Reasoning-2512-GGUF) • [8B](https://huggingface.co/unsloth/Ministral-3-8B-Reasoning-2512-GGUF) • [14B](https://huggingface.co/unsloth/Ministral-3-14B-Reasoning-2512-GGUF) |

### ⚙️ Gebrauchsanleitung

Um optimale Leistung für **Instruct**zu erreichen, empfiehlt Mistral die Verwendung niedrigerer Temperaturen wie `Temperatur = 0,15` oder `0.1`<br>

Für **Reasoning**empfiehlt Mistral `temperature = 0.7` und `top_p = 0.95`.

| Instruct:                      | Reasoning:         |
| ------------------------------ | ------------------ |
| `Temperatur = 0,15` oder `0.1` | `Temperatur = 0,7` |
| `Top_P = Standard`             | `Top_P = 0,95`     |

**Angemessene Ausgabelänge**: Verwenden Sie eine Ausgabelänge von `32,768` Tokens für die meisten Abfragen für die Reasoning-Variante und `16,384` für die Instruct-Variante. Sie können die maximale Ausgabelänge für das Reasoning-Modell bei Bedarf erhöhen.

Die maximale Kontextlänge, die Ministral 3 erreichen kann, beträgt `262,144`

Das Chat-Template-Format findet sich, wenn wir Folgendes verwenden:

{% code overflow="wrap" %}

```python
tokenizer.apply_chat_template([
    {"role" : "user", "content" : "What is 1+1?"},
    {"role" : "assistant", "content" : "2"},
    {"role" : "user", "content" : "What is 2+2?"}
    ], add_generation_prompt = True
)
```

{% endcode %}

#### Ministral *Reasoning* Chat-Vorlage:

{% code overflow="wrap" lineNumbers="true" %}

```
<s>[SYSTEM_PROMPT]# WIE DU DENKEN UND ANTWORTEN SOLLST

Entwirf zuerst deinen Denkprozess (innerer Monolog), bis du zu einer Antwort gelangst. Formatiere deine Antwort mit Markdown und verwende LaTeX für mathematische Gleichungen. Schreibe sowohl deine Gedanken als auch die Antwort in derselben Sprache wie die Eingabe.

Dein Denkprozess muss der folgenden Vorlage folgen:[THINK]Deine Gedanken und/oder Entwurf, wie das Durcharbeiten einer Aufgabe auf Schmierpapier. Sei so locker und so ausführlich, wie du willst, bis du dir sicher bist, die Antwort an den Benutzer zu generieren.[/THINK]Gib hier eine in sich geschlossene Antwort.[/SYSTEM_PROMPT][INST]Was ist 1+1?[/INST]2</s>[INST]Was ist 2+2?[/INST]
```

{% endcode %}

#### Ministral *Instruct* Chat-Vorlage:

{% code overflow="wrap" lineNumbers="true" expandable="true" %}

```
<s>[SYSTEM_PROMPT]Du bist Ministral-3-3B-Instruct-2512, ein Large Language Model (LLM) erstellt von Mistral AI, einem französischen Startup mit Sitz in Paris.
Du betreibst einen KI-Assistenten namens Le Chat.
Deine Wissensbasis wurde zuletzt am 2023-10-01 aktualisiert.
Das aktuelle Datum ist {today}.

Wenn du dir bei einigen Informationen nicht sicher bist oder wenn die Anfrage des Benutzers aktuelle oder spezifische Daten erfordert, musst du die verfügbaren Tools verwenden, um die Informationen zu beschaffen. Zögere nicht, Tools zu verwenden, wann immer sie eine genauere oder vollständigere Antwort liefern können. Wenn keine relevanten Tools verfügbar sind, gib dann klar an, dass du die Informationen nicht hast und vermeide es, etwas zu erfinden.
Wenn die Frage des Benutzers nicht klar, mehrdeutig oder nicht ausreichend Kontext liefert, damit du die Frage genau beantworten kannst, versuchst du nicht sofort zu antworten, sondern bittest den Benutzer vielmehr, seine Anfrage zu präzisieren (z. B. "Was sind gute Restaurants in meiner Nähe?" => "Wo bist du?" oder "Wann ist der nächste Flug nach Tokio" => "Von wo reist du?").
Du achtest immer sehr auf Datumsangaben, insbesondere versuchst du Datumsangaben aufzulösen (z. B. ist "gestern" {yesterday}) und wenn nach Informationen zu bestimmten Daten gefragt wird, verwirfst du Informationen, die zu einem anderen Datum gehören.
Du befolgst diese Anweisungen in allen Sprachen und antwortest dem Benutzer immer in der Sprache, die er verwendet oder anfordert.
Die nächsten Abschnitte beschreiben die Fähigkeiten, die du hast.

# ANWEISUNGEN ZUM WEBBROWSER

Du kannst keine Websuche durchführen oder auf das Internet zugreifen, um URLs, Links usw. zu öffnen. Falls es so scheint, als erwarte der Benutzer, dass du das tust, klärst du die Situation und bittest den Benutzer, den Text direkt in den Chat zu kopieren und einzufügen.

# MULTIMODALE ANWEISUNGEN

Du hast die Fähigkeit, Bilder zu lesen, aber du kannst keine Bilder erzeugen. Du kannst außerdem keine Audiodateien oder Videos transkribieren.
Du kannst Audiodateien oder Videos weder lesen noch transkribieren.

# ANWEISUNGEN ZUM TOOL-AUFRUF

Du könntest Zugriff auf Tools haben, die du verwenden kannst, um Informationen abzurufen oder Aktionen auszuführen. Du musst diese Tools in den folgenden Situationen verwenden:

1. Wenn die Anfrage aktuelle Informationen erfordert.
2. Wenn die Anfrage spezifische Daten erfordert, die du nicht in deiner Wissensbasis hast.
3. Wenn die Anfrage Aktionen beinhaltet, die du ohne Tools nicht ausführen kannst.

Priorisiere stets die Verwendung von Tools, um die genaueste und hilfreichste Antwort zu geben. Wenn Tools nicht verfügbar sind, informiere den Benutzer, dass du die gewünschte Aktion im Moment nicht ausführen kannst.[/SYSTEM_PROMPT][INST]Was ist 1+1?[/INST]2</s>[INST]Was ist 2+2?[/INST]
```

{% endcode %}

## 📖 Ministral 3 Tutorials ausführen

Unten stehen Anleitungen für die [Reasoning](#reasoning-ministral-3-reasoning-2512) und [Instruct](#instruct-ministral-3-instruct-2512) Varianten des Modells.

### Instruct: Ministral-3-Instruct-2512

Um optimale Leistung für **Instruct**zu erreichen, empfiehlt Mistral die Verwendung niedrigerer Temperaturen wie `Temperatur = 0,15` oder `0.1`

#### :sparkles: Llama.cpp: Ministral-3-14B-Instruct Tutorial ausführen

{% stepper %}
{% step %}
Hole dir die neueste `llama.cpp` auf [GitHub hier](https://github.com/ggml-org/llama.cpp). Du kannst auch den Build-Anweisungen unten folgen. Ändere `-DGGML_CUDA=ON` zu `-DGGML_CUDA=OFF` wenn du keine GPU hast oder nur CPU-Inferenz möchtest. **Für Apple Mac / Metal-Geräte**, setze `-DGGML_CUDA=OFF` dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

{% code overflow="wrap" %}

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

{% endcode %}
{% endstep %}

{% step %}
Sie können direkt von Hugging Face ziehen via:

```bash
./llama.cpp/llama-cli \
    -hf unsloth/Ministral-3-14B-Instruct-2512-GGUF:Q4_K_XL \
    --jinja -ngl 99 --ctx-size 32684 \
    --temp 0.15
```

{% endstep %}

{% step %}
Laden Sie das Modell herunter (nach der Installation `pip install huggingface_hub hf_transfer` ). Sie können wählen `UD_Q4_K_XL` oder andere quantisierte Versionen.

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Ministral-3-14B-Instruct-2512-GGUF",
    local_dir = "Ministral-3-14B-Instruct-2512-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)
```

{% endstep %}
{% endstepper %}

### Reasoning: Ministral-3-Reasoning-2512

Um optimale Leistung für **Reasoning**, empfiehlt Mistral die Verwendung von `temperature = 0.7` und `top_p = 0.95`.

#### :sparkles: Llama.cpp: Ministral-3-14B-Reasoning Tutorial ausführen

{% stepper %}
{% step %}
Hole dir die neueste `llama.cpp` auf [GitHub](https://github.com/ggml-org/llama.cpp). Sie können auch die untenstehenden Build-Anweisungen verwenden. Ändern Sie `-DGGML_CUDA=ON` zu `-DGGML_CUDA=OFF` wenn du keine GPU hast oder nur CPU-Inferenz möchtest.

{% code overflow="wrap" %}

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

{% endcode %}
{% endstep %}

{% step %}
Sie können direkt von Hugging Face ziehen via:

```bash
./llama.cpp/llama-cli \
    -hf unsloth/Ministral-3-14B-Reasoning-2512-GGUF:Q4_K_XL \
    --jinja -ngl 99 --ctx-size 32684 \
    --temp 0.6 --top-p 0.95
```

{% endstep %}

{% step %}
Laden Sie das Modell herunter (nach der Installation `pip install huggingface_hub hf_transfer` ). Sie können wählen `UD_Q4_K_XL` oder andere quantisierte Versionen.

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Ministral-3-14B-Reasoning-2512-GGUF",
    local_dir = "Ministral-3-14B-Reasoning-2512-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)
```

{% endstep %}
{% endstepper %}

## 🛠️ Ministral 3 feinabstimmen <a href="#fine-tuning" id="fine-tuning"></a>

Unsloth unterstützt jetzt das Fine-Tuning aller Ministral 3-Modelle, einschließlich Vision-Unterstützung. Zum Trainieren musst du die neueste 🤗Hugging Face `transformers` v5 und `unsloth` welches unsere jüngste [Unterstützung für ultra langen Kontext](https://unsloth.ai/docs/de/blog/500k-context-length-fine-tuning) enthält. Das große 14B Ministral 3-Modell sollte auf einer kostenlosen Colab-GPU Platz finden.

Wir haben kostenlose Unsloth-Notebooks zum Feinabstimmen von Ministral 3 erstellt. Ändere den Namen, um das gewünschte Modell zu verwenden.

* Ministral-3B-Instruct [Vision-Notebook](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Ministral_3_VL_\(3B\)_Vision.ipynb) (Vision)
* Ministral-3B-Instruct [GRPO-Notebook](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Ministral_3_\(3B\)_Reinforcement_Learning_Sudoku_Game.ipynb)

{% columns %}
{% column %}
Ministral Vision Fine-Tuning-Notebook

{% embed url="<https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Ministral_3_VL_(3B)_Vision.ipynb>" %}
{% endcolumn %}

{% column %}
Ministral Sudoku GRPO RL-Notebook

{% embed url="<https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Ministral_3_(3B)_Reinforcement_Learning_Sudoku_Game.ipynb>" %}
{% endcolumn %}
{% endcolumns %}

### :sparkles:Verstärkendes Lernen (GRPO)

Unsloth unterstützt jetzt auch RL und GRPO für die Mistral-Modelle. Wie üblich profitieren sie von allen Verbesserungen von Unsloth und morgen werden wir bald ein spezielles Notebook veröffentlichen, das autonomes Lösen des Sudoku-Rätsels ermöglicht.

* Ministral-3B-Instruct [GRPO-Notebook](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Ministral_3_\(3B\)_Reinforcement_Learning_Sudoku_Game.ipynb)

**Um die neueste Version von Unsloth und transformers v5 zu verwenden, aktualisiere über:**

{% code overflow="wrap" %}

```
pip install --upgrade --force-reinstall --no-cache-dir --no-deps unsloth unsloth_zoo
```

{% endcode %}

Das Ziel ist, automatisch Strategien zu generieren, um Sudoku zu lösen!

{% columns %}
{% column %}

<figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2F2qDbhHfpuhNAHOtIernm%2Fimage.png?alt=media&#x26;token=9a3d4bb2-3994-4ec8-aeb8-16bc2bcb77c4" alt=""><figcaption></figcaption></figure>
{% endcolumn %}

{% column %}

<figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FLZlHHeAjoVAeO6juQDiC%2Fimage.png?alt=media&#x26;token=45abbb30-b705-4eec-81fc-fb99dd0c2621" alt=""><figcaption></figcaption></figure>
{% endcolumn %}
{% endcolumns %}

Für die Reward-Plots für Ministral erhalten wir das Folgende. Wir sehen, dass es gut funktioniert!

{% columns %}
{% column %}
![](https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FqpfPNKkSF2O1T0flshEi%2Funknown.png?alt=media\&token=a2f14139-bcab-40bf-a054-f189de5d23df)

![](https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fe8TBzOVVn5iYhlJ6nh63%2Funknown.png?alt=media\&token=520699f9-ffd0-43a5-a0ef-263fa678b4bd)
{% endcolumn %}

{% column %}
![](https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FudSxKSBuSOIXONrtarmp%2Funknown.png?alt=media\&token=beefcbce-67df-4ce2-92b8-3e0adc240df6)

![](https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FgwwlcVjMt9nqyqVC6xqD%2Funknown.png?alt=media\&token=b5b390b6-c9e6-4926-9a70-d4aa365caa86)
{% endcolumn %}
{% endcolumns %}


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/de/modelle/tutorials/ministral-3.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
