# Ministral 3 - Leitfaden zum Ausführen

Mistral veröffentlicht Ministral 3, ihre neuen multimodalen Modelle in den Varianten Base, Instruct und Reasoning, verfügbar in **3B**, **8B**und **14B** Größen. Sie bieten erstklassige Leistung für ihre Größe und sind für Anwendungsfälle wie Anweisungen und Chat feinabgestimmt. Die multimodalen Modelle unterstützen **256K Kontext** Fenster, mehrere Sprachen, native Funktionsaufrufe und JSON-Ausgabe.

Das vollständige, nicht quantisierte Modell 14B Ministral-3-Instruct-2512 passt in **24 GB RAM**/VRAM. Sie können jetzt alle Ministral-3-Modelle mit Unsloth ausführen, feinabstimmen und RL darauf anwenden:

<a href="#run-ministral-3-tutorials" class="button primary">Ministral-3-Tutorials ausführen</a><a href="/pages/ce1a52c32558234afe580939db0fcfe220dc208b#fine-tuning" class="button primary">Ministral 3 feinabstimmen</a>

Wir haben außerdem Mistral Large 3 hochgeladen [GGUFs zu](https://huggingface.co/unsloth/Mistral-Large-3-675B-Instruct-2512-GGUF). Für alle Ministral-3-Uploads (BnB, FP8), [sehen Sie hier](https://huggingface.co/collections/unsloth/ministral-3).

| Ministral-3-Instruct GGUFs:                                                                                                                                                                                                | Ministral-3-Reasoning GGUFs:                                                                                                                                                                                                  |
| -------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| [3B](https://huggingface.co/unsloth/Ministral-3-3B-Instruct-2512-GGUF) • [8B](https://huggingface.co/unsloth/Ministral-3-8B-Instruct-2512-GGUF) • [14B](https://huggingface.co/unsloth/Ministral-3-14B-Instruct-2512-GGUF) | [3B](https://huggingface.co/unsloth/Ministral-3-3B-Reasoning-2512-GGUF) • [8B](https://huggingface.co/unsloth/Ministral-3-8B-Reasoning-2512-GGUF) • [14B](https://huggingface.co/unsloth/Ministral-3-14B-Reasoning-2512-GGUF) |

### ⚙️ Nutzungsanleitung

Um eine optimale Leistung für **Instruct**zu erzielen, empfiehlt Mistral die Verwendung niedrigerer Temperaturen wie `temperature = 0.15` oder `0.1`<br>

Für **Reasoning**empfiehlt Mistral `temperature = 0.7` und `top_p = 0.95`.

| Instruct:                      | Reasoning:         |
| ------------------------------ | ------------------ |
| `Temperatur = 0,15` oder `0.1` | `Temperatur = 0,7` |
| `Top_P = Standard`             | `Top_P = 0,95`     |

**Angemessene Ausgabelänge**: Verwenden Sie eine Ausgabelänge von `32,768` Tokens für die meisten Abfragen für die Reasoning-Variante und `16,384` für die Instruct-Variante. Bei Bedarf können Sie die maximale Ausgabegröße für das Reasoning-Modell erhöhen.

Die maximale Kontextlänge, die Ministral 3 erreichen kann, ist `262,144`

Das Chat-Template-Format findet man, wenn man die folgende Verwendung nutzt:

{% code overflow="wrap" %}

```python
tokenizer.apply_chat_template([
    {"role" : "user", "content" : "Was ist 1+1?"},
    {"role" : "assistant", "content" : "2"},
    {"role" : "user", "content" : "Was ist 2+2?"}
    ], add_generation_prompt = True
)
```

{% endcode %}

#### Ministral *Reasoning* Chat-Template:

{% code overflow="wrap" lineNumbers="true" %}

```
<s>[SYSTEM_PROMPT]# WIE SIE DENKEN UND ANTWORTEN SOLLTEN

Entwirf zuerst deinen Denkprozess (inneren Monolog), bis du zu einer Antwort gelangst. Formatiere deine Antwort mit Markdown und verwende LaTeX für mathematische Gleichungen. Schreibe sowohl deine Gedanken als auch die Antwort in derselben Sprache wie die Eingabe.

Ihr Denkprozess muss der untenstehenden Vorlage folgen:[THINK]Ihre Gedanken und/oder Entwürfe, so als würden Sie eine Übung auf Schmierpapier durcharbeiten. Seien Sie so locker und so ausführlich, wie Sie möchten, bis Sie zuversichtlich sind, eine Antwort für den Benutzer zu erzeugen.[/THINK]Hier geben Sie eine in sich geschlossene Antwort.[/SYSTEM_PROMPT][INST]Was ist 1+1?[/INST]2</s>[INST]Was ist 2+2?[/INST]
```

{% endcode %}

#### Ministral *Instruct* Chat-Template:

{% code overflow="wrap" lineNumbers="true" expandable="true" %}

```
<s>[SYSTEM_PROMPT]Sie sind Ministral-3-3B-Instruct-2512, ein Large Language Model (LLM), das von Mistral AI, einem französischen Startup mit Hauptsitz in Paris, erstellt wurde.
Sie betreiben einen KI-Assistenten namens Le Chat.
Ihre Wissensdatenbank wurde zuletzt am 2023-10-01 aktualisiert.
Das aktuelle Datum ist {today}.

Wenn Sie sich bei einigen Informationen nicht sicher sind oder wenn die Anfrage des Nutzers aktuelle oder spezifische Daten erfordert, müssen Sie die verfügbaren Werkzeuge verwenden, um die Informationen abzurufen. Zögern Sie nicht, Werkzeuge zu verwenden, wann immer sie eine genauere oder vollständigere Antwort liefern können. Wenn keine relevanten Werkzeuge verfügbar sind, geben Sie klar an, dass Sie die Informationen nicht haben, und vermeiden Sie es, etwas zu erfinden.
Wenn die Frage des Nutzers nicht klar oder mehrdeutig ist oder nicht genügend Kontext bietet, damit Sie die Frage genau beantworten können, versuchen Sie nicht, sie sofort zu beantworten, sondern bitten Sie den Nutzer stattdessen, seine Anfrage zu präzisieren (z. B. "Was sind gute Restaurants in meiner Nähe?" => "Wo sind Sie?" oder "Wann ist der nächste Flug nach Tokio" => "Von wo reisen Sie ab?").
Sie achten immer sehr auf Daten, insbesondere versuchen Sie, Daten aufzulösen (z. B. ist "gestern" {yesterday}) und wenn nach Informationen zu bestimmten Daten gefragt wird, verwerfen Sie Informationen, die zu einem anderen Datum gehören.
Sie befolgen diese Anweisungen in allen Sprachen und antworten dem Nutzer immer in der Sprache, die er verwendet oder anfordert.
Die nächsten Abschnitte beschreiben die Fähigkeiten, die Sie haben.

# ANWEISUNGEN ZUM WEBBROWSING

Sie können keine Websuche durchführen oder auf das Internet zugreifen, um URLs, Links usw. zu öffnen. Wenn es so scheint, als würde der Nutzer erwarten, dass Sie dies tun, klären Sie die Situation und bitten Sie den Nutzer, den Text direkt in den Chat zu kopieren und einzufügen.

# ANWEISUNGEN ZU MULTIMODALEN EINGABEN

Sie haben die Fähigkeit, Bilder zu lesen, können jedoch keine Bilder erzeugen. Sie können außerdem keine Audio-Dateien oder Videos transkribieren.
Sie können Audio-Dateien oder Videos weder lesen noch transkribieren.

# ANWEISUNGEN ZUM TOOL-PLATZIEREN

Sie haben möglicherweise Zugriff auf Werkzeuge, die Sie verwenden können, um Informationen abzurufen oder Aktionen auszuführen. Sie müssen diese Werkzeuge in den folgenden Situationen verwenden:

1. Wenn die Anfrage aktuelle Informationen erfordert.
2. Wenn die Anfrage spezifische Daten erfordert, die Sie nicht in Ihrer Wissensdatenbank haben.
3. Wenn die Anfrage Aktionen umfasst, die Sie ohne Werkzeuge nicht ausführen können.

Priorisieren Sie immer die Verwendung von Werkzeugen, um die genaueste und hilfreichste Antwort zu liefern. Wenn keine Werkzeuge verfügbar sind, teilen Sie dem Nutzer mit, dass Sie die angeforderte Aktion im Moment nicht ausführen können.[/SYSTEM_PROMPT][INST]Was ist 1+1?[/INST]2</s>[INST]Was ist 2+2?[/INST]
```

{% endcode %}

## 📖 Ministral-3-Tutorials ausführen

Unten sind Anleitungen für die [Reasoning](#reasoning-ministral-3-reasoning-2512) und [Instruct](#instruct-ministral-3-instruct-2512) Varianten des Modells.

### Instruct: Ministral-3-Instruct-2512

Um eine optimale Leistung für **Instruct**zu erzielen, empfiehlt Mistral die Verwendung niedrigerer Temperaturen wie `temperature = 0.15` oder `0.1`

#### :sparkles: Llama.cpp: Tutorial zum Ausführen von Ministral-3-14B-Instruct

{% stepper %}
{% step %}
Hole dir die neueste `llama.cpp` auf [GitHub hier](https://github.com/ggml-org/llama.cpp). Du kannst auch den untenstehenden Build-Anweisungen folgen. Ändere `-DGGML_CUDA=ON` zu `-DGGML_CUDA=OFF` wenn du keine GPU hast oder nur CPU-Inferenz möchtest. **Für Apple Mac / Metal-Geräte**, setze `-DGGML_CUDA=OFF` und fahre dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

{% code overflow="wrap" %}

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

{% endcode %}
{% endstep %}

{% step %}
Sie können direkt von Hugging Face ziehen über:

```bash
./llama.cpp/llama-cli \
    -hf unsloth/Ministral-3-14B-Instruct-2512-GGUF:Q4_K_XL \
    --jinja -ngl 99 --ctx-size 32784 \
    --temp 0,15
```

{% endstep %}

{% step %}
Lade das Modell herunter über (nach der Installation von `pip install huggingface_hub hf_transfer` ). Du kannst `UD_Q4_K_XL` oder andere quantisierte Versionen auswählen.

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Ministral-3-14B-Instruct-2512-GGUF",
    local_dir = "Ministral-3-14B-Instruct-2512-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)
```

{% endstep %}
{% endstepper %}

### Reasoning: Ministral-3-Reasoning-2512

Um eine optimale Leistung für **Reasoning**empfiehlt Mistral die Verwendung von `temperature = 0.7` und `top_p = 0.95`.

#### :sparkles: Llama.cpp: Tutorial zum Ausführen von Ministral-3-14B-Reasoning

{% stepper %}
{% step %}
Hole dir die neueste `llama.cpp` auf [GitHub](https://github.com/ggml-org/llama.cpp). Du kannst auch die Build-Anweisungen unten verwenden. Ändere `-DGGML_CUDA=ON` zu `-DGGML_CUDA=OFF` wenn du keine GPU hast oder nur CPU-Inferenz möchtest.

{% code overflow="wrap" %}

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

{% endcode %}
{% endstep %}

{% step %}
Sie können direkt von Hugging Face ziehen über:

```bash
./llama.cpp/llama-cli \
    -hf unsloth/Ministral-3-14B-Reasoning-2512-GGUF:Q4_K_XL \
    --jinja -ngl 99 --ctx-size 32784 \
    --temp 0.6 --top-p 0.95
```

{% endstep %}

{% step %}
Lade das Modell herunter über (nach der Installation von `pip install huggingface_hub hf_transfer` ). Du kannst `UD_Q4_K_XL` oder andere quantisierte Versionen auswählen.

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Ministral-3-14B-Reasoning-2512-GGUF",
    local_dir = "Ministral-3-14B-Reasoning-2512-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)
```

{% endstep %}
{% endstepper %}

## 🛠️ Ministral 3 feinabstimmen <a href="#fine-tuning" id="fine-tuning"></a>

Unsloth unterstützt jetzt das Fine-Tuning aller Ministral-3-Modelle, einschließlich Unterstützung für Vision. Zum Trainieren müssen Sie die neueste 🤗Hugging Face `transformers` v5 und `unsloth` verwenden, was unsere jüngste [ultralange Kontext-](/docs/de/blog/500k-context-length-fine-tuning.md) Unterstützung umfasst. Das große 14B-Ministral-3-Modell sollte auf eine kostenlose Colab-GPU passen.

Wir haben kostenlose Unsloth-Notebooks zum Fine-Tuning von Ministral 3 erstellt. Ändern Sie den Namen, um das gewünschte Modell zu verwenden.

* Ministral-3B-Instruct [Vision-Notebook](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Ministral_3_VL_\(3B\)_Vision.ipynb) (Vision)
* Ministral-3B-Instruct [GRPO-Notebook](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Ministral_3_\(3B\)_Reinforcement_Learning_Sudoku_Game.ipynb)

{% columns %}
{% column %}
Notizbuch zur Feinabstimmung von Ministral Vision

{% embed url="<https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Ministral_3_VL_(3B)_Vision.ipynb>" %}
{% endcolumn %}

{% column %}
Ministral Sudoku GRPO RL-Notizbuch

{% embed url="<https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Ministral_3_(3B)_Reinforcement_Learning_Sudoku_Game.ipynb>" %}
{% endcolumn %}
{% endcolumns %}

### :sparkles:Reinforcement Learning (GRPO)

Unsloth unterstützt jetzt ebenfalls RL und GRPO für die Mistral-Modelle. Wie üblich profitieren sie von all den Verbesserungen von Unsloth, und morgen werden wir bald ein Notizbuch veröffentlichen, speziell für das autonome Lösen des Sudoku-Rätsels.

* Ministral-3B-Instruct [GRPO-Notebook](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Ministral_3_\(3B\)_Reinforcement_Learning_Sudoku_Game.ipynb)

**Um die neueste Version von Unsloth und transformers v5 zu verwenden, aktualisieren Sie über:**

{% code overflow="wrap" %}

```
pip install --upgrade --force-reinstall --no-cache-dir --no-deps unsloth unsloth_zoo
```

{% endcode %}

Das Ziel ist es, Strategien zur Lösung von Sudoku automatisch zu generieren!

{% columns %}
{% column %}

<figure><img src="/files/8fefe3fb8c6859f22f02d010a5949ea7ec837c0e" alt=""><figcaption></figcaption></figure>
{% endcolumn %}

{% column %}

<figure><img src="/files/cdf30a6fea6e4a3513d7222f3d42edb1236a4a56" alt=""><figcaption></figcaption></figure>
{% endcolumn %}
{% endcolumns %}

Bei den Belohnungsdiagrammen für Ministral erhalten wir das Folgende. Wir sehen, dass es gut funktioniert!

{% columns %}
{% column %}
![](/files/de84e8fbb0657f67fece657493b5da3005dac371)

![](/files/f37c7ce6e57a9bb22096cb21e3d9e62a883f1cd7)
{% endcolumn %}

{% column %}
![](/files/9e3d99146d2115970df6aa47028c5b7b5377ebde)

![](/files/674ad2bbd3c07b18da1b927971d2e28352fe0742)
{% endcolumn %}
{% endcolumns %}


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/de/modelle/tutorials/ministral-3.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
