# Mistral 3.5 - Wie man lokal ausführt

Mistral veröffentlicht Mistral-Medium-3.5-128B, ihr neues dichtes multimodales Hybrid-Reasoning-Modell mit 128B Parametern. Es unterstützt Text- und Bildeingabe, Textausgabe, ein Kontextfenster von 256K und glänzt bei Reasoning, Coding, Langkontext, Tool-Nutzung, agentischen Workflows und multimodalem Dokument-/Bildverständnis.

Mistral Medium 3.5 bietet eine äußerst wettbewerbsfähige Leistung für Modelle, die 5x so groß sind. Lokal auf \~64 GB RAM ausführen. GGUF: [Mistral-Medium-3.5-128B-GGUF](https://huggingface.co/unsloth/Mistral-Medium-3.5-128B-GGUF)

{% hint style="success" %}
**Update vom 1. Mai 2026:** Wir haben mit Mistral zusammengearbeitet, um das Inferencing von Mistral Medium 3.5 zu beheben, das einige Implementierungen beeinträchtigte, und haben aktualisierte GGUFs mit dem Fix veröffentlicht (**NICHT bezogen auf Unsloth** oder unsere Quants). Das Problem wurde durch eine YaRN-Parsing-Eigenheit verursacht, die mehrere Implementierungen betraf, darunter `transformers` und `llama.cpp`. Das Ändern von `mscale_all_dim` von `1` zu `0` hat es behoben. Wir haben außerdem behoben, dass `mmproj` Dateien nicht korrekt generiert wurden.

<mark style="background-color:$success;">**Mistral hat unsere Fixes nun in ihr offizielles Repo übernommen!**</mark>
{% endhint %}

### Anleitung zur Verwendung

{% hint style="info" %}
Vision für GGUFs wird jetzt vorerst unterstützt. Unterstützung wird später kommen.
{% endhint %}

Tabelle: Empfohlene Hardwareanforderungen für Mistral Medium 3.5. Die Einheiten sind der Gesamtspeicher: RAM + VRAM oder gemeinsam genutzter Speicher.

| Mistral 3.5     | 3-Bit | 4-Bit | 8-Bit      |
| --------------- | ----- | ----- | ---------- |
| Medium 3.5 128B | 64 GB | 80 GB | 128-170 GB |

{% hint style="info" %}
Ihr gesamter verfügbarer Speicher sollte die Größe des quantisierten Modells, das Sie herunterladen, mindestens übersteigen. Falls nicht, kann llama.cpp zwar weiterhin mit teilweisem RAM-/Festplatten-Offload laufen, die Generierung wird jedoch langsamer sein. Sie benötigen außerdem mehr Speicher für langen Kontext, größere Batches, toollastige Agentenläufe und Bild-Prompts.
{% endhint %}

#### Empfohlene Einstellungen

Verwenden Sie die von Mistral empfohlenen Reasoning-Einstellungen:

* `reasoning_effort="none"` → schnelle sofortige Antworten, Chat, Extraktion und einfache Anweisungen.
* `reasoning_effort="high"` → Reasoning-Modus, empfohlen für komplexe Prompts, Coding, Recherche, Mathematik und agentische Nutzung.

Empfohlene Standardwerte fürs Sampling:

* Verwenden Sie `temperature = 0.7` für `reasoning_effort="high"`.
* Verwenden Sie `temperature = 0.0` zu `0.7` für `reasoning_effort="none"`, je nach Aufgabe.
* Lassen Sie Wiederholungs- und Präsenzstrafen deaktiviert oder auf `1.0` , sofern Sie Schleifen beobachten.
* Maximale Kontextlänge von `262,144`

#### **Reasoning-Modus**

Mistral Medium 3.5 unterstützt den sofortigen Instruct-Modus und den Reasoning-Modus mit einer Option 'high'.

Um High Reasoning für llama.cpp / llama-server zu aktivieren:

```bash
--chat-template-kwargs '{"reasoning_effort":"high"}'
```

Um Reasoning zu deaktivieren:

```bash
--chat-template-kwargs '{"reasoning_effort":"none"}'
```

Wenn Sie Windows PowerShell verwenden, nutzen Sie:

```powershell
--chat-template-kwargs "{\"reasoning_effort\":\"none\"}"
```

## Mistral 3.5 Tutorials ausführen

Da Mistral Medium 3.5 ein dichtes Modell mit 128B Parametern ist, ist der empfohlene Ausgangspunkt Dynamic 4-Bit GGUFs für lokale Inferenz. GGUF: `unsloth/Mistral-Medium-3.5-128B-GGUF`

<a href="/pages/f87f44e61c9ce5cecbda1457f5d1d496142c73d9#unsloth-studio-guide" class="button primary">In Unsloth Studio ausführen</a><a href="/pages/f87f44e61c9ce5cecbda1457f5d1d496142c73d9#llama.cpp-guide" class="button secondary">In llama.cpp ausführen</a>

{% hint style="warning" %}
Derzeit funktioniert kein multimodales/Vision-GGUF in **Ollama** aufgrund separater `mmproj` Vision-Dateien. Verwenden Sie mit llama.cpp kompatible Backends.

Verwenden Sie NICHT **CUDA 13.2** da Sie sonst unverständliche Ausgaben erhalten könnten. NVIDIA arbeitet an einem Fix.
{% endhint %}

### 🦥 Unsloth Studio-Anleitung

Für dieses Tutorial verwenden wir [Unsloth Studio](/docs/de/neu/studio.md), unsere neue Web-UI zum Ausführen und Trainieren von LLMs. Mit Unsloth Studio können Sie Modelle ausführen und **Audio**, Bild und Text lokal auf **Mac, Windows**und Linux eingeben und:

{% columns %}
{% column %}

* Suchen, herunterladen, [GGUFs ausführen](/docs/de/neu/studio.md#run-models-locally) und Safetensor-Modelle
* **Modelle** vergleichen **nebeneinander**
* [**Selbstheilendes** Tool-Calling](/docs/de/neu/studio.md#execute-code--heal-tool-calling) + **Websuche**
* [**Code-Ausführung**](/docs/de/neu/studio.md#run-models-locally) (Python, Bash)
* [Automatische Inferenz](/docs/de/neu/studio.md#model-arena) Parameter-Tuning (Temp, Top-p usw.)
* [LLMs trainieren](/docs/de/neu/studio.md#no-code-training) 2x schneller mit 70% weniger VRAM
  {% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/89ac45c1d5144736e3036cb7225d0c867534603a" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% stepper %}
{% step %}

#### Unsloth installieren

**MacOS, Linux, WSL:**

```bash
curl -fsSL https://unsloth.ai/install.sh | sh
```

**Windows PowerShell:**

```bash
irm https://unsloth.ai/install.ps1 | iex
```

{% endstep %}

{% step %}

#### Unsloth Studio einrichten (einmalig)

Die Einrichtung installiert automatisch Node.js (über nvm), baut das Frontend, installiert alle Python-Abhängigkeiten und baut llama.cpp mit CUDA-Unterstützung.

{% hint style="info" %}
**WSL-Benutzer:** Sie werden aufgefordert, Ihr `sudo` Passwort einzugeben, um Build-Abhängigkeiten zu installieren (`cmake`, `git`, `libcurl4-openssl-dev`).
{% endhint %}
{% endstep %}

{% step %}

#### Unsloth starten

**MacOS, Linux, WSL:**

```bash
source unsloth_studio/bin/activate
unsloth studio -H 0.0.0.0 -p 8888
```

**Windows PowerShell:**

```bash
& .\unsloth_studio\Scripts\unsloth.exe studio -H 0.0.0.0 -p 8888
```

<div data-with-frame="true"><figure><img src="/files/311a34fac8923d2f80dd8c143a1d9c68dff96db5" alt="" width="375"><figcaption></figcaption></figure></div>

**Dann öffnen Sie `http://localhost:8888` in Ihrem Browser.**
{% endstep %}

{% step %}

#### Mistral Medium 3.5 suchen und herunterladen

Beim ersten Start müssen Sie ein Passwort erstellen, um Ihr Konto zu sichern, und sich später erneut anmelden. Gehen Sie dann zum Tab [Studio Chat](/docs/de/neu/studio/chat.md) und suchen Sie in der Suchleiste nach Mistral 3.5 und laden Sie das gewünschte Modell und die gewünschte Quantisierung herunter.
{% endstep %}

{% step %}

#### Mistral 3.5 ausführen

Inferenzparameter sollten bei der Verwendung von Unsloth Studio automatisch gesetzt werden; Sie können sie jedoch weiterhin manuell ändern. Sie können auch die Kontextlänge, die Chat-Vorlage und andere Einstellungen bearbeiten.

Weitere Informationen finden Sie in unserer [Unsloth Studio-Inferenzanleitung](/docs/de/neu/studio/chat.md).
{% endstep %}
{% endstepper %}

### 🦙 Llama.cpp-Anleitung

Für diese Anleitung verwenden wir Unsloth Dynamic 4-Bit für Mistral Medium 3.5. Siehe: `unsloth/Mistral-Medium-3.5-128B-GGUF`.

Für diese Tutorials verwenden wir llama.cpp für schnelle lokale Inferenz, insbesondere wenn Sie eine CPU oder eine Maschine mit hohem gemeinsam genutztem Speicher haben.

**1. llama.cpp bauen**

Beschaffen Sie die neueste `llama.cpp` auf GitHub. Ändern Sie `-DGGML_CUDA=ON` zu `-DGGML_CUDA=OFF` wenn Sie keine GPU haben oder nur CPU-Inferenz möchten. Für Apple Mac / Metal-Geräte setzen Sie `-DGGML_CUDA=OFF`; Metal-Unterstützung ist standardmäßig aktiviert.

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \\
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

**2. Direkt von Hugging Face ausführen**

```bash
export LLAMA_CACHE="unsloth/Mistral-Medium-3.5-128B-GGUF"

./llama.cpp/llama-cli \\
    -hf unsloth/Mistral-Medium-3.5-128B-GGUF:UD-Q4_K_XL \\
    --temp 0.7 \\
    --chat-template-kwargs '{"reasoning_effort":"none"}'
```

Für den High-Reasoning-Modus:

```bash
./llama.cpp/llama-cli \\
    -hf unsloth/Mistral-Medium-3.5-128B-GGUF:UD-Q4_K_XL \\
    --temp 0.7 \\
    --chat-template-kwargs '{"reasoning_effort":"high"}'
```

**3. Das Modell manuell herunterladen**

Nach der Installation von `huggingface_hub` und `hf_transfer`:

```bash
pip install huggingface_hub hf_transfer

hf download unsloth/Mistral-Medium-3.5-128B-GGUF \\
    --local-dir unsloth/Mistral-Medium-3.5-128B-GGUF \\
    --include "*UD-Q4_K_XL*" \\
    --include "*mmproj*"
```

Wenn Downloads hängen bleiben, setzen Sie:

```bash
export HF_HUB_ENABLE_HF_TRANSFER=1
```

**4. Das lokale GGUF ausführen**

```bash
./llama.cpp/llama-cli \\
    --model unsloth/Mistral-Medium-3.5-128B-GGUF/Mistral-Medium-3.5-128B-UD-Q4_K_XL.gguf \\
    --temp 0.7 \\
    --chat-template-kwargs '{"reasoning_effort":"none"}'
```

Wenn ein multimodales Projektor-GGUF enthalten ist, verwenden Sie:

```bash
./llama.cpp/llama-cli \\
    --model unsloth/Mistral-Medium-3.5-128B-GGUF/Mistral-Medium-3.5-128B-UD-Q4_K_XL.gguf \\
    --mmproj unsloth/Mistral-Medium-3.5-128B-GGUF/mmproj-BF16.gguf \\
    --temp 0.7 \\
    --chat-template-kwargs '{"reasoning_effort":"none"}'
```

#### Bereitstellung von Llama-server

Um Mistral Medium 3.5 auf llama-server bereitzustellen, verwenden Sie:

```bash
./llama.cpp/llama-server \\
    -hf unsloth/Mistral-Medium-3.5-128B-GGUF:UD-Q4_K_XL \\
    --alias "mistral-medium-3.5" \\
    --host 0.0.0.0 \\
    --port 8001 \\
    --temp 0.7 \\
    --chat-template-kwargs '{"reasoning_effort":"none"}'
```

Für den Reasoning-Modus:

```bash
--chat-template-kwargs '{"reasoning_effort":"high"}'
```

Wenn Sie Windows PowerShell verwenden, nutzen Sie:

```powershell
--chat-template-kwargs "{\"reasoning_effort\":\"high\"}"
```

Sie können llama-server mit einer OpenAI-kompatiblen Anfrage anpingen:

```bash
curl http://localhost:8001/v1/chat/completions \\
  -H "Content-Type: application/json" \\
  -d '{
    "model": "mistral-medium-3.5",
    "messages": [
      {"role": "user", "content": "Erkläre den Hauptunterschied zwischen dem Instant-Modus und dem Reasoning-Modus."}
    ],
    "temperature": 0.7
  }'
```

### Best Practices für Mistral 3.5

#### Beispiele für Prompts

**Einfacher Reasoning-Prompt**

```
System:
Du bist ein präziser Reasoning-Assistent. Löse die Aufgabe sorgfältig und gib nur die Endantwort und eine kurze Erklärung aus.

Benutzer:
Ein Zug fährt um 8:15 Uhr ab und kommt um 11:47 Uhr an. Wie lange dauerte die Fahrt?
```

Verwenden Sie `reasoning_effort="high"` für diese Art von Prompt.

**OCR-/Dokument-Prompt**

Für OCR und Dokumentenextraktion platzieren Sie das Bild zuerst und verlangen Sie eine strukturierte Ausgabe.

```
[Bild zuerst]
Extrahiere den gesamten Text aus dieser Quittung. Gib Händler, Datum, Positionen und Gesamtsumme als JSON zurück.
```

**Multimodaler Vergleichs-Prompt**

```
[Bild 1]
[Bild 2]
Vergleiche diese beiden Screenshots und sag mir, welcher davon eher einen neuen Benutzer verwirren könnte. Gib 3 konkrete Gründe an.
```

**Coding-Agent-Prompt**

```
Du bist ein Coding-Agent, der in einem Repository arbeitet.
Untersuche zuerst die relevanten Dateien und schlage dann einen minimalen Patch vor.
Gib die Endantwort mit folgendem Inhalt zurück: Zusammenfassung, geänderte Dateien, ausgeführte Tests und Risiken.
```

Verwenden Sie `reasoning_effort="high"` und Tool-Calling zur Erkundung der Codebasis.

**JSON-/Function-Calling-Prompt**

```
Verwenden Sie die bereitgestellten Tools immer dann, wenn eine Berechnung oder Nachschlagearbeit erforderlich ist.
Gib nur gültiges JSON zurück. Füge keinen Prosa-Text außerhalb des JSON-Objekts ein.
```

### Benchmarks

<div><figure><img src="/files/1f15e3ed1dd7da0b0f4fa0ab8c5db60323d5fe1b" alt=""><figcaption></figcaption></figure> <figure><img src="/files/aecbd8bd2c2ab20c66ccaf027eaaa2b222b8bb91" alt=""><figcaption></figcaption></figure></div>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/de/modelle/mistral-3.5.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.