For the complete documentation index, see llms.txt. This page is also available as Markdown.

Mistral 3.5 - Wie man lokal ausführt

Leitfaden für Mistral-3.5-Modelle, um sie lokal auf deinem Gerät auszuführen oder feinabzustimmen

Mistral veröffentlicht Mistral-Medium-3.5-128B, ihr neues dichtes multimodales Hybrid-Reasoning-Modell mit 128B Parametern. Es unterstützt Text- und Bildeingabe, Textausgabe, ein Kontextfenster von 256K und glänzt bei Reasoning, Coding, Langkontext, Tool-Nutzung, agentischen Workflows und multimodalem Dokument-/Bildverständnis.

Mistral Medium 3.5 bietet eine äußerst wettbewerbsfähige Leistung für Modelle, die 5x so groß sind. Lokal auf ~64 GB RAM ausführen. GGUF: Mistral-Medium-3.5-128B-GGUF

Anleitung zur Verwendung

Vision für GGUFs wird jetzt vorerst unterstützt. Unterstützung wird später kommen.

Tabelle: Empfohlene Hardwareanforderungen für Mistral Medium 3.5. Die Einheiten sind der Gesamtspeicher: RAM + VRAM oder gemeinsam genutzter Speicher.

Mistral 3.5
3-Bit
4-Bit
8-Bit

Medium 3.5 128B

64 GB

80 GB

128-170 GB

Ihr gesamter verfügbarer Speicher sollte die Größe des quantisierten Modells, das Sie herunterladen, mindestens übersteigen. Falls nicht, kann llama.cpp zwar weiterhin mit teilweisem RAM-/Festplatten-Offload laufen, die Generierung wird jedoch langsamer sein. Sie benötigen außerdem mehr Speicher für langen Kontext, größere Batches, toollastige Agentenläufe und Bild-Prompts.

Empfohlene Einstellungen

Verwenden Sie die von Mistral empfohlenen Reasoning-Einstellungen:

  • reasoning_effort="none" → schnelle sofortige Antworten, Chat, Extraktion und einfache Anweisungen.

  • reasoning_effort="high" → Reasoning-Modus, empfohlen für komplexe Prompts, Coding, Recherche, Mathematik und agentische Nutzung.

Empfohlene Standardwerte fürs Sampling:

  • Verwenden Sie temperature = 0.7 für reasoning_effort="high".

  • Verwenden Sie temperature = 0.0 zu 0.7 für reasoning_effort="none", je nach Aufgabe.

  • Lassen Sie Wiederholungs- und Präsenzstrafen deaktiviert oder auf 1.0 , sofern Sie Schleifen beobachten.

  • Maximale Kontextlänge von 262,144

Reasoning-Modus

Mistral Medium 3.5 unterstützt den sofortigen Instruct-Modus und den Reasoning-Modus mit einer Option 'high'.

Um High Reasoning für llama.cpp / llama-server zu aktivieren:

Um Reasoning zu deaktivieren:

Wenn Sie Windows PowerShell verwenden, nutzen Sie:

Mistral 3.5 Tutorials ausführen

Da Mistral Medium 3.5 ein dichtes Modell mit 128B Parametern ist, ist der empfohlene Ausgangspunkt Dynamic 4-Bit GGUFs für lokale Inferenz. GGUF: unsloth/Mistral-Medium-3.5-128B-GGUF

In Unsloth Studio ausführenIn llama.cpp ausführen

🦥 Unsloth Studio-Anleitung

Für dieses Tutorial verwenden wir Unsloth Studio, unsere neue Web-UI zum Ausführen und Trainieren von LLMs. Mit Unsloth Studio können Sie Modelle ausführen und Audio, Bild und Text lokal auf Mac, Windowsund Linux eingeben und:

1

Unsloth installieren

MacOS, Linux, WSL:

Windows PowerShell:

2

Unsloth Studio einrichten (einmalig)

Die Einrichtung installiert automatisch Node.js (über nvm), baut das Frontend, installiert alle Python-Abhängigkeiten und baut llama.cpp mit CUDA-Unterstützung.

WSL-Benutzer: Sie werden aufgefordert, Ihr sudo Passwort einzugeben, um Build-Abhängigkeiten zu installieren (cmake, git, libcurl4-openssl-dev).

3

Unsloth starten

MacOS, Linux, WSL:

Windows PowerShell:

Dann öffnen Sie http://localhost:8888 in Ihrem Browser.

4

Mistral Medium 3.5 suchen und herunterladen

Beim ersten Start müssen Sie ein Passwort erstellen, um Ihr Konto zu sichern, und sich später erneut anmelden. Gehen Sie dann zum Tab Studio Chat und suchen Sie in der Suchleiste nach Mistral 3.5 und laden Sie das gewünschte Modell und die gewünschte Quantisierung herunter.

5

Mistral 3.5 ausführen

Inferenzparameter sollten bei der Verwendung von Unsloth Studio automatisch gesetzt werden; Sie können sie jedoch weiterhin manuell ändern. Sie können auch die Kontextlänge, die Chat-Vorlage und andere Einstellungen bearbeiten.

Weitere Informationen finden Sie in unserer Unsloth Studio-Inferenzanleitung.

🦙 Llama.cpp-Anleitung

Für diese Anleitung verwenden wir Unsloth Dynamic 4-Bit für Mistral Medium 3.5. Siehe: unsloth/Mistral-Medium-3.5-128B-GGUF.

Für diese Tutorials verwenden wir llama.cpp für schnelle lokale Inferenz, insbesondere wenn Sie eine CPU oder eine Maschine mit hohem gemeinsam genutztem Speicher haben.

1. llama.cpp bauen

Beschaffen Sie die neueste llama.cpp auf GitHub. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz möchten. Für Apple Mac / Metal-Geräte setzen Sie -DGGML_CUDA=OFF; Metal-Unterstützung ist standardmäßig aktiviert.

2. Direkt von Hugging Face ausführen

Für den High-Reasoning-Modus:

3. Das Modell manuell herunterladen

Nach der Installation von huggingface_hub und hf_transfer:

Wenn Downloads hängen bleiben, setzen Sie:

4. Das lokale GGUF ausführen

Wenn ein multimodales Projektor-GGUF enthalten ist, verwenden Sie:

Bereitstellung von Llama-server

Um Mistral Medium 3.5 auf llama-server bereitzustellen, verwenden Sie:

Für den Reasoning-Modus:

Wenn Sie Windows PowerShell verwenden, nutzen Sie:

Sie können llama-server mit einer OpenAI-kompatiblen Anfrage anpingen:

Best Practices für Mistral 3.5

Beispiele für Prompts

Einfacher Reasoning-Prompt

Verwenden Sie reasoning_effort="high" für diese Art von Prompt.

OCR-/Dokument-Prompt

Für OCR und Dokumentenextraktion platzieren Sie das Bild zuerst und verlangen Sie eine strukturierte Ausgabe.

Multimodaler Vergleichs-Prompt

Coding-Agent-Prompt

Verwenden Sie reasoning_effort="high" und Tool-Calling zur Erkundung der Codebasis.

JSON-/Function-Calling-Prompt

Benchmarks

Zuletzt aktualisiert

War das hilfreich?