Mistral 3.5 - Wie man lokal ausführt
Leitfaden für Mistral-3.5-Modelle, um sie lokal auf deinem Gerät auszuführen oder feinabzustimmen
Mistral veröffentlicht Mistral-Medium-3.5-128B, ihr neues dichtes multimodales Hybrid-Reasoning-Modell mit 128B Parametern. Es unterstützt Text- und Bildeingabe, Textausgabe, ein Kontextfenster von 256K und glänzt bei Reasoning, Coding, Langkontext, Tool-Nutzung, agentischen Workflows und multimodalem Dokument-/Bildverständnis.
Mistral Medium 3.5 bietet eine äußerst wettbewerbsfähige Leistung für Modelle, die 5x so groß sind. Lokal auf ~64 GB RAM ausführen. GGUF: Mistral-Medium-3.5-128B-GGUF
Update vom 1. Mai 2026: Wir haben mit Mistral zusammengearbeitet, um das Inferencing von Mistral Medium 3.5 zu beheben, das einige Implementierungen beeinträchtigte, und haben aktualisierte GGUFs mit dem Fix veröffentlicht (NICHT bezogen auf Unsloth oder unsere Quants). Das Problem wurde durch eine YaRN-Parsing-Eigenheit verursacht, die mehrere Implementierungen betraf, darunter transformers und llama.cpp. Das Ändern von mscale_all_dim von 1 zu 0 hat es behoben. Wir haben außerdem behoben, dass mmproj Dateien nicht korrekt generiert wurden.
Mistral hat unsere Fixes nun in ihr offizielles Repo übernommen!
Anleitung zur Verwendung
Vision für GGUFs wird jetzt vorerst unterstützt. Unterstützung wird später kommen.
Tabelle: Empfohlene Hardwareanforderungen für Mistral Medium 3.5. Die Einheiten sind der Gesamtspeicher: RAM + VRAM oder gemeinsam genutzter Speicher.
Medium 3.5 128B
64 GB
80 GB
128-170 GB
Ihr gesamter verfügbarer Speicher sollte die Größe des quantisierten Modells, das Sie herunterladen, mindestens übersteigen. Falls nicht, kann llama.cpp zwar weiterhin mit teilweisem RAM-/Festplatten-Offload laufen, die Generierung wird jedoch langsamer sein. Sie benötigen außerdem mehr Speicher für langen Kontext, größere Batches, toollastige Agentenläufe und Bild-Prompts.
Empfohlene Einstellungen
Verwenden Sie die von Mistral empfohlenen Reasoning-Einstellungen:
reasoning_effort="none"→ schnelle sofortige Antworten, Chat, Extraktion und einfache Anweisungen.reasoning_effort="high"→ Reasoning-Modus, empfohlen für komplexe Prompts, Coding, Recherche, Mathematik und agentische Nutzung.
Empfohlene Standardwerte fürs Sampling:
Verwenden Sie
temperature = 0.7fürreasoning_effort="high".Verwenden Sie
temperature = 0.0zu0.7fürreasoning_effort="none", je nach Aufgabe.Lassen Sie Wiederholungs- und Präsenzstrafen deaktiviert oder auf
1.0, sofern Sie Schleifen beobachten.Maximale Kontextlänge von
262,144
Reasoning-Modus
Mistral Medium 3.5 unterstützt den sofortigen Instruct-Modus und den Reasoning-Modus mit einer Option 'high'.
Um High Reasoning für llama.cpp / llama-server zu aktivieren:
Um Reasoning zu deaktivieren:
Wenn Sie Windows PowerShell verwenden, nutzen Sie:
Mistral 3.5 Tutorials ausführen
Da Mistral Medium 3.5 ein dichtes Modell mit 128B Parametern ist, ist der empfohlene Ausgangspunkt Dynamic 4-Bit GGUFs für lokale Inferenz. GGUF: unsloth/Mistral-Medium-3.5-128B-GGUF
In Unsloth Studio ausführenIn llama.cpp ausführen
Derzeit funktioniert kein multimodales/Vision-GGUF in Ollama aufgrund separater mmproj Vision-Dateien. Verwenden Sie mit llama.cpp kompatible Backends.
Verwenden Sie NICHT CUDA 13.2 da Sie sonst unverständliche Ausgaben erhalten könnten. NVIDIA arbeitet an einem Fix.
🦥 Unsloth Studio-Anleitung
Für dieses Tutorial verwenden wir Unsloth Studio, unsere neue Web-UI zum Ausführen und Trainieren von LLMs. Mit Unsloth Studio können Sie Modelle ausführen und Audio, Bild und Text lokal auf Mac, Windowsund Linux eingeben und:
Suchen, herunterladen, GGUFs ausführen und Safetensor-Modelle
Modelle vergleichen nebeneinander
Selbstheilendes Tool-Calling + Websuche
Code-Ausführung (Python, Bash)
Automatische Inferenz Parameter-Tuning (Temp, Top-p usw.)
LLMs trainieren 2x schneller mit 70% weniger VRAM

Unsloth Studio einrichten (einmalig)
Die Einrichtung installiert automatisch Node.js (über nvm), baut das Frontend, installiert alle Python-Abhängigkeiten und baut llama.cpp mit CUDA-Unterstützung.
WSL-Benutzer: Sie werden aufgefordert, Ihr sudo Passwort einzugeben, um Build-Abhängigkeiten zu installieren (cmake, git, libcurl4-openssl-dev).
Mistral Medium 3.5 suchen und herunterladen
Beim ersten Start müssen Sie ein Passwort erstellen, um Ihr Konto zu sichern, und sich später erneut anmelden. Gehen Sie dann zum Tab Studio Chat und suchen Sie in der Suchleiste nach Mistral 3.5 und laden Sie das gewünschte Modell und die gewünschte Quantisierung herunter.
Mistral 3.5 ausführen
Inferenzparameter sollten bei der Verwendung von Unsloth Studio automatisch gesetzt werden; Sie können sie jedoch weiterhin manuell ändern. Sie können auch die Kontextlänge, die Chat-Vorlage und andere Einstellungen bearbeiten.
Weitere Informationen finden Sie in unserer Unsloth Studio-Inferenzanleitung.
🦙 Llama.cpp-Anleitung
Für diese Anleitung verwenden wir Unsloth Dynamic 4-Bit für Mistral Medium 3.5. Siehe: unsloth/Mistral-Medium-3.5-128B-GGUF.
Für diese Tutorials verwenden wir llama.cpp für schnelle lokale Inferenz, insbesondere wenn Sie eine CPU oder eine Maschine mit hohem gemeinsam genutztem Speicher haben.
1. llama.cpp bauen
Beschaffen Sie die neueste llama.cpp auf GitHub. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz möchten. Für Apple Mac / Metal-Geräte setzen Sie -DGGML_CUDA=OFF; Metal-Unterstützung ist standardmäßig aktiviert.
2. Direkt von Hugging Face ausführen
Für den High-Reasoning-Modus:
3. Das Modell manuell herunterladen
Nach der Installation von huggingface_hub und hf_transfer:
Wenn Downloads hängen bleiben, setzen Sie:
4. Das lokale GGUF ausführen
Wenn ein multimodales Projektor-GGUF enthalten ist, verwenden Sie:
Bereitstellung von Llama-server
Um Mistral Medium 3.5 auf llama-server bereitzustellen, verwenden Sie:
Für den Reasoning-Modus:
Wenn Sie Windows PowerShell verwenden, nutzen Sie:
Sie können llama-server mit einer OpenAI-kompatiblen Anfrage anpingen:
Best Practices für Mistral 3.5
Beispiele für Prompts
Einfacher Reasoning-Prompt
Verwenden Sie reasoning_effort="high" für diese Art von Prompt.
OCR-/Dokument-Prompt
Für OCR und Dokumentenextraktion platzieren Sie das Bild zuerst und verlangen Sie eine strukturierte Ausgabe.
Multimodaler Vergleichs-Prompt
Coding-Agent-Prompt
Verwenden Sie reasoning_effort="high" und Tool-Calling zur Erkundung der Codebasis.
JSON-/Function-Calling-Prompt
Benchmarks


Zuletzt aktualisiert
War das hilfreich?


