📙Devstral 2 - Leitfaden zum Ausführen
Leitfaden zum lokalen Ausführen der Mistral-Devstral-2-Modelle: 123B-Instruct-2512 und Small-2-24B-Instruct-2512.
Devstral 2 sind Mistrals neue Coding- und agentische LLMs für Software-Engineering, verfügbar in 24B und 123B Größen. Das 123B-Modell erreicht SOTA bei SWE-bench, Coding, Tool-Calling und Agenten-Anwendungsfällen. Das 24B-Modell passt in 25 GB RAM/VRAM und 123B passt in 128 GB.
Update vom 13. Dezember 2025
Wir haben Probleme mit der Chat-Vorlage von Devstral behoben, und die Ergebnisse sollten deutlich besser sein. Das 24B- und das 123B-Modell wurden aktualisiert. Installiere außerdem die neueste llama.cpp-Version vom 13. Dez. 2025!
Devstral 2 unterstützt Vision-Funktionen, ein 256k-Kontextfenster und verwendet dieselbe Architektur wie Ministral 3. Du kannst jetzt beide Modelle lokal mit Unsloth ausführen und feinabstimmen .
Alle Devstral-2-Uploads verwenden unsere Unsloth- Dynamic 2.0 Methodik und liefern die beste Leistung bei Aider Polyglot - und 5-Shot-MMLU-Benchmarks.
Devstral-Small-2-24BDevstral-2-123B
Devstral 2 - Unsloth Dynamic GGUFs:
🖥️ Devstral 2 ausführen
Sieh dir unsere Schritt-für-Schritt-Anleitungen zum Ausführen von Devstral 24B und des großen Devstral 123B -Modells an. Beide Modelle unterstützen Vision-Unterstützung, aber derzeit wird Vision nicht unterstützt in llama.cpp
⚙️ Verwendungsleitfaden
Hier sind die empfohlenen Einstellungen für die Inferenz:
Temperatur ~0,15
Min_P von 0,01 (optional, aber 0,01 funktioniert gut; der Standardwert von llama.cpp ist 0,1)
Verwende
--jinjaum den System-Prompt zu aktivieren.Maximale Kontextlänge = 262.144
Empfohlener Mindestkontext: 16.384
Installiere die neueste llama.cpp-Version, da ein Pull Request vom 13. Dezember 2025 Probleme behebt.
🎩Devstral-Small-2-24B
Das GGUF von Devstral-Small-2-24B in voller Präzision (Q8) passt in 25 GB RAM/VRAM. Vorerst nur Text.
✨ Devstral-Small-2-24B-Instruct-2512 in llama.cpp ausführen
Hole dir die neueste
llama.cppauf GitHub hier. Du kannst auch den untenstehenden Build-Anweisungen folgen. Ändere-DGGML_CUDA=ONzu-DGGML_CUDA=OFFwenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze-DGGML_CUDA=OFFund fahre dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.
Wenn du
llama.cppdirekt zum Laden von Modellen verwenden möchtest, kannst du Folgendes tun: (:Q4_K_XL) ist der Quantisierungstyp. Du kannst auch direkt von Hugging Face herunterladen:
Lade das Modell herunter über (nach der Installation von
pip install huggingface_hub hf_transfer). Du kannstUD_Q4_K_XLoder andere quantisierte Versionen auswählen.
Führe das Modell im Konversationsmodus aus:
👀Devstral und Vision
Um mit Devstrals Bildfunktionen zu spielen, laden wir zuerst ein Bild wie dieses herunter FP8 Reinforcement Learning mit Unsloth unten:

Wir erhalten das Bild über
wget https://unsloth.ai/cgi/image/fp8grpolarge_KharloZxEEaHAY2X97CEX.png?width=3840%26quality=80%26format=auto -O unsloth_fp8.pngwodurch das Bild als "unsloth_fp8.png" gespeichert wirdDann lade das Bild über
/image unsloth_fp8.pngnachdem das Modell geladen wurde, wie unten zu sehen ist:
Dann fordern wir es auf
Beschreibe dieses Bildund erhalten Folgendes:
🚚Devstral-2-123B
Das GGUF von Devstral-Small-2-123B in voller Präzision (Q8) passt in 128 GB RAM/VRAM. Vorerst nur Text.
✨ Tutorial zum Ausführen von Devstral-2-123B-Instruct-2512
Hole dir die neueste
llama.cppauf GitHub hier. Du kannst auch den untenstehenden Build-Anweisungen folgen. Ändere-DGGML_CUDA=ONzu-DGGML_CUDA=OFFwenn du keine GPU hast oder nur CPU-Inferenz möchtest.
Du kannst direkt von HuggingFace herunterladen über:
Lade das Modell herunter über (nach der Installation von
pip install huggingface_hub hf_transfer). Du kannstUD_Q4_K_XLoder andere quantisierte Versionen auswählen.
Führe das Modell im Konversationsmodus aus:
🦥 Feinabstimmung von Devstral 2 mit Unsloth
Genau wie Ministral 3unterstützt Unsloth das Feinabstimmen von Devstral 2. Das Training ist 2x schneller, verwendet 70 % weniger VRAM und unterstützt 8x längere Kontextlängen. Devstral 2 passt bequem in eine 24-GB-VRAM-L4-GPU.
Leider überschreitet Devstral 2 die Speichergrenzen von 16 GB VRAM leicht, sodass ein kostenloses Feinabstimmen auf Google Colab derzeit nicht möglich ist. Du kannst das Modell kostenlos feinabstimmen mit unserem Kaggle-Notebook, das Zugriff auf zwei GPUs bietet. Ändere einfach den Magistral-Modellnamen im Notebook auf das Modell unsloth/Devstral-Small-2-24B-Instruct-2512 .
Wir haben kostenlose Unsloth-Notebooks zum Feinabstimmen von Ministral 3 erstellt, und Devstral 2 wird direkt unterstützt, da sie dieselbe Architektur teilen! Ändere den Namen, um das gewünschte Modell zu verwenden.
Ministral-3B-Instruct Vision-Notebook (Vision) (Modellnamen auf Devstral 2 ändern)
Ministral-3B-Instruct GRPO-Notebook (Modellnamen auf Devstral 2 ändern)
Devstral Vision-Finetuning-Notebook
Devstral Sudoku GRPO RL-Notebook
😎Llama-Server-Bereitstellung und Deployment
Um Devstral 2 produktiv bereitzustellen, verwenden wir llama-server In einem neuen Terminal, z. B. via tmux, stelle das Modell bereit mit:
Wenn du das Obige ausführst, erhältst du:

Dann in einem neuen Terminal, nachdem du pip install openaiausgeführt hast, mache:
Was einfach 4 ausgibt.
🧰Tutorial zum Tool-Calling mit Devstral 2
Nachdem du Devstral 2 folgendes erledigt hast, können wir dann einige Tools laden und Devstral in Aktion sehen! Lass uns ein paar Tools erstellen - kopiere sie, füge sie ein und führe sie in Python aus.
Dann stellen wir aus einer zufälligen Liste möglicher Nachrichten eine einfache Frage, um das Modell zu testen:
Dann verwenden wir die untenstehenden Funktionen (kopieren, einfügen und ausführen), die die Funktionsaufrufe automatisch parsen - Devstral 2 kann möglicherweise mehrere parallel machen!
Und nach 1 Minute erhalten wir:

Oder in JSON-Form:
Zuletzt aktualisiert
War das hilfreich?

