📙Devstral 2 - Anleitung zum Ausführen
Anleitung zum lokalen Ausführen von Mistral Devstral 2 Modellen: 123B-Instruct-2512 und Small-2-24B-Instruct-2512.
Devstral 2 sind Mistrals neue Codierungs- und agentischen LLMs für Softwareentwicklung, verfügbar in 24B und 123B Größen. Das 123B-Modell erreicht SOTA in SWE-bench, Coding, Tool-Calling und Agenten-Anwendungsfällen. Das 24B-Modell passt in 25GB RAM/VRAM und 123B passt in 128GB.
13. Dezember 2025 Update
Wir haben Probleme in Devstrals Chat-Vorlage behoben, und die Ergebnisse sollten deutlich besser sein. Die 24B & 123B wurden aktualisiert. Installieren Sie außerdem die neueste llama.cpp vom 13. Dez 2025!
Devstral 2 unterstützt Vision-Funktionen, ein 256k-Kontextfenster und verwendet dieselbe Architektur wie Ministral 3. Sie können jetzt ausführen und feinabstimmen beide Modelle lokal mit Unsloth.
Alle Devstral 2 Uploads verwenden unsere Unsloth Dynamic 2.0 Methodik und liefern die beste Leistung bei Aider Polyglot und 5-shot MMLU-Benchmarks.
Devstral-Small-2-24BDevstral-2-123B
Devstral 2 - Unsloth Dynamic GGUFs:
🖥️ Devstral 2 ausführen
Siehe unsere Schritt-für-Schritt-Anleitungen zum Ausführen von Devstral 24B und dem großen Devstral 123B Modellen. Beide Modelle unterstützen Vision, aber derzeit Vision wird nicht unterstützt in llama.cpp
⚙️ Nutzungsanleitung
Hier sind die empfohlenen Einstellungen für Inferenz:
Temperatur ~0,15
Min_P von 0,01 (optional, aber 0,01 funktioniert gut, llama.cpp-Standard ist 0,1)
Verwenden Sie
--jinjaum das Systemprompt zu aktivieren.Maximale Kontextlänge = 262.144
Empfohlener Mindestkontext: 16.384
Installieren Sie die neueste llama.cpp, da ein Pull Request vom 13. Dezember 2025 Probleme behebt.
🎩Devstral-Small-2-24B
Die vollpräzise (Q8) Devstral-Small-2-24B GGUF passt in 25GB RAM/VRAM. Vorerst nur Text.
✨ Führen Sie Devstral-Small-2-24B-Instruct-2512 in llama.cpp aus
Holen Sie sich die neueste
llama.cppauf GitHub hier. Sie können auch den unten stehenden Build-Anweisungen folgen. Ändern Sie-DGGML_CUDA=ONzu-DGGML_CUDA=OFFwenn Sie keine GPU haben oder nur CPU-Inferenz wünschen.
Wenn Sie
llama.cppdirekt zum Laden von Modellen verwenden möchten, können Sie Folgendes tun: (:Q4_K_XL) ist der Quantisierungstyp. Sie können auch direkt von Hugging Face ziehen:
Laden Sie das Modell herunter über (nach Installation von
pip install huggingface_hub hf_transfer). Sie können wählenUD_Q4_K_XLoder andere quantisierte Versionen.
Führen Sie das Modell im Konversationsmodus aus:
👀Devstral und Vision
Um mit Devstrals Bildfunktionen zu spielen, laden wir zuerst ein Bild wie dieses herunter FP8 Reinforcement Learning mit Unsloth unten:

Wir bekommen das Bild über
wget https://unsloth.ai/cgi/image/fp8grpolarge_KharloZxEEaHAY2X97CEX.png?width=3840%26quality=80%26format=auto -O unsloth_fp8.pngwas das Bild als "unsloth_fp8.png" speichertDann laden Sie das Bild via
/image unsloth_fp8.pngnachdem das Modell wie unten geladen wurde:
Dann fordern wir es auf
Beschreibe dieses Bildund erhalten Folgendes:
🚚Devstral-2-123B
Die vollpräzise (Q8) Devstral-Small-2-123B GGUF passt in 128GB RAM/VRAM. Vorerst nur Text.
✨ Führen Sie das Devstral-2-123B-Instruct-2512 Tutorial aus
Holen Sie sich die neueste
llama.cppauf GitHub hier. Sie können auch den unten stehenden Build-Anweisungen folgen. Ändern Sie-DGGML_CUDA=ONzu-DGGML_CUDA=OFFwenn Sie keine GPU haben oder nur CPU-Inferenz wünschen.
Sie können direkt von HuggingFace ziehen via:
Laden Sie das Modell herunter über (nach Installation von
pip install huggingface_hub hf_transfer). Sie können wählenUD_Q4_K_XLoder andere quantisierte Versionen.
Führen Sie das Modell im Konversationsmodus aus:
🦥 Feinabstimmung von Devstral 2 mit Unsloth
Genau wie Ministral 3, unterstützt Unsloth Devstral 2 Fine-Tuning. Das Training ist 2x schneller, verwendet 70% weniger VRAM und unterstützt 8x längere Kontextlängen. Devstral 2 passt bequem in eine 24GB VRAM L4 GPU.
Leider überschreitet Devstral 2 geringfügig die Speichermenge einer 16GB VRAM, sodass Fine-Tuning kostenlos auf Google Colab derzeit nicht möglich ist. Allerdings können Sie das Modell kostenlos mit unserem Kaggle-Notebookfeinabstimmen, das Zugriff auf Dual-GPUs bietet. Ändern Sie einfach den Magistral-Modellnamen im Notebook zu unsloth/Devstral-Small-2-24B-Instruct-2512 Modell.
Wir haben kostenlose Unsloth-Notebooks erstellt, um Ministral 3 feinabzustimmen, und unterstützen Devstral 2 direkt, da sie dieselbe Architektur teilen! Ändern Sie den Namen, um das gewünschte Modell zu verwenden.
Ministral-3B-Instruct Vision-Notebook (Vision) (Modellname auf Devstral 2 ändern)
Ministral-3B-Instruct GRPO-Notebook (Modellname auf Devstral 2 ändern)
Devstral Vision Fine-Tuning Notebook
Devstral Sudoku GRPO RL Notebook
😎Llama-server Serving & Deployment
Um Devstral 2 in Produktion bereitzustellen, verwenden wir llama-server In einem neuen Terminal, z. B. via tmux, deployen Sie das Modell über:
Wenn Sie das Obige ausführen, erhalten Sie:

Dann in einem neuen Terminal, nachdem Sie pip install openai, tun Sie:
Was einfach 4 ausgibt.
🧰Tool Calling mit Devstral 2 Tutorial
Nach Befolgung von Llama-server Serving & Deployment können wir dann einige Tools laden und Devstral in Aktion sehen! Erstellen wir ein paar Tools – kopieren, einfügen und führen Sie sie in Python aus.
Dann stellen wir eine einfache Frage aus einer zufälligen Liste möglicher Nachrichten, um das Modell zu testen:
Dann verwenden wir die unten stehenden Funktionen (kopieren und einfügen und ausführen), die Funktionsaufrufe automatisch parsen – Devstral 2 könnte mehrere gleichzeitig ausführen!
Und nach 1 Minute erhalten wir:

Oder in JSON-Form:
Zuletzt aktualisiert
War das hilfreich?

