📙Devstral 2 - Anleitung zum Ausführen

Anleitung zum lokalen Ausführen der Mistral Devstral 2-Modelle: 123B-Instruct-2512 und Small-2-24B-Instruct-2512.

Devstral 2 sind Mistrals neue Coding- und agentischen LLMs für Softwareentwicklung, verfügbar in 24B und 123B Größen. Das 123B-Modell erreicht SOTA im SWE-Bench, beim Codieren, beim Tool-Aufruf und in Agenten-Anwendungsfällen. Das 24B-Modell passt in 25 GB RAM/VRAM und 123B passt in 128 GB.

circle-check

Devstral 2 unterstützt Vision-Fähigkeiten, ein 256k-Kontextfenster und verwendet die gleiche Architektur wie Ministral 3. Du kannst jetzt ausführen und feinabstimmen beide Modelle lokal mit Unsloth.

Alle Devstral 2 Uploads verwenden unsere Unsloth Dynamic 2.0 Methodik und liefern die beste Leistung bei Aider Polyglot und 5-Shot MMLU-Benchmarks.

Devstral-Small-2-24BDevstral-2-123B

Devstral 2 - Unsloth Dynamic GGUFs:

🖥️ Devstral 2 ausführen

Sieh dir unsere Schritt-für-Schritt-Anleitungen zum Ausführen von Devstral 24B und dem großen Devstral 123B Modellen an. Beide Modelle unterstützen Vision, aber derzeit Vision wird nicht unterstützt in llama.cpp

⚙️ Nutzungsanleitung

Hier sind die empfohlenen Einstellungen für die Inferenz:

  • Temperatur ~0,15

  • Min_P von 0,01 (optional, aber 0,01 funktioniert gut, llama.cpp-Standard ist 0,1)

  • Verwende --jinja um den System-Prompt zu aktivieren.

  • Maximale Kontextlänge = 262.144

  • Empfohlener Mindestkontext: 16.384

  • Installiere die neueste llama.cpp, da ein Pull Request vom 13. Dezember 2025arrow-up-right Probleme behebt.

🎩Devstral-Small-2-24B

Die Vollpräzisions-(Q8)-Devstral-Small-2-24B-GGUF passt in 25 GB RAM/VRAM. Vorerst nur Text.

✨ Führe Devstral-Small-2-24B-Instruct-2512 in llama.cpp aus

  1. Hole dir die neueste llama.cpp auf GitHub hierarrow-up-right. Du kannst auch den Build-Anweisungen unten folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

  1. Wenn du llama.cpp direkt zum Laden von Modellen verwenden willst, kannst du Folgendes tun: (:Q4_K_XL) ist der Quantisierungstyp. Du kannst auch direkt von Hugging Face ziehen:

  1. Lade das Modell herunter via (nach der Installation von pip install huggingface_hub hf_transfer ). Du kannst wählen UD_Q4_K_XL oder andere quantisierte Versionen.

  1. Führe das Modell im Konversationsmodus aus:

👀Devstral und Vision

  1. Um mit Devstrals Bildfähigkeiten zu experimentieren, laden wir zuerst ein Bild wie dieses herunter FP8 Reinforcement Learning mit Unslotharrow-up-right unten:

  2. Wir holen das Bild via wget https://unsloth.ai/cgi/image/fp8grpolarge_KharloZxEEaHAY2X97CEX.png?width=3840%26quality=80%26format=auto -O unsloth_fp8.png welches das Bild als "unsloth_fp8.png" speichert

  3. Dann lade das Bild hinein via /image unsloth_fp8.png nachdem das Modell wie unten gezeigt geladen wurde:

  4. Dann fordern wir es auf Beschreibe dieses Bild und erhalten Folgendes:

🚚Devstral-2-123B

Die Vollpräzisions-(Q8)-Devstral-Small-2-123B-GGUF passt in 128 GB RAM/VRAM. Vorerst nur Text.

Führe das Devstral-2-123B-Instruct-2512 Tutorial aus

  1. Hole dir die neueste llama.cpp auf GitHub hierarrow-up-right. Du kannst auch den Build-Anweisungen unten folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest.

  1. Du kannst direkt von HuggingFace ziehen via:

  1. Lade das Modell herunter via (nach der Installation von pip install huggingface_hub hf_transfer ). Du kannst wählen UD_Q4_K_XL oder andere quantisierte Versionen.

  1. Führe das Modell im Konversationsmodus aus:

🦥 Feinabstimmung von Devstral 2 mit Unsloth

Genau wie Ministral 3, unterstützt Unsloth die Feinabstimmung von Devstral 2. Das Training ist 2x schneller, verwendet 70 % weniger VRAM und unterstützt 8x längere Kontextlängen. Devstral 2 passt problemlos auf eine 24 GB-VRAM L4-GPU.

Leider überschreitet Devstral 2 leicht die Speicherkapazität einer 16 GB-VRAM, daher ist das kostenlose Feinabstimmen auf Google Colab derzeit nicht möglich. Du kannst das Modell jedoch kostenlos mit unserem Kaggle-Notebookarrow-up-rightfeinabstimmen, das Zugang zu zwei GPUs bietet. Ändere einfach den Magistral-Modellnamen des Notebooks zu unsloth/Devstral-Small-2-24B-Instruct-2512 Modell.

circle-check

Devstral Vision Feinabstimmungs-Notebook

😎Llama-server Bereitstellung & Deployment

Um Devstral 2 für die Produktion bereitzustellen, verwenden wir llama-server In einem neuen Terminal, z. B. via tmux, deploye das Modell via:

Wenn du das Obige ausführst, erhältst du:

Dann in einem neuen Terminal, nachdem du pip install openai, mache:

Was einfach 4 ausgeben wird.

🧰Tool-Aufruf mit Devstral 2 Tutorial

Nachdem wir Devstral 2 können wir dann einige Tools laden und Devstral in Aktion sehen! Lass uns einige Tools erstellen – kopiere, füge ein und führe sie in Python aus.

Dann stellen wir eine einfache Frage aus einer zufälligen Liste möglicher Nachrichten, um das Modell zu testen:

Anschließend verwenden wir die untenstehenden Funktionen (kopieren, einfügen und ausführen), die Funktionsaufrufe automatisch parsen – Devstral 2 kann mehrere gleichzeitig ausführen!

Und nach 1 Minute erhalten wir:

Oder in JSON-Form:

Zuletzt aktualisiert

War das hilfreich?