📙Devstral 2 - Anleitung zum Ausführen

Anleitung zum lokalen Ausführen der Mistral Devstral 2-Modelle: 123B-Instruct-2512 und Small-2-24B-Instruct-2512.

Devstral 2 sind Mistrals neue Coding- und agentischen LLMs für Softwareentwicklung, verfügbar in 24B und 123B Größen. Das 123B-Modell erreicht SOTA im SWE-Bench, beim Codieren, beim Tool-Aufruf und in Agenten-Anwendungsfällen. Das 24B-Modell passt in 25 GB RAM/VRAM und 123B passt in 128 GB.

13. Dezember 2025 Update

Wir haben Probleme in Devstrals Chat-Template behoben, und die Ergebnisse sollten deutlich besser sein. Die 24B & 123B wurden aktualisiert. Installiere außerdem die neueste llama.cpp vom 13. Dez. 2025!

Devstral 2 unterstützt Vision-Fähigkeiten, ein 256k-Kontextfenster und verwendet die gleiche Architektur wie Ministral 3. Du kannst jetzt ausführen und feinabstimmen beide Modelle lokal mit Unsloth.

Alle Devstral 2 Uploads verwenden unsere Unsloth Dynamic 2.0 Methodik und liefern die beste Leistung bei Aider Polyglot und 5-Shot MMLU-Benchmarks.

Devstral-Small-2-24B Devstral-2-123B

Devstral 2 - Unsloth Dynamic GGUFs:

Devstral-Small-2-24B-Instruct-2512

Devstral-2-123B-Instruct-2512

Devstral-Small-2-24B-Instruct-2512-GGUF

Devstral-2-123B-Instruct-2512-GGUF

🖥️ Devstral 2 ausführen

Sieh dir unsere Schritt-für-Schritt-Anleitungen zum Ausführen von Devstral 24B und dem großen Devstral 123B Modellen an. Beide Modelle unterstützen Vision, aber derzeit Vision wird nicht unterstützt in llama.cpp

⚙️ Nutzungsanleitung

Hier sind die empfohlenen Einstellungen für die Inferenz:

Temperatur ~0,15
Min_P von 0,01 (optional, aber 0,01 funktioniert gut, llama.cpp-Standard ist 0,1)
Verwende --jinja um den System-Prompt zu aktivieren.
Maximale Kontextlänge = 262.144
Empfohlener Mindestkontext: 16.384
Installiere die neueste llama.cpp, da ein Pull Request vom 13. Dezember 2025 Probleme behebt.

🎩Devstral-Small-2-24B

Die Vollpräzisions-(Q8)-Devstral-Small-2-24B-GGUF passt in 25 GB RAM/VRAM. Vorerst nur Text.

✨ Führe Devstral-Small-2-24B-Instruct-2512 in llama.cpp aus

Hole dir die neueste llama.cpp auf GitHub hier. Du kannst auch den Build-Anweisungen unten folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Wenn du llama.cpp direkt zum Laden von Modellen verwenden willst, kannst du Folgendes tun: (:Q4_K_XL) ist der Quantisierungstyp. Du kannst auch direkt von Hugging Face ziehen:

./llama.cpp/llama-cli \
    -hf unsloth/Devstral-Small-2-24B-Instruct-2512-GGUF:UD-Q4_K_XL \
    --jinja -ngl 99 --ctx-size 16384 \
    --temp 0.15

Lade das Modell herunter via (nach der Installation von pip install huggingface_hub hf_transfer ). Du kannst wählen UD_Q4_K_XL oder andere quantisierte Versionen.

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Devstral-Small-2-24B-Instruct-2512-GGUF",
    local_dir = "unsloth/Devstral-Small-2-24B-Instruct-2512-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*", "*mmproj-F16*"], # Für Q4_K_XL
)

Führe das Modell im Konversationsmodus aus:

./llama.cpp/llama-cli \
    --model unsloth/Devstral-Small-2-24B-Instruct-2512-GGUF/Devstral-Small-2-24B-Instruct-2512-UD-Q4_K_XL.gguf \
    --mmproj unsloth/Devstral-Small-2-24B-Instruct-2512-GGUF/mmproj-F16.gguf \
    --ctx-size 16384 \
    --n-gpu-layers 99 \
    --seed 3407 \
    --prio 2 \
    --temp 0.15 \
    --jinja

👀Devstral und Vision

Um mit Devstrals Bildfähigkeiten zu experimentieren, laden wir zuerst ein Bild wie dieses herunter FP8 Reinforcement Learning mit Unsloth unten:
Wir holen das Bild via wget https://unsloth.ai/cgi/image/fp8grpolarge_KharloZxEEaHAY2X97CEX.png?width=3840%26quality=80%26format=auto -O unsloth_fp8.png welches das Bild als "unsloth_fp8.png" speichert
Dann lade das Bild hinein via /image unsloth_fp8.png nachdem das Modell wie unten gezeigt geladen wurde:
Dann fordern wir es auf Beschreibe dieses Bild und erhalten Folgendes:

🚚Devstral-2-123B

Die Vollpräzisions-(Q8)-Devstral-Small-2-123B-GGUF passt in 128 GB RAM/VRAM. Vorerst nur Text.

✨ Führe das Devstral-2-123B-Instruct-2512 Tutorial aus

Hole dir die neueste llama.cpp auf GitHub hier. Du kannst auch den Build-Anweisungen unten folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Du kannst direkt von HuggingFace ziehen via:

./llama.cpp/llama-cli \
    -hf unsloth/Devstral-2-123B-Instruct-2512-GGUF:UD-Q2_K_XL \
    --jinja -ngl 99 --ctx-size 16384 \
    --temp 0.15

Lade das Modell herunter via (nach der Installation von pip install huggingface_hub hf_transfer ). Du kannst wählen UD_Q4_K_XL oder andere quantisierte Versionen.

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Devstral-2-123B-Instruct-2512-GGUF",
    local_dir = "unsloth/Devstral-2-123B-Instruct-2512-GGUF",
    allow_patterns = ["*UD-Q2_K_XL*", "*mmproj-F16*"],
)

Führe das Modell im Konversationsmodus aus:

./llama.cpp/llama-cli \
    --model unsloth/Devstral-2-123B-Instruct-2512-GGUF/Devstral-2-123B-Instruct-2512-UD-Q2_K_XL.gguf \
    --mmproj unsloth/Devstral-2-123B-Instruct-2512-GGUF/mmproj-F16.gguf \
    --ctx-size 16384 \
    --n-gpu-layers 99 \
    --seed 3407 \
    --prio 2 \
    --temp 0.15 \
    --jinja

🦥 Feinabstimmung von Devstral 2 mit Unsloth

Genau wie Ministral 3, unterstützt Unsloth die Feinabstimmung von Devstral 2. Das Training ist 2x schneller, verwendet 70 % weniger VRAM und unterstützt 8x längere Kontextlängen. Devstral 2 passt problemlos auf eine 24 GB-VRAM L4-GPU.

Leider überschreitet Devstral 2 leicht die Speicherkapazität einer 16 GB-VRAM, daher ist das kostenlose Feinabstimmen auf Google Colab derzeit nicht möglich. Du kannst das Modell jedoch kostenlos mit unserem Kaggle-Notebookfeinabstimmen, das Zugang zu zwei GPUs bietet. Ändere einfach den Magistral-Modellnamen des Notebooks zu unsloth/Devstral-Small-2-24B-Instruct-2512 Modell.

Wir haben kostenlose Unsloth-Notebooks erstellt, um Ministral 3 feinabzustimmen, und unterstützen Devstral 2 direkt, da sie dieselbe Architektur teilen! Ändere den Namen, um das gewünschte Modell zu verwenden.

Ministral-3B-Instruct Vision-Notebook (Vision) (Modellname zu Devstral 2 ändern)
Ministral-3B-Instruct GRPO-Notebook (Modellname zu Devstral 2 ändern)

Devstral Vision Feinabstimmungs-Notebook

Google Colabcolab.research.google.com

Devstral Sudoku GRPO RL Notebook

Google Colabcolab.research.google.com

😎Llama-server Bereitstellung & Deployment

Um Devstral 2 für die Produktion bereitzustellen, verwenden wir llama-server In einem neuen Terminal, z. B. via tmux, deploye das Modell via:

./llama.cpp/llama-server \
    --model unsloth/Devstral-Small-2-24B-Instruct-2512-GGUF/Devstral-Small-2-24B-Instruct-2512-UD-Q4_K_XL.gguf \
    --mmproj unsloth/Devstral-Small-2-24B-Instruct-2512-GGUF/mmproj-F16.gguf \
    --alias "unsloth/Devstral-Small-2-24B-Instruct-2512" \
    --n-gpu-layers 999 \
    --prio 3 \
    --min_p 0.01 \
    --ctx-size 16384 \
    --port 8001 \
    --jinja

Wenn du das Obige ausführst, erhältst du:

Dann in einem neuen Terminal, nachdem du pip install openai, mache:

from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/Devstral-Small-2-24B-Instruct-2512",
    messages = [{"role": "user", "content": "Was ist 2+2?"},],
)
print(completion.choices[0].message.content)

Was einfach 4 ausgeben wird.

🧰Tool-Aufruf mit Devstral 2 Tutorial

Nachdem wir Devstral 2 können wir dann einige Tools laden und Devstral in Aktion sehen! Lass uns einige Tools erstellen – kopiere, füge ein und führe sie in Python aus.

import json, subprocess, random
from typing import Any
def add_number(a: float | str, b: float | str) -> float:
    return float(a) + float(b)
def multiply_number(a: float | str, b: float | str) -> float:
    return float(a) * float(b)
def substract_number(a: float | str, b: float | str) -> float:
    return float(a) - float(b)
def write_a_story() -> str:
    return random.choice([
        "Vor langer Zeit in einer weit entfernten Galaxie...",
        "Es waren zwei Freunde, die Faultiere und Code liebten...",
        "Die Welt ging unter, weil jedes Faultier übermenschliche Intelligenz entwickelte...",
        "Ohne dass ein Freund es wusste, hatte der andere versehentlich ein Programm geschrieben, das Faultiere evolvieren ließ...",
    ])
def terminal(command: str) -> str:
    if "rm" in command or "sudo" in command or "dd" in command or "chmod" in command:
        msg = "Kann Befehle 'rm, sudo, dd, chmod' nicht ausführen, da sie gefährlich sind"
        print(msg); return msg
    print(f"Führe Terminal-Befehl `{command}` aus")
    try:
        return str(subprocess.run(command, capture_output = True, text = True, shell = True, check = True).stdout)
    except subprocess.CalledProcessError as e:
        return f"Befehl fehlgeschlagen: {e.stderr}"
def python(code: str) -> str:
    data = {}
    exec(code, data)
    del data["__builtins__"]
    return str(data)
MAP_FN = {
    "add_number": add_number,
    "multiply_number": multiply_number,
    "substract_number": substract_number,
    "write_a_story": write_a_story,
    "terminal": terminal,
    "python": python,
}
tools = [
    {
        "type": "function",
        "function": {
            "name": "add_number",
            "description": "Addiere zwei Zahlen.",
            "parameters": {
                "type": "object",
                "properties": {
                    "a": {
                        "type": "string",
                        "description": "Die erste Zahl.",
                    },
                    "b": {
                        "type": "string",
                        "description": "Die zweite Zahl.",
                    },
                },
                "required": ["a", "b"],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "multiply_number",
            "description": "Multipliziert zwei Zahlen.",
            "parameters": {
                "type": "object",
                "properties": {
                    "a": {
                        "type": "string",
                        "description": "Die erste Zahl.",
                    },
                    "b": {
                        "type": "string",
                        "description": "Die zweite Zahl.",
                    },
                },
                "required": ["a", "b"],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "substract_number",
            "description": "Subtrahiert zwei Zahlen.",
            "parameters": {
                "type": "object",
                "properties": {
                    "a": {
                        "type": "string",
                        "description": "Die erste Zahl.",
                    },
                    "b": {
                        "type": "string",
                        "description": "Die zweite Zahl.",
                    },
                },
                "required": ["a", "b"],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "write_a_story",
            "description": "Schreibt eine zufällige Geschichte.",
            "parameters": {
                "type": "object",
                "properties": {},
                "required": [],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "terminal",
            "description": "Führt Operationen vom Terminal aus.",
            "parameters": {
                "type": "object",
                "properties": {
                    "command": {
                        "type": "string",
                        "description": "Der Befehl, den du starten möchtest, z. B. `ls`, `rm`, ...",
                    },
                },
                "required": ["command"],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "python",
            "description": "Rufe einen Python-Interpreter mit etwas Python-Code auf, der ausgeführt wird.",
            "parameters": {
                "type": "object",
                "properties": {
                    "code": {
                        "type": "string",
                        "description": "Der auszuführende Python-Code",
                    },
                },
                "required": ["code"],
            },
        },
    },
]

Dann stellen wir eine einfache Frage aus einer zufälligen Liste möglicher Nachrichten, um das Modell zu testen:

import random
messages = [{
    "role": "user",
    "content": [random.choice([
        {"type": "text", "text": "Könntest du mir eine Geschichte schreiben?"},
        {"type": "text", "text": "Was ist das heutige Datum plus 3 Tage?"},
        {"type": "text", "text": "Gib die aktuelle Zeit in Nanosekunden an."},
        {"type": "text", "text": "Erstelle eine Fibonacci-Funktion in Python und finde fib(20)."},
    ])],
}]

Anschließend verwenden wir die untenstehenden Funktionen (kopieren, einfügen und ausführen), die Funktionsaufrufe automatisch parsen – Devstral 2 kann mehrere gleichzeitig ausführen!

Temperatur = 0,15
from openai import OpenAI
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
model_name = next(iter(openai_client.models.list())).id
print(f"Verwende Modell = {model_name}")
has_tool_calls = True
original_messages_len = len(messages)
while has_tool_calls:
    print(f"Aktuelle Nachrichten = {messages}")
    response = openai_client.chat.completions.create(
        model = model_name,
        messages = messages,
        temperature = temperature,
        tools = tools if tools else None,
        tool_choice = "auto" if tools else None,
    )
    tool_calls = response.choices[0].message.tool_calls or []
    content = response.choices[0].message.content or ""
    tool_calls_dict = [tc.to_dict() for tc in tool_calls] if tool_calls else tool_calls
    messages.append({"role": "assistant", "tool_calls": tool_calls_dict, "content": content,})
    for tool_call in tool_calls:
        fx, args, _id = tool_call.function.name, tool_call.function.arguments, tool_call.id
        out = MAP_FN[fx](**json.loads(args))
        messages.append({"role": "tool", "tool_call_id": _id, "name": fx, "content": str(out),})
    else:
        has_tool_calls = False
print(json.dumps(messages[original_messages_len:], indent = 2))

Und nach 1 Minute erhalten wir:

Oder in JSON-Form:

[
  {
    "role": "assistant",
    "tool_calls": [
      {
        "id": "JviLK0wUveWguuKQHgZdFdYI2adu85jy",
        "function": {
          "arguments": "{}",
          "name": "write_a_story"
        },
        "type": "function"
      }
    ],
    "content": null
  },
  {
    "role": "tool",
    "tool_call_id": "JviLK0wUveWguuKQHgZdFdYI2adu85jy",
    "name": "write_a_story",
    "content": "Vor langer Zeit in einer weit entfernten Galaxie..."
  },
  {
    "role": "assistant",
    "tool_calls": null,
    "content": "In einer fernen Galaxie, in der die Sterne mit einem unirdischen Schimmer brannten, gab es einen Planeten namens Eldoria. Eldoria war eine Welt der starken Kontraste — lebhafte Städte eingebettet zwischen hohen Bergen und weite Wüsten, die endlos unter Zwillingssonnen dahinreichten. Die Menschen Eldorias waren weithin bekannt für ihre Meisterschaft über Energie, insbesondere für ihre legendären Lasersäbel.\n\nDiese Säbel waren nicht bloße Waffen; sie waren Erweiterungen der Seelen ihrer Träger, geschmiedet aus seltenen Kristallen, die mit dem Wesen des Kosmos pulsierten. Jeder Säbel war einzigartig, seine Farbe und Macht spiegelten die Persönlichkeit und den Geist seines Besitzers wider. Die geschicktesten Krieger, bekannt als die Saberborn, konnten ihre Säbel mit solcher Präzision und Anmut führen, dass sie mit dem Gewebe der Wirklichkeit zu tanzen schienen.\n\nUnter den Saberborn gab es einen Krieger namens Kael. Kael war ein Ausgestoßener, ein ehemaliger Wächter der heiligen Saber-Tempel, der verbannt worden war, weil er sich den Befehlen des Rates widersetzt hatte. Der Rat wollte die Macht der Lasersäbel horten und sie nutzen, um die Menschen Eldorias zu kontrollieren. Kael glaubte, dass die Säbel von denen geführt werden sollten, die schützen und nicht dominieren wollten.\n\nEines Tages erhielt Kael ein Notsignal aus einem kleinen Dorf am Rande der Wüste. Das Dorf wurde von einer abtrünnigen Fraktion der Saberborn angegriffen, angeführt von einem rücksichtslosen Kriegsherrn namens Vexis. Vexis suchte, ein altes Relikt des Dorfes an sich zu reißen — einen Kristall, von dem man sagte, er verzehnfache die Macht jedes Lasersäbels. Wenn Vexis Erfolg hätte, wäre seine Armee unaufhaltsam und Eldoria würde in Dunkelheit stürzen.\n\nKael wusste, dass er handeln musste. Er schnallte seinen Säbel um — eine tiefblaue Klinge, die mit Energie des Kosmos summte — und machte sich auf den Weg über die Wüste. Die Reise war tückisch, mit Sandstürmen und versteckten Fallen, die von Vexis’ Spähern gelegt worden waren. Doch Kael drängte weiter, getrieben von der Erinnerung an die Menschen, die er einst beschützt hatte.\n\nAls er das Dorf erreichte, war die Schlacht bereits in vollem Gange. Vexis’ Krieger führten ihre Säbel mit brutaler Effizienz und fällten Verteidiger mit Leichtigkeit. Kael stürzte sich in das Getümmel, sein blauer Säbel ein Lichtschein, während er einen Feind nach dem anderen entwaffnete und besiegte. Die Dorfbewohner, die ihren Retter sahen, sammelten sich hinter ihm, ihre eigenen Säbel blitzten, als sie um die Rückeroberung ihrer Heimat kämpften.\n\nKael stellte sich Vexis im Zentrum des Dorfplatzes. Der Säbel des Kriegsherrn war ein krankes Grün, das mit dunkler Energie pulsierte. \"Du bist zu spät, Kael,\" höhnte Vexis. \"Das Relikt gehört mir, und damit werde ich Eldoria regieren.\" Kael stand seinen Mann, den Säbel erhoben. \"Über meine Leiche,\" erwiderte er.\n\nDie beiden Krieger prallten aufeinander, ihre Säbel verkrallten sich in einem Funkenregen. Kael spürte die rohe Macht des Relikts durch Vexis’ Klinge fließen, doch er weigerte sich, zurückzuweichen. Er kanalysierte seine eigene Energie, sein Säbel leuchtete heller, als er Vexis’ Angriff zurückdrängte. Mit einem letzten verzweifelten Schlag entwaffnete Kael Vexis und ließ dessen Säbel klirrend zu Boden fallen.\n\nVexis fauchte in Niederlage, doch Kael tötete ihn nicht. Stattdessen bot er ihm eine Wahl an: \"Schließ dich mir an, um Eldoria zu schützen, oder geh und kehre niemals zurück.\" Vexis, gedemütigt und die Wahrheit in Kaels Worten sehnd, entschied sich, an seiner Seite zu stehen.\n\nMit Vexis’ Fraktion nun Verbündeten eroberten Kael und die Dorfbewohner das Relikt zurück und nutzten seine Macht, um das Gleichgewicht in Eldoria wiederherzustellen. Die Saber-Tempel wurden reformiert, und die Lasersäbel wurden wieder von denen geführt, die schützen und nicht beherrschen wollten.\n\nKaels Legende wuchs, und er wurde zum Symbol der Hoffnung für die Menschen Eldorias. Seine Geschichte erinnerte sie daran, dass selbst in den dunkelsten Zeiten das Licht von Mut und Gerechtigkeit siegen kann. Und so lebten die Saberborn weiter, ihre Lasersäbel ein Leuchtfeuer der Stärke und Einheit in einer Galaxie voller Schatten."
  }
]

VorherigeFunctionGemma NächsteMinistral 3

Zuletzt aktualisiert vor 10 Stunden

War das hilfreich?

hashtagDevstral 2 - Unsloth Dynamic GGUFs:

hashtag🖥️ Devstral 2 ausführen

hashtag⚙️ Nutzungsanleitung

hashtag🎩Devstral-Small-2-24B

hashtag✨ Führe Devstral-Small-2-24B-Instruct-2512 in llama.cpp aus

hashtag👀Devstral und Vision

hashtag🚚Devstral-2-123B

hashtag✨ Führe das Devstral-2-123B-Instruct-2512 Tutorial aus

hashtag🦥 Feinabstimmung von Devstral 2 mit Unsloth

hashtag😎Llama-server Bereitstellung & Deployment

hashtag🧰Tool-Aufruf mit Devstral 2 Tutorial

Devstral 2 - Unsloth Dynamic GGUFs:

🖥️ Devstral 2 ausführen

⚙️ Nutzungsanleitung

🎩Devstral-Small-2-24B

✨ Führe Devstral-Small-2-24B-Instruct-2512 in llama.cpp aus

👀Devstral und Vision

🚚Devstral-2-123B

✨ Führe das Devstral-2-123B-Instruct-2512 Tutorial aus

🦥 Feinabstimmung von Devstral 2 mit Unsloth

😎Llama-server Bereitstellung & Deployment

🧰Tool-Aufruf mit Devstral 2 Tutorial