📙Devstral 2 - Guide pour exécution

Guide pour exécuter localement les modèles Mistral Devstral 2 : 123B-Instruct-2512 et Small-2-24B-Instruct-2512.

Devstral 2 sont les nouveaux LLMs codants et agents de Mistral pour l'ingénierie logicielle, disponibles en 24B et 123B tailles. Le modèle 123B atteint l'état de l'art sur SWE-bench, le codage, l'appel d'outils et les cas d'utilisation d'agents. Le modèle 24B tient dans 25 Go de RAM/VRAM et le 123B tient dans 128 Go.

Mise à jour du 13 décembre 2025

Nous avons résolu des problèmes dans le modèle de chat de Devstral, et les résultats devraient être significativement meilleurs. Les 24B et 123B ont été mis à jour. Installez aussi la dernière version de llama.cpp au 13 déc. 2025 !

Devstral 2 prend en charge les capacités visuelles, une fenêtre de contexte de 256k et utilise la même architecture que Ministral 3. Vous pouvez maintenant exécuter et affiner les deux modèles localement avec Unsloth.

Toutes les mises en ligne de Devstral 2 utilisent notre méthodologie Dynamic 2.0 , offrant les meilleures performances sur Aider Polyglot et les benchmarks MMLU en 5 exemples.

Devstral-Small-2-24B Devstral-2-123B

Devstral 2 - Unsloth Dynamic GGUFs :

Devstral-Small-2-24B-Instruct-2512

Devstral-2-123B-Instruct-2512

Devstral-Small-2-24B-Instruct-2512-GGUF

Devstral-2-123B-Instruct-2512-GGUF

🖥️ Exécution de Devstral 2

Consultez nos guides pas à pas pour exécuter Devstral 24B et le grand Devstral 123B modèles. Les deux modèles prennent en charge la vision mais actuellement la vision n'est pas prise en charge dans llama.cpp

⚙️ Guide d'utilisation

Voici les paramètres recommandés pour l'inférence :

Température ~0.15
Min_P de 0,01 (optionnel, mais 0,01 fonctionne bien, la valeur par défaut de llama.cpp est 0,1)
Utilisez --jinja pour activer le prompt système.
Longueur de contexte max = 262 144
Contexte minimum recommandé : 16 384
Installez la dernière version de llama.cpp car une pull request du 13 décembre 2025 corrige des problèmes.

🎩Devstral-Small-2-24B

Le GGUF en pleine précision (Q8) Devstral-Small-2-24B tiendra dans 25 Go de RAM/VRAM. Texte uniquement pour l'instant.

✨ Exécutez Devstral-Small-2-24B-Instruct-2512 dans llama.cpp

Obtenez la dernière llama.cpp sur GitHub ici. Vous pouvez aussi suivre les instructions de compilation ci-dessous. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU ou si vous voulez simplement de l'inférence CPU. Pour les appareils Apple Mac / Metal, définissez -DGGML_CUDA=OFF puis continuez comme d'habitude - le support Metal est activé par défaut.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Si vous voulez utiliser llama.cpp directement pour charger les modèles, vous pouvez faire ce qui suit : (:Q4_K_XL) est le type de quantification. Vous pouvez aussi directement tirer depuis Hugging Face :

./llama.cpp/llama-cli \
    -hf unsloth/Devstral-Small-2-24B-Instruct-2512-GGUF:UD-Q4_K_XL \
    --jinja -ngl 99 --ctx-size 16384 \
    --temp 0.15

Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir UD_Q4_K_XL ou d'autres versions quantifiées.

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Devstral-Small-2-24B-Instruct-2512-GGUF",
    local_dir = "unsloth/Devstral-Small-2-24B-Instruct-2512-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*", "*mmproj-F16*"], # Pour Q4_K_XL
)

Exécutez le modèle en mode conversation :

./llama.cpp/llama-cli \
    --model unsloth/Devstral-Small-2-24B-Instruct-2512-GGUF/Devstral-Small-2-24B-Instruct-2512-UD-Q4_K_XL.gguf \
    --mmproj unsloth/Devstral-Small-2-24B-Instruct-2512-GGUF/mmproj-F16.gguf \
    --ctx-size 16384 \
    --n-gpu-layers 99 \
    --seed 3407 \
    --prio 2 \
    --temp 0.15 \
    --jinja

👀Devstral et la vision

Pour expérimenter les capacités d'image de Devstral, téléchargeons d'abord une image comme celle-ci FP8 Reinforcement Learning avec Unsloth ci-dessous :
Nous obtenons l'image via wget https://unsloth.ai/cgi/image/fp8grpolarge_KharloZxEEaHAY2X97CEX.png?width=3840%26quality=80%26format=auto -O unsloth_fp8.png qui enregistrera l'image sous le nom "unsloth_fp8.png"
Puis chargez l'image via /image unsloth_fp8.png après que le modèle soit chargé comme montré ci-dessous :
Ensuite nous le sollicitons Décrivez cette image et obtenons ce qui suit :

🚚Devstral-2-123B

Le GGUF en pleine précision (Q8) Devstral-Small-2-123B tiendra dans 128 Go de RAM/VRAM. Texte uniquement pour l'instant.

✨ Exécuter le tutoriel Devstral-2-123B-Instruct-2512

Obtenez la dernière llama.cpp sur GitHub ici. Vous pouvez aussi suivre les instructions de compilation ci-dessous. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU ou si vous voulez simplement de l'inférence CPU.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Vous pouvez directement récupérer depuis HuggingFace via :

./llama.cpp/llama-cli \
    -hf unsloth/Devstral-2-123B-Instruct-2512-GGUF:UD-Q2_K_XL \
    --jinja -ngl 99 --ctx-size 16384 \
    --temp 0.15

Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir UD_Q4_K_XL ou d'autres versions quantifiées.

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Devstral-2-123B-Instruct-2512-GGUF",
    local_dir = "unsloth/Devstral-2-123B-Instruct-2512-GGUF",
    allow_patterns = ["*UD-Q2_K_XL*", "*mmproj-F16*"],
)

Exécutez le modèle en mode conversation :

./llama.cpp/llama-cli \
    --model unsloth/Devstral-2-123B-Instruct-2512-GGUF/Devstral-2-123B-Instruct-2512-UD-Q2_K_XL.gguf \
    --mmproj unsloth/Devstral-2-123B-Instruct-2512-GGUF/mmproj-F16.gguf \
    --ctx-size 16384 \
    --n-gpu-layers 99 \
    --seed 3407 \
    --prio 2 \
    --temp 0.15 \
    --jinja

🦥 Affinage de Devstral 2 avec Unsloth

Tout comme Ministral 3, Unsloth prend en charge l'affinage (fine-tuning) de Devstral 2. L'entraînement est 2x plus rapide, utilise 70% de VRAM en moins et prend en charge des longueurs de contexte 8x plus longues. Devstral 2 tient confortablement dans un GPU L4 de 24 Go de VRAM.

Malheureusement, Devstral 2 dépasse légèrement les limites de mémoire d'un GPU de 16 Go de VRAM, donc l'affiner gratuitement sur Google Colab n'est pas possible pour l'instant. Cependant, vous pouvez affiner le modèle gratuitement en utilisant notre carnet Kaggle, qui offre l'accès à des GPU doubles. Changez simplement le nom du modèle Magistral du notebook en unsloth/Devstral-Small-2-24B-Instruct-2512 modèle.

Nous avons créé des notebooks Unsloth gratuits pour affiner Ministral 3, et prennent directement en charge Devstral 2, puisqu'ils partagent la même architecture ! Changez le nom pour utiliser le modèle souhaité.

Ministral-3B-Instruct Notebook Vision (vision) (Changez le nom du modèle en Devstral 2)
Ministral-3B-Instruct Notebook GRPO (Changez le nom du modèle en Devstral 2)

Notebook d'affinage Vision Devstral

Google Colabcolab.research.google.com

Notebook Devstral Sudoku GRPO RL

Google Colabcolab.research.google.com

😎Llama-server service & déploiement

Pour déployer Devstral 2 en production, nous utilisons llama-server Dans un nouveau terminal, par exemple via tmux, déployez le modèle via :

./llama.cpp/llama-server \
    --model unsloth/Devstral-Small-2-24B-Instruct-2512-GGUF/Devstral-Small-2-24B-Instruct-2512-UD-Q4_K_XL.gguf \
    --mmproj unsloth/Devstral-Small-2-24B-Instruct-2512-GGUF/mmproj-F16.gguf \
    --alias "unsloth/Devstral-Small-2-24B-Instruct-2512" \
    --n-gpu-layers 999 \
    --prio 3 \
    --min_p 0.01 \
    --ctx-size 16384 \
    --port 8001 \
    --jinja

Lorsque vous exécutez ce qui précède, vous obtiendrez :

Puis dans un nouveau terminal, après avoir fait pip install openai, faites :

from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/Devstral-Small-2-24B-Instruct-2512",
    messages = [{"role": "user", "content": "What is 2+2?"},],
)
print(completion.choices[0].message.content)

Ce qui affichera simplement 4.

🧰Appel d'outils avec Devstral 2 - Tutoriel

Après avoir suivi Devstral 2 nous pouvons alors charger des outils et voir Devstral en action ! Créons quelques outils - copiez-collez et exécutez-les en Python.

import json, subprocess, random
from typing import Any
def add_number(a: float | str, b: float | str) -> float:
    return float(a) + float(b)
def multiply_number(a: float | str, b: float | str) -> float:
    return float(a) * float(b)
def substract_number(a: float | str, b: float | str) -> float:
    return float(a) - float(b)
def write_a_story() -> str:
    return random.choice([
        "Il y a longtemps, dans une galaxie lointaine, très lointaine...",
        "Il y avait 2 amis qui adoraient les paresseux et le code...",
        "Le monde était en train de finir car chaque paresseux avait évolué pour avoir une intelligence surhumaine...",
        "À l'insu d'un ami, l'autre a accidentellement codé un programme pour faire évoluer les paresseux...",
    ])
def terminal(command: str) -> str:
    if "rm" in command or "sudo" in command or "dd" in command or "chmod" in command:
        msg = "Impossible d'exécuter les commandes 'rm, sudo, dd, chmod' car elles sont dangereuses"
        print(msg); return msg
    print(f"Exécution de la commande terminal `{command}`")
    try:
        return str(subprocess.run(command, capture_output = True, text = True, shell = True, check = True).stdout)
    except subprocess.CalledProcessError as e:
        return f"Échec de la commande : {e.stderr}"
def python(code: str) -> str:
    data = {}
    exec(code, data)
    del data["__builtins__"]
    return str(data)
MAP_FN = {
    "add_number": add_number,
    "multiply_number": multiply_number,
    "substract_number": substract_number,
    "write_a_story": write_a_story,
    "terminal": terminal,
    "python": python,
}
tools = [
    {
        "type": "function",
        "function": {
            "name": "add_number",
            "description": "Ajouter deux nombres.",
            "parameters": {
                "type": "object",
                "properties": {
                    "a": {
                        "type": "string",
                        "description": "Le premier nombre.",
                    },
                    "b": {
                        "type": "string",
                        "description": "Le deuxième nombre.",
                    },
                },
                "required": ["a", "b"],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "multiply_number",
            "description": "Multiplier deux nombres.",
            "parameters": {
                "type": "object",
                "properties": {
                    "a": {
                        "type": "string",
                        "description": "Le premier nombre.",
                    },
                    "b": {
                        "type": "string",
                        "description": "Le deuxième nombre.",
                    },
                },
                "required": ["a", "b"],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "substract_number",
            "description": "Soustraire deux nombres.",
            "parameters": {
                "type": "object",
                "properties": {
                    "a": {
                        "type": "string",
                        "description": "Le premier nombre.",
                    },
                    "b": {
                        "type": "string",
                        "description": "Le deuxième nombre.",
                    },
                },
                "required": ["a", "b"],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "write_a_story",
            "description": "Écrit une histoire aléatoire.",
            "parameters": {
                "type": "object",
                "properties": {},
                "required": [],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "terminal",
            "description": "Effectuer des opérations depuis le terminal.",
            "parameters": {
                "type": "object",
                "properties": {
                    "command": {
                        "type": "string",
                        "description": "La commande que vous souhaitez lancer, ex. `ls`, `rm`, ...",
                    },
                },
                "required": ["command"],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "python",
            "description": "Appeler un interpréteur Python avec du code Python qui sera exécuté.",
            "parameters": {
                "type": "object",
                "properties": {
                    "code": {
                        "type": "string",
                        "description": "Le code Python à exécuter",
                    },
                },
                "required": ["code"],
            },
        },
    },
]

Nous posons ensuite une question simple parmi une liste aléatoire de messages possibles pour tester le modèle :

import random
messages = [{
    "role": "user",
    "content": [random.choice([
        {"type": "text", "text": "Pourriez-vous m'écrire une histoire ?"},
        {"type": "text", "text": "Quelle est la date d'aujourd'hui plus 3 jours ?"},
        {"type": "text", "text": "Donnez l'heure actuelle en nanosecondes."},
        {"type": "text", "text": "Créez une fonction Fibonacci en Python et trouvez fib(20)."},
    ])],
}]

Nous utilisons ensuite les fonctions ci-dessous (copiez-collez et exécutez) qui analyseront automatiquement les appels de fonction - Devstral 2 peut en faire plusieurs en tandem !

température = 0.15
from openai import OpenAI
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
model_name = next(iter(openai_client.models.list())).id
print(f"Utilisation du modèle = {model_name}")
has_tool_calls = True
original_messages_len = len(messages)
while has_tool_calls:
    print(f"Messages actuels = {messages}")
    response = openai_client.chat.completions.create(
        model = model_name,
        messages = messages,
        temperature = temperature,
        tools = tools if tools else None,
        tool_choice = "auto" if tools else None,
    )
    tool_calls = response.choices[0].message.tool_calls or []
    content = response.choices[0].message.content or ""
    tool_calls_dict = [tc.to_dict() for tc in tool_calls] if tool_calls else tool_calls
    messages.append({"role": "assistant", "tool_calls": tool_calls_dict, "content": content,})
    for tool_call in tool_calls:
        fx, args, _id = tool_call.function.name, tool_call.function.arguments, tool_call.id
        out = MAP_FN[fx](**json.loads(args))
        messages.append({"role": "tool", "tool_call_id": _id, "name": fx, "content": str(out),})
    else:
        has_tool_calls = False
print(json.dumps(messages[original_messages_len:], indent = 2))

Et après 1 minute, nous obtenons :

Ou en forme JSON :

[
  {
    "role": "assistant",
    "tool_calls": [
      {
        "id": "JviLK0wUveWguuKQHgZdFdYI2adu85jy",
        "function": {
          "arguments": "{}",
          "name": "write_a_story"
        },
        "type": "function"
      }
    ],
    "content": null
  },
  {
    "role": "tool",
    "tool_call_id": "JviLK0wUveWguuKQHgZdFdYI2adu85jy",
    "name": "write_a_story",
    "content": "Il y a longtemps, dans une galaxie lointaine, très lointaine..."
  },
  {
    "role": "assistant",
    "tool_calls": null,
    "content": "Dans une galaxie lointaine, où les étoiles brûlaient d'une lueur surnaturelle, il y avait une planète nommée Eldoria. Eldoria était un monde de contrastes saisissants — des villes vibrantes nichées entre des montagnes imposantes et d'immenses déserts qui s'étendaient à l'infini sous deux soleils. Les habitants d'Eldoria étaient connus de tous pour leur maîtrise de l'énergie, en particulier leurs légendaires sabres laser.\n\nCes sabres n'étaient pas de simples armes ; ils étaient des prolongements de l'âme de leurs porteurs, forgés à partir de cristaux rares qui pulsaient de l'essence du cosmos. Chaque sabre était unique, sa couleur et sa puissance reflétant la personnalité et l'esprit de son propriétaire. Les guerriers les plus habiles, connus sous le nom de Saberborn, pouvaient manier leurs sabres avec une telle précision et grâce qu'ils semblaient danser avec le tissu même de la réalité.\n\nParmi les Saberborn, il y avait un guerrier nommé Kael. Kael était un paria, un ancien gardien des sacrés Temples du Sabre qui avait été exilé pour avoir défié les ordres du conseil. Le conseil cherchait à accumuler le pouvoir des sabres laser, les utilisant pour contrôler le peuple d'Eldoria. Kael croyait que les sabres devaient être maniés par ceux qui cherchaient à protéger, non à dominer.\n\nUn jour, Kael reçut un signal de détresse d'un petit village en bordure du désert. Le village était attaqué par une faction renégate de Saberborn, dirigée par un seigneur de guerre impitoyable nommé Vexis. Vexis cherchait à s'emparer de la relique ancienne du village — un cristal censé amplifier la puissance de n'importe quel sabre laser par dix. Si Vexis réussissait, son armée deviendrait imparable, et Eldoria tomberait dans les ténèbres.\n\nKael savait qu'il devait agir. Il enfila son sabre — une lame bleu profond qui bourdonnait de l'énergie du cosmos — et traversa le désert. Le voyage fut périlleux, avec des tempêtes de sable et des pièges cachés posés par les éclaireurs de Vexis. Mais Kael continua, poussé par le souvenir des gens qu'il avait autrefois juré de protéger.\n\nLorsqu'il atteignit le village, la bataille faisait déjà rage. Les guerriers de Vexis maniaient leurs sabres avec une efficacité brutale, abattant les défenseurs sans effort. Kael s'élança dans la mêlée, son sabre bleu devenant un flou de lumière tandis qu'il désarmait et battait un ennemi après l'autre. Les villageois, voyant leur sauveur arriver, se rallièrent derrière lui, leurs propres sabres étincelant tandis qu'ils se battaient pour reprendre leur foyer.\n\nKael affronta Vexis au centre de la place du village. Le sabre du seigneur de guerre était d'un vert maladif, pulsant d'une énergie sombre. "Tu es trop tard, Kael," ricana Vexis. "La relique est à moi, et avec elle, je règnerai sur Eldoria." Kael resta ferme, son sabre levé. "Par-dessus mon cadavre," répondit-il.\n\nLes deux guerriers s'affrontèrent, leurs sabres se verrouillant dans une pluie d'étincelles. Kael sentit la puissance brute de la relique traverser la lame de Vexis, mais il refusa de reculer. Il canalisa sa propre énergie, son sabre brillant de plus en plus alors qu'il repoussa l'assaut de Vexis. D'un dernier coup désespéré, Kael désarma Vexis, envoyant son sabre heurter le sol.\n\nVexis gronda de défaite, mais Kael ne le tua pas. Au lieu de cela, il lui offrit un choix : "Rejoins-moi pour protéger Eldoria, ou pars et ne reviens jamais." Vexis, humilié et voyant la vérité dans les paroles de Kael, choisit de se tenir à ses côtés.\n\nAvec la faction de Vexis devenue alliée, Kael et les villageois récupérèrent la relique, utilisant son pouvoir pour rétablir l'équilibre d'Eldoria. Les Temples du Sabre furent réformés, et les sabres laser furent à nouveau maniés par ceux qui cherchaient à protéger, non à contrôler.\n\nLa légende de Kael grandit, et il devint un symbole d'espoir pour les habitants d'Eldoria. Son histoire leur rappela que même dans les temps les plus sombres, la lumière du courage et de la justice pouvait prévaloir. Ainsi, les Saberborn survécurent, leurs sabres laser étant un phare de force et d'unité dans une galaxie pleine d'ombres."
  }
]

PrécédentFunctionGemma SuivantMinistral 3

Mis à jour il y a 10 heures

Ce contenu vous a-t-il été utile ?

hashtagDevstral 2 - Unsloth Dynamic GGUFs :

hashtag🖥️ Exécution de Devstral 2

hashtag⚙️ Guide d'utilisation

hashtag🎩Devstral-Small-2-24B

hashtag✨ Exécutez Devstral-Small-2-24B-Instruct-2512 dans llama.cpp

hashtag👀Devstral et la vision

hashtag🚚Devstral-2-123B

hashtag✨ Exécuter le tutoriel Devstral-2-123B-Instruct-2512

hashtag🦥 Affinage de Devstral 2 avec Unsloth

hashtag😎Llama-server service & déploiement

hashtag🧰Appel d'outils avec Devstral 2 - Tutoriel

Devstral 2 - Unsloth Dynamic GGUFs :

🖥️ Exécution de Devstral 2

⚙️ Guide d'utilisation

🎩Devstral-Small-2-24B

✨ Exécutez Devstral-Small-2-24B-Instruct-2512 dans llama.cpp

👀Devstral et la vision

🚚Devstral-2-123B

✨ Exécuter le tutoriel Devstral-2-123B-Instruct-2512

🦥 Affinage de Devstral 2 avec Unsloth

😎Llama-server service & déploiement

🧰Appel d'outils avec Devstral 2 - Tutoriel