📙Devstral 2 - Guide d'exécution
Guide pour l'exécution locale des modèles Mistral Devstral 2 : 123B-Instruct-2512 et Small-2-24B-Instruct-2512.
Devstral 2 sont les nouveaux LLMs codants et agentiques de Mistral pour l'ingénierie logicielle, disponibles en 24B et 123B tailles. Le modèle 123B obtient le SOTA dans SWE-bench, le codage, l'appel d'outils et les cas d'utilisation d'agents. Le modèle 24B tient dans 25 Go de RAM/VRAM et le 123B tient dans 128 Go.
Mise à jour du 13 décembre 2025
Nous avons résolu des problèmes dans le modèle de conversation de Devstral, et les résultats devraient être significativement meilleurs. Les modèles 24B et 123B ont été mis à jour. Installez aussi la dernière version de llama.cpp au 13 décembre 2025 !
Devstral 2 prend en charge des capacités de vision, une fenêtre de contexte de 256k et utilise la même architecture que Ministral 3. Vous pouvez maintenant exécuter et affiner les deux modèles localement avec Unsloth.
Tous les téléversements Devstral 2 utilisent notre Dynamic 2.0 méthodologie, offrant les meilleures performances sur Aider Polyglot et les benchmarks MMLU en 5 shots.
Devstral-Small-2-24BDevstral-2-123B
Devstral 2 - Unsloth Dynamic GGUFs :
🖥️ Exécuter Devstral 2
Voir nos guides étape par étape pour exécuter Devstral 24B et le grand Devstral 123B modèles. Les deux modèles prennent en charge la vision mais actuellement la vision n'est pas prise en charge dans llama.cpp
⚙️ Guide d'utilisation
Voici les paramètres recommandés pour l'inférence :
Température ~0,15
Min_P de 0,01 (optionnel, mais 0,01 fonctionne bien, la valeur par défaut de llama.cpp est 0,1)
Utilisez
--jinjapour activer l'invite système.Longueur maximale du contexte = 262 144
Contexte minimum recommandé : 16 384
Installez la dernière version de llama.cpp car une pull request du 13 décembre 2025 corrige des problèmes.
🎩Devstral-Small-2-24B
La version en pleine précision (Q8) Devstral-Small-2-24B GGUF tiendra dans 25 Go de RAM/VRAM. Texte uniquement pour l'instant.
✨ Exécuter Devstral-Small-2-24B-Instruct-2512 dans llama.cpp
Obtenez la dernière
llama.cppsur GitHub ici. Vous pouvez également suivre les instructions de build ci-dessous. Changez-DGGML_CUDA=ONen-DGGML_CUDA=OFFsi vous n'avez pas de GPU ou si vous voulez simplement l'inférence CPU.
Si vous voulez utiliser
llama.cppdirectement pour charger des modèles, vous pouvez faire ce qui suit : (:Q4_K_XL) est le type de quantification. Vous pouvez aussi récupérer directement depuis Hugging Face :
Téléchargez le modèle via (après avoir installé
pip install huggingface_hub hf_transfer). Vous pouvez choisirUD_Q4_K_XLou d'autres versions quantifiées.
Exécutez le modèle en mode conversation :
👀Devstral et la vision
Pour expérimenter les capacités d'image de Devstral, téléchargeons d'abord une image comme celle-ci FP8 Reinforcement Learning avec Unsloth ci-dessous :

Nous obtenons l'image via
wget https://unsloth.ai/cgi/image/fp8grpolarge_KharloZxEEaHAY2X97CEX.png?width=3840%26quality=80%26format=auto -O unsloth_fp8.pngqui enregistrera l'image sous "unsloth_fp8.png"Ensuite, chargez l'image via
/image unsloth_fp8.pngaprès que le modèle soit chargé comme montré ci-dessous :
Nous lui demandons ensuite
Décrire cette imageet obtenons ce qui suit :
🚚Devstral-2-123B
La version en pleine précision (Q8) Devstral-Small-2-123B GGUF tiendra dans 128 Go de RAM/VRAM. Texte uniquement pour l'instant.
✨ Exécuter le tutoriel Devstral-2-123B-Instruct-2512
Obtenez la dernière
llama.cppsur GitHub ici. Vous pouvez également suivre les instructions de build ci-dessous. Changez-DGGML_CUDA=ONen-DGGML_CUDA=OFFsi vous n'avez pas de GPU ou si vous voulez simplement l'inférence CPU.
Vous pouvez récupérer directement depuis HuggingFace via :
Téléchargez le modèle via (après avoir installé
pip install huggingface_hub hf_transfer). Vous pouvez choisirUD_Q4_K_XLou d'autres versions quantifiées.
Exécutez le modèle en mode conversation :
🦥 Affinage de Devstral 2 avec Unsloth
Tout comme Ministral 3, Unsloth prend en charge l'affinage de Devstral 2. L'entraînement est 2x plus rapide, utilise 70 % de VRAM en moins et prend en charge des longueurs de contexte 8x plus longues. Devstral 2 tient confortablement dans un GPU L4 de 24 Go de VRAM.
Malheureusement, Devstral 2 dépasse légèrement les limites de mémoire d'un VRAM de 16 Go, donc l'affiner gratuitement sur Google Colab n'est pas possible pour l'instant. Cependant, vous pouvez affiner le modèle gratuitement en utilisant notre carnet Kaggle, qui offre l'accès à des GPU doubles. Changez simplement le nom du modèle Magistral du carnet pour unsloth/Devstral-Small-2-24B-Instruct-2512 modèle.
Nous avons créé des notebooks Unsloth gratuits pour affiner Ministral 3, et prennent directement en charge Devstral 2, puisqu'ils partagent la même architecture ! Changez le nom pour utiliser le modèle souhaité.
Ministral-3B-Instruct Notebook Vision (vision) (Changez le nom du modèle en Devstral 2)
Ministral-3B-Instruct Notebook GRPO (Changez le nom du modèle en Devstral 2)
Notebook d'affinage Vision Devstral
Notebook RL GRPO Sudoku Devstral
😎Llama-server service et déploiement
Pour déployer Devstral 2 en production, nous utilisons llama-server Dans un nouveau terminal, par exemple via tmux, déployez le modèle via :
Lorsque vous exécutez ce qui précède, vous obtiendrez :

Puis, dans un nouveau terminal, après avoir fait pip install openai, faites :
Ce qui affichera simplement 4.
🧰Appel d'outils avec Devstral 2 - Tutoriel
Après avoir suivi Devstral 2 nous pouvons ensuite charger quelques outils et voir Devstral en action ! Créons quelques outils - copiez, collez et exécutez-les en Python.
Nous posons ensuite une question simple à partir d'une liste aléatoire de messages possibles pour tester le modèle :
Nous utilisons ensuite les fonctions ci-dessous (copiez-collez et exécutez) qui analyseront automatiquement les appels de fonctions - Devstral 2 peut effectuer plusieurs appels en tandem !
Et après 1 minute, nous obtenons :

Ou en format JSON :
Mis à jour
Ce contenu vous a-t-il été utile ?

