📙Devstral 2 - guide d'exécution
Guide pour exécuter localement les modèles Mistral Devstral 2 : 123B-Instruct-2512 et Small-2-24B-Instruct-2512.
Devstral 2 sont les nouveaux LLMs de Mistral pour le codage et les agents, destinés à l’ingénierie logicielle, disponibles en 24B et 123B tailles. Le modèle 123B atteint le SOTA sur SWE-bench, le codage, l’appel d’outils et les cas d’usage agents. Le modèle 24B tient dans 25 Go de RAM/VRAM et le 123B tient dans 128 Go.
Mise à jour du 13 décembre 2025
Nous avons résolu des problèmes dans le modèle de chat de Devstral, et les résultats devraient être nettement meilleurs. Les versions 24B et 123B ont été mises à jour. Installez aussi la dernière version de llama.cpp au 13 décembre 2025 !
Devstral 2 prend en charge les capacités de vision, une fenêtre de contexte de 256k et utilise la même architecture que Ministral 3. Vous pouvez maintenant exécuter et affiner les deux modèles localement avec Unsloth.
Tous les téléchargements de Devstral 2 utilisent notre méthodologie Unsloth Dynamic 2.0 , offrant les meilleures performances sur les benchmarks Aider Polyglot et MMLU en 5-shot.
Devstral-Small-2-24BDevstral-2-123B
Devstral 2 - Unsloth Dynamic GGUF :
🖥️ Exécution de Devstral 2
Consultez nos guides étape par étape pour exécuter Devstral 24B et le grand modèle Devstral 123B . Les deux modèles prennent en charge la vision, mais actuellement la vision n’est pas prise en charge dans llama.cpp
⚙️ Guide d’utilisation
Voici les paramètres recommandés pour l’inférence :
Température ~0,15
Min_P de 0,01 (facultatif, mais 0,01 fonctionne bien ; la valeur par défaut de llama.cpp est 0,1)
Utilisez
--jinjapour activer le prompt système.Longueur maximale du contexte = 262 144
Contexte minimum recommandé : 16 384
Installez la dernière version de llama.cpp car une pull request du 13 décembre 2025 corrige des problèmes.
🎩Devstral-Small-2-24B
Le GGUF Devstral-Small-2-24B en précision complète (Q8) tiendra dans 25 Go de RAM/VRAM. Texte uniquement pour l’instant.
✨ Exécuter Devstral-Small-2-24B-Instruct-2512 dans llama.cpp
Obtenez la dernière version de
llama.cppsur GitHub ici. Vous pouvez aussi suivre les instructions de compilation ci-dessous. Changez-DGGML_CUDA=ONen-DGGML_CUDA=OFFsi vous n’avez pas de GPU ou si vous souhaitez simplement une inférence CPU. Pour les appareils Apple Mac / Metal, définissez-DGGML_CUDA=OFFpuis continuez comme d’habitude - la prise en charge de Metal est activée par défaut.
Si vous souhaitez utiliser
llama.cppdirectement pour charger des modèles, vous pouvez faire ce qui suit : (:Q4_K_XL) est le type de quantification. Vous pouvez aussi télécharger directement depuis Hugging Face :
Téléchargez le modèle via (après avoir installé
pip install huggingface_hub hf_transfer). Vous pouvez choisirUD_Q4_K_XLou d’autres versions quantifiées.
Exécutez le modèle en mode conversation :
👀Devstral et la vision
Pour tester les capacités d’image de Devstral, téléchargeons d’abord une image comme celle-ci Apprentissage par renforcement FP8 avec Unsloth ci-dessous :

Nous obtenons l’image via
wget https://unsloth.ai/cgi/image/fp8grpolarge_KharloZxEEaHAY2X97CEX.png?width=3840%26quality=80%26format=auto -O unsloth_fp8.pngqui enregistrera l’image sous « unsloth_fp8.png »Puis chargez l’image via
/image unsloth_fp8.pngaprès que le modèle est chargé, comme indiqué ci-dessous :
Nous lui demandons ensuite
Décris cette imageet obtenons ce qui suit :
🚚Devstral-2-123B
Le GGUF Devstral-Small-2-123B en précision complète (Q8) tiendra dans 128 Go de RAM/VRAM. Texte uniquement pour l’instant.
✨ Tutoriel d’exécution de Devstral-2-123B-Instruct-2512
Obtenez la dernière version de
llama.cppsur GitHub ici. Vous pouvez aussi suivre les instructions de compilation ci-dessous. Changez-DGGML_CUDA=ONen-DGGML_CUDA=OFFsi vous n’avez pas de GPU ou si vous souhaitez simplement une inférence CPU.
Vous pouvez le télécharger directement depuis HuggingFace via :
Téléchargez le modèle via (après avoir installé
pip install huggingface_hub hf_transfer). Vous pouvez choisirUD_Q4_K_XLou d’autres versions quantifiées.
Exécutez le modèle en mode conversation :
🦥 Affinage de Devstral 2 avec Unsloth
Tout comme Ministral 3, Unsloth prend en charge l’affinage de Devstral 2. L’entraînement est 2x plus rapide, utilise 70 % de VRAM en moins et prend en charge des longueurs de contexte 8x plus longues. Devstral 2 tient confortablement dans un GPU L4 avec 24 Go de VRAM.
Malheureusement, Devstral 2 dépasse légèrement les limites de mémoire d’une VRAM de 16 Go, donc son affinage gratuitement sur Google Colab n’est pas possible pour l’instant. Cependant, vous pouvez affiner le modèle gratuitement en utilisant notre notebook Kaggle, qui offre l’accès à deux GPU. Il suffit de modifier le nom du modèle Magistral dans le notebook pour le unsloth/Devstral-Small-2-24B-Instruct-2512 modèle.
Nous avons créé des notebooks Unsloth gratuits pour affiner Ministral 3, et ils prennent directement en charge Devstral 2, puisqu’ils partagent la même architecture ! Changez le nom pour utiliser le modèle souhaité.
Ministral-3B-Instruct Notebook vision (vision) (Changez le nom du modèle en Devstral 2)
Ministral-3B-Instruct Notebook GRPO (Changez le nom du modèle en Devstral 2)
Notebook de finetuning vision de Devstral
Notebook Devstral Sudoku GRPO RL
😎Service et déploiement avec llama-server
Pour déployer Devstral 2 en production, nous utilisons llama-server Dans un nouveau terminal, par exemple via tmux, déployez le modèle via :
Lorsque vous exécutez ce qui précède, vous obtiendrez :

Puis dans un nouveau terminal, après avoir fait pip install openai, faites :
Ce qui affichera simplement 4.
🧰Tutoriel d’appel d’outils avec Devstral 2
Après avoir suivi Devstral 2 nous pouvons ensuite charger quelques outils et voir Devstral en action ! Créons quelques outils — copiez, collez et exécutez-les en Python.
Nous posons ensuite une question simple à partir d’une liste aléatoire de messages possibles pour tester le modèle :
Nous utilisons ensuite les fonctions ci-dessous (copiez-collez et exécutez) qui analyseront automatiquement les appels de fonction — Devstral 2 peut en faire plusieurs en parallèle !
Et après 1 minute, nous obtenons :

Ou sous forme JSON :
Mis à jour
Ce contenu vous a-t-il été utile ?

