📙Devstral 2 - guide d'exécution

Guide pour exécuter localement les modèles Mistral Devstral 2 : 123B-Instruct-2512 et Small-2-24B-Instruct-2512.

Devstral 2 sont les nouveaux LLMs de Mistral pour le codage et les agents, destinés à l’ingénierie logicielle, disponibles en 24B et 123B tailles. Le modèle 123B atteint le SOTA sur SWE-bench, le codage, l’appel d’outils et les cas d’usage agents. Le modèle 24B tient dans 25 Go de RAM/VRAM et le 123B tient dans 128 Go.

Devstral 2 prend en charge les capacités de vision, une fenêtre de contexte de 256k et utilise la même architecture que Ministral 3. Vous pouvez maintenant exécuter et affiner les deux modèles localement avec Unsloth.

Tous les téléchargements de Devstral 2 utilisent notre méthodologie Unsloth Dynamic 2.0 , offrant les meilleures performances sur les benchmarks Aider Polyglot et MMLU en 5-shot.

Devstral-Small-2-24BDevstral-2-123B

Devstral 2 - Unsloth Dynamic GGUF :

Devstral-Small-2-24B-Instruct-2512
Devstral-2-123B-Instruct-2512

🖥️ Exécution de Devstral 2

Consultez nos guides étape par étape pour exécuter Devstral 24B et le grand modèle Devstral 123B . Les deux modèles prennent en charge la vision, mais actuellement la vision n’est pas prise en charge dans llama.cpp

⚙️ Guide d’utilisation

Voici les paramètres recommandés pour l’inférence :

  • Température ~0,15

  • Min_P de 0,01 (facultatif, mais 0,01 fonctionne bien ; la valeur par défaut de llama.cpp est 0,1)

  • Utilisez --jinja pour activer le prompt système.

  • Longueur maximale du contexte = 262 144

  • Contexte minimum recommandé : 16 384

  • Installez la dernière version de llama.cpp car une pull request du 13 décembre 2025 corrige des problèmes.

🎩Devstral-Small-2-24B

Le GGUF Devstral-Small-2-24B en précision complète (Q8) tiendra dans 25 Go de RAM/VRAM. Texte uniquement pour l’instant.

✨ Exécuter Devstral-Small-2-24B-Instruct-2512 dans llama.cpp

  1. Obtenez la dernière version de llama.cpp sur GitHub ici. Vous pouvez aussi suivre les instructions de compilation ci-dessous. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n’avez pas de GPU ou si vous souhaitez simplement une inférence CPU. Pour les appareils Apple Mac / Metal, définissez -DGGML_CUDA=OFF puis continuez comme d’habitude - la prise en charge de Metal est activée par défaut.

  1. Si vous souhaitez utiliser llama.cpp directement pour charger des modèles, vous pouvez faire ce qui suit : (:Q4_K_XL) est le type de quantification. Vous pouvez aussi télécharger directement depuis Hugging Face :

  1. Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir UD_Q4_K_XL ou d’autres versions quantifiées.

  1. Exécutez le modèle en mode conversation :

👀Devstral et la vision

  1. Pour tester les capacités d’image de Devstral, téléchargeons d’abord une image comme celle-ci Apprentissage par renforcement FP8 avec Unsloth ci-dessous :

  2. Nous obtenons l’image via wget https://unsloth.ai/cgi/image/fp8grpolarge_KharloZxEEaHAY2X97CEX.png?width=3840%26quality=80%26format=auto -O unsloth_fp8.png qui enregistrera l’image sous « unsloth_fp8.png »

  3. Puis chargez l’image via /image unsloth_fp8.png après que le modèle est chargé, comme indiqué ci-dessous :

  4. Nous lui demandons ensuite Décris cette image et obtenons ce qui suit :

🚚Devstral-2-123B

Le GGUF Devstral-Small-2-123B en précision complète (Q8) tiendra dans 128 Go de RAM/VRAM. Texte uniquement pour l’instant.

Tutoriel d’exécution de Devstral-2-123B-Instruct-2512

  1. Obtenez la dernière version de llama.cpp sur GitHub ici. Vous pouvez aussi suivre les instructions de compilation ci-dessous. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n’avez pas de GPU ou si vous souhaitez simplement une inférence CPU.

  1. Vous pouvez le télécharger directement depuis HuggingFace via :

  1. Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir UD_Q4_K_XL ou d’autres versions quantifiées.

  1. Exécutez le modèle en mode conversation :

🦥 Affinage de Devstral 2 avec Unsloth

Tout comme Ministral 3, Unsloth prend en charge l’affinage de Devstral 2. L’entraînement est 2x plus rapide, utilise 70 % de VRAM en moins et prend en charge des longueurs de contexte 8x plus longues. Devstral 2 tient confortablement dans un GPU L4 avec 24 Go de VRAM.

Malheureusement, Devstral 2 dépasse légèrement les limites de mémoire d’une VRAM de 16 Go, donc son affinage gratuitement sur Google Colab n’est pas possible pour l’instant. Cependant, vous pouvez affiner le modèle gratuitement en utilisant notre notebook Kaggle, qui offre l’accès à deux GPU. Il suffit de modifier le nom du modèle Magistral dans le notebook pour le unsloth/Devstral-Small-2-24B-Instruct-2512 modèle.

  • Ministral-3B-Instruct Notebook vision (vision) (Changez le nom du modèle en Devstral 2)

  • Ministral-3B-Instruct Notebook GRPO (Changez le nom du modèle en Devstral 2)

Notebook de finetuning vision de Devstral

Notebook Devstral Sudoku GRPO RL

😎Service et déploiement avec llama-server

Pour déployer Devstral 2 en production, nous utilisons llama-server Dans un nouveau terminal, par exemple via tmux, déployez le modèle via :

Lorsque vous exécutez ce qui précède, vous obtiendrez :

Puis dans un nouveau terminal, après avoir fait pip install openai, faites :

Ce qui affichera simplement 4.

🧰Tutoriel d’appel d’outils avec Devstral 2

Après avoir suivi Devstral 2 nous pouvons ensuite charger quelques outils et voir Devstral en action ! Créons quelques outils — copiez, collez et exécutez-les en Python.

Nous posons ensuite une question simple à partir d’une liste aléatoire de messages possibles pour tester le modèle :

Nous utilisons ensuite les fonctions ci-dessous (copiez-collez et exécutez) qui analyseront automatiquement les appels de fonction — Devstral 2 peut en faire plusieurs en parallèle !

Et après 1 minute, nous obtenons :

Ou sous forme JSON :

Mis à jour

Ce contenu vous a-t-il été utile ?