📙Devstral 2 - Guide pour exécution

Guide pour exécuter localement les modèles Mistral Devstral 2 : 123B-Instruct-2512 et Small-2-24B-Instruct-2512.

Devstral 2 sont les nouveaux LLMs codants et agents de Mistral pour l'ingénierie logicielle, disponibles en 24B et 123B tailles. Le modèle 123B atteint l'état de l'art sur SWE-bench, le codage, l'appel d'outils et les cas d'utilisation d'agents. Le modèle 24B tient dans 25 Go de RAM/VRAM et le 123B tient dans 128 Go.

circle-check

Devstral 2 prend en charge les capacités visuelles, une fenêtre de contexte de 256k et utilise la même architecture que Ministral 3. Vous pouvez maintenant exécuter et affiner les deux modèles localement avec Unsloth.

Toutes les mises en ligne de Devstral 2 utilisent notre méthodologie Dynamic 2.0 , offrant les meilleures performances sur Aider Polyglot et les benchmarks MMLU en 5 exemples.

Devstral-Small-2-24BDevstral-2-123B

Devstral 2 - Unsloth Dynamic GGUFs :

🖥️ Exécution de Devstral 2

Consultez nos guides pas à pas pour exécuter Devstral 24B et le grand Devstral 123B modèles. Les deux modèles prennent en charge la vision mais actuellement la vision n'est pas prise en charge dans llama.cpp

⚙️ Guide d'utilisation

Voici les paramètres recommandés pour l'inférence :

  • Température ~0.15

  • Min_P de 0,01 (optionnel, mais 0,01 fonctionne bien, la valeur par défaut de llama.cpp est 0,1)

  • Utilisez --jinja pour activer le prompt système.

  • Longueur de contexte max = 262 144

  • Contexte minimum recommandé : 16 384

  • Installez la dernière version de llama.cpp car une pull request du 13 décembre 2025arrow-up-right corrige des problèmes.

🎩Devstral-Small-2-24B

Le GGUF en pleine précision (Q8) Devstral-Small-2-24B tiendra dans 25 Go de RAM/VRAM. Texte uniquement pour l'instant.

✨ Exécutez Devstral-Small-2-24B-Instruct-2512 dans llama.cpp

  1. Obtenez la dernière llama.cpp sur GitHub iciarrow-up-right. Vous pouvez aussi suivre les instructions de compilation ci-dessous. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU ou si vous voulez simplement de l'inférence CPU. Pour les appareils Apple Mac / Metal, définissez -DGGML_CUDA=OFF puis continuez comme d'habitude - le support Metal est activé par défaut.

  1. Si vous voulez utiliser llama.cpp directement pour charger les modèles, vous pouvez faire ce qui suit : (:Q4_K_XL) est le type de quantification. Vous pouvez aussi directement tirer depuis Hugging Face :

  1. Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir UD_Q4_K_XL ou d'autres versions quantifiées.

  1. Exécutez le modèle en mode conversation :

👀Devstral et la vision

  1. Pour expérimenter les capacités d'image de Devstral, téléchargeons d'abord une image comme celle-ci FP8 Reinforcement Learning avec Unslotharrow-up-right ci-dessous :

  2. Nous obtenons l'image via wget https://unsloth.ai/cgi/image/fp8grpolarge_KharloZxEEaHAY2X97CEX.png?width=3840%26quality=80%26format=auto -O unsloth_fp8.png qui enregistrera l'image sous le nom "unsloth_fp8.png"

  3. Puis chargez l'image via /image unsloth_fp8.png après que le modèle soit chargé comme montré ci-dessous :

  4. Ensuite nous le sollicitons Décrivez cette image et obtenons ce qui suit :

🚚Devstral-2-123B

Le GGUF en pleine précision (Q8) Devstral-Small-2-123B tiendra dans 128 Go de RAM/VRAM. Texte uniquement pour l'instant.

Exécuter le tutoriel Devstral-2-123B-Instruct-2512

  1. Obtenez la dernière llama.cpp sur GitHub iciarrow-up-right. Vous pouvez aussi suivre les instructions de compilation ci-dessous. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU ou si vous voulez simplement de l'inférence CPU.

  1. Vous pouvez directement récupérer depuis HuggingFace via :

  1. Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir UD_Q4_K_XL ou d'autres versions quantifiées.

  1. Exécutez le modèle en mode conversation :

🦥 Affinage de Devstral 2 avec Unsloth

Tout comme Ministral 3, Unsloth prend en charge l'affinage (fine-tuning) de Devstral 2. L'entraînement est 2x plus rapide, utilise 70% de VRAM en moins et prend en charge des longueurs de contexte 8x plus longues. Devstral 2 tient confortablement dans un GPU L4 de 24 Go de VRAM.

Malheureusement, Devstral 2 dépasse légèrement les limites de mémoire d'un GPU de 16 Go de VRAM, donc l'affiner gratuitement sur Google Colab n'est pas possible pour l'instant. Cependant, vous pouvez affiner le modèle gratuitement en utilisant notre carnet Kagglearrow-up-right, qui offre l'accès à des GPU doubles. Changez simplement le nom du modèle Magistral du notebook en unsloth/Devstral-Small-2-24B-Instruct-2512 modèle.

circle-check

Notebook d'affinage Vision Devstral

😎Llama-server service & déploiement

Pour déployer Devstral 2 en production, nous utilisons llama-server Dans un nouveau terminal, par exemple via tmux, déployez le modèle via :

Lorsque vous exécutez ce qui précède, vous obtiendrez :

Puis dans un nouveau terminal, après avoir fait pip install openai, faites :

Ce qui affichera simplement 4.

🧰Appel d'outils avec Devstral 2 - Tutoriel

Après avoir suivi Devstral 2 nous pouvons alors charger des outils et voir Devstral en action ! Créons quelques outils - copiez-collez et exécutez-les en Python.

Nous posons ensuite une question simple parmi une liste aléatoire de messages possibles pour tester le modèle :

Nous utilisons ensuite les fonctions ci-dessous (copiez-collez et exécutez) qui analyseront automatiquement les appels de fonction - Devstral 2 peut en faire plusieurs en tandem !

Et après 1 minute, nous obtenons :

Ou en forme JSON :

Mis à jour

Ce contenu vous a-t-il été utile ?