📙Devstral : Comment exécuter et affiner
Exécutez et affinez Mistral Devstral 1.1, y compris Small-2507 et 2505.
Devstral-Small-2507 (Devstral 1.1) est le nouveau LLM agentif de Mistral pour l'ingénierie logicielle. Il excelle dans l'appel d'outils, l'exploration de bases de code et l'alimentation d'agents de codage. Mistral AI a publié la version originale 2505 en mai 2025.
Affiné à partir de Mistral-Small-3.1, Devstral prend en charge une fenêtre de contexte de 128k. Devstral Small 1.1 a des performances améliorées, atteignant un score de 53,6 % de performance sur SWE-bench vérifié, en faisant (10 juillet 2025) le modèle open n°1 sur le benchmark.
Les GGUFs Unsloth Devstral 1.1 contiennent des fonctionnalités d'appel d'outils et corrections de modèle de chat. Devstral 1.1 fonctionne toujours bien avec OpenHands mais se généralise maintenant mieux à d'autres invites et environnements de codage.
En tant que modèle texte uniquement, l'encodeur de vision de Devstral a été retiré avant l'affinage. Nous avons ajouté prise en charge Vision optionnelle pour le modèle.
Nous avons également travaillé en coulisses avec Mistral pour aider à déboguer, tester et corriger d'éventuels bugs et problèmes ! Assurez-vous de télécharger les versions officielles de Mistral ou les GGUFs d'Unsloth / quantifications dynamiques pour obtenir la implémentation correcte (c.-à-d. prompt système correct, modèle de chat correct, etc.)
Veuillez utiliser --jinja dans llama.cpp pour activer le prompt système !
Toutes les mises en ligne de Devstral utilisent notre méthodologie Dynamic 2.0 méthodologie Unsloth, offrant les meilleures performances sur les benchmarks MMLU 5-shot et KL Divergence. Cela signifie que vous pouvez exécuter et affiner des Mistral LLM quantifiés avec une perte d'exactitude minimale !
Devstral - Quantifications Dynamiques Unsloth quants :
🖥️ Exécution de Devstral
⚙️ Paramètres officiels recommandés
Selon Mistral AI, voici les paramètres recommandés pour l'inférence :
Température de 0,0 à 0,15
Min_P de 0,01 (optionnel, mais 0,01 fonctionne bien, la valeur par défaut de llama.cpp est 0,1)
Utilisez
--jinjapour activer le prompt système.
Un prompt système est recommandé, et est un dérivé du prompt système d'Open Hands. Le prompt système complet est fourni ici.
Nos mises en ligne dynamiques ont le préfixe 'UD'. Celles qui n'en ont pas ne sont pas dynamiques mais utilisent quand même notre jeu de données d'étalonnage.
🦙 Tutoriel : Comment exécuter Devstral dans Ollama
Installer
ollamasi vous ne l’avez pas encore fait !
Exécutez le modèle avec notre quantification dynamique. Notez que vous pouvez appeler
ollama serve &dans un autre terminal si cela échoue ! Nous incluons tous les paramètres suggérés (température, etc.) dansparamsdans notre upload Hugging Face !De plus Devstral prend en charge des longueurs de contexte 128K, il est donc préférable d'activer quantification du cache KV. Nous utilisons la quantification 8 bits qui permet d'économiser 50 % de mémoire. Vous pouvez aussi essayer
"q4_0"
📖 Tutoriel : Comment exécuter Devstral dans llama.cpp
Obtenez la dernière
llama.cppsur GitHub ici. Vous pouvez aussi suivre les instructions de compilation ci-dessous. Changez-DGGML_CUDA=ONen-DGGML_CUDA=OFFsi vous n'avez pas de GPU ou si vous voulez simplement de l'inférence CPU. Pour les appareils Apple Mac / Metal, définissez-DGGML_CUDA=OFFpuis continuez comme d'habitude - le support Metal est activé par défaut.
Si vous voulez utiliser
llama.cppdirectement pour charger des modèles, vous pouvez faire ce qui suit : (:Q4_K_XL) est le type de quantification. Vous pouvez aussi télécharger via Hugging Face (point 3). C’est similaire àollama run
OU téléchargez le modèle via (après avoir installé
pip install huggingface_hub hf_transfer). Vous pouvez choisir Q4_K_M, ou d’autres versions quantifiées (comme la précision complète BF16).
Exécutez le modèle.
Modifier
--threads -1pour le nombre maximal de threads CPU,--ctx-size 131072pour la longueur de contexte (Devstral supporte une longueur de contexte de 128K !),--n-gpu-layers 99pour le déchargement GPU sur combien de couches. Essayez de l'ajuster si votre GPU manque de mémoire. Retirez-le aussi si vous faites de l'inférence uniquement CPU. Nous utilisons également la quantification 8 bits pour le cache K afin de réduire l'utilisation mémoire.Pour le mode conversation :
Pour le mode non conversationnel pour tester notre invite Flappy Bird :
N'oubliez pas de supprimer <bos> puisque Devstral ajoute automatiquement un <bos> ! Utilisez aussi --jinja pour activer le prompt système !
👀Prise en charge Vision expérimentale
Xuan-Son de Hugging Face a montré dans leur dépôt GGUF comment il est en fait possible de « greffer » l'encodeur de vision de Mistral 3.1 Instruct sur Devstral 2507. Nous avons aussi téléversé nos fichiers mmproj qui vous permettent d'utiliser ce qui suit :
Par exemple :


🦥 Affinage de Devstral avec Unsloth
Tout comme les modèles Mistral standard y compris Mistral Small 3.1, Unsloth prend en charge l'affinage de Devstral. L'entraînement est 2x plus rapide, utilise 70 % de VRAM en moins et prend en charge des longueurs de contexte 8x plus longues. Devstral tient confortablement dans un GPU L4 de 24 Go de VRAM.
Malheureusement, Devstral dépasse légèrement les limites mémoire d'un VRAM de 16 Go, donc l'affinage gratuit sur Google Colab n'est pas possible pour l'instant. Cependant, vous pouvez affiner le modèle gratuitement en utilisant notre carnet Kaggle, qui offre l'accès à des GPU doubles. Changez simplement le nom du modèle Magistral du notebook pour le modèle Devstral.
Si vous avez une ancienne version d’Unsloth et/ou affinez localement, installez la dernière version d’Unsloth :
Mis à jour
Ce contenu vous a-t-il été utile ?

