📙Devstral : Comment exécuter et affiner

Exécutez et affinez Mistral Devstral 1.1, y compris Small-2507 et 2505.

Devstral-Small-2507 (Devstral 1.1) est le nouveau LLM agentif de Mistral pour l'ingénierie logicielle. Il excelle dans l'appel d'outils, l'exploration de bases de code et l'alimentation d'agents de codage. Mistral AI a publié la version originale 2505 en mai 2025.

Affiné à partir de Mistral-Small-3.1arrow-up-right, Devstral prend en charge une fenêtre de contexte de 128k. Devstral Small 1.1 a des performances améliorées, atteignant un score de 53,6 % de performance sur SWE-bench vérifiéarrow-up-right, en faisant (10 juillet 2025) le modèle open n°1 sur le benchmark.

Les GGUFs Unsloth Devstral 1.1 contiennent des fonctionnalités d'appel d'outils et corrections de modèle de chat. Devstral 1.1 fonctionne toujours bien avec OpenHands mais se généralise maintenant mieux à d'autres invites et environnements de codage.

En tant que modèle texte uniquement, l'encodeur de vision de Devstral a été retiré avant l'affinage. Nous avons ajouté prise en charge Vision optionnelle pour le modèle.

circle-check

Toutes les mises en ligne de Devstral utilisent notre méthodologie Dynamic 2.0 méthodologie Unsloth, offrant les meilleures performances sur les benchmarks MMLU 5-shot et KL Divergence. Cela signifie que vous pouvez exécuter et affiner des Mistral LLM quantifiés avec une perte d'exactitude minimale !

Devstral - Quantifications Dynamiques Unsloth quants :

🖥️ Exécution de Devstral

⚙️ Paramètres officiels recommandés

Selon Mistral AI, voici les paramètres recommandés pour l'inférence :

  • Température de 0,0 à 0,15

  • Min_P de 0,01 (optionnel, mais 0,01 fonctionne bien, la valeur par défaut de llama.cpp est 0,1)

  • Utilisez --jinja pour activer le prompt système.

Un prompt système est recommandé, et est un dérivé du prompt système d'Open Hands. Le prompt système complet est fourni iciarrow-up-right.

circle-check

🦙 Tutoriel : Comment exécuter Devstral dans Ollama

  1. Installer ollama si vous ne l’avez pas encore fait !

  1. Exécutez le modèle avec notre quantification dynamique. Notez que vous pouvez appeler ollama serve &dans un autre terminal si cela échoue ! Nous incluons tous les paramètres suggérés (température, etc.) dans params dans notre upload Hugging Face !

  2. De plus Devstral prend en charge des longueurs de contexte 128K, il est donc préférable d'activer quantification du cache KVarrow-up-right. Nous utilisons la quantification 8 bits qui permet d'économiser 50 % de mémoire. Vous pouvez aussi essayer "q4_0"

📖 Tutoriel : Comment exécuter Devstral dans llama.cpp

  1. Obtenez la dernière llama.cpp sur GitHub iciarrow-up-right. Vous pouvez aussi suivre les instructions de compilation ci-dessous. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU ou si vous voulez simplement de l'inférence CPU. Pour les appareils Apple Mac / Metal, définissez -DGGML_CUDA=OFF puis continuez comme d'habitude - le support Metal est activé par défaut.

  1. Si vous voulez utiliser llama.cpp directement pour charger des modèles, vous pouvez faire ce qui suit : (:Q4_K_XL) est le type de quantification. Vous pouvez aussi télécharger via Hugging Face (point 3). C’est similaire à ollama run

  1. OU téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir Q4_K_M, ou d’autres versions quantifiées (comme la précision complète BF16).

  1. Exécutez le modèle.

  2. Modifier --threads -1 pour le nombre maximal de threads CPU, --ctx-size 131072 pour la longueur de contexte (Devstral supporte une longueur de contexte de 128K !), --n-gpu-layers 99 pour le déchargement GPU sur combien de couches. Essayez de l'ajuster si votre GPU manque de mémoire. Retirez-le aussi si vous faites de l'inférence uniquement CPU. Nous utilisons également la quantification 8 bits pour le cache K afin de réduire l'utilisation mémoire.

  3. Pour le mode conversation :

  1. Pour le mode non conversationnel pour tester notre invite Flappy Bird :

triangle-exclamation

👀Prise en charge Vision expérimentale

Xuan-Sonarrow-up-right de Hugging Face a montré dans leur dépôt GGUFarrow-up-right comment il est en fait possible de « greffer » l'encodeur de vision de Mistral 3.1 Instruct sur Devstral 2507. Nous avons aussi téléversé nos fichiers mmproj qui vous permettent d'utiliser ce qui suit :

Par exemple :

Instruction et code de sortie
Code rendu

🦥 Affinage de Devstral avec Unsloth

Tout comme les modèles Mistral standard y compris Mistral Small 3.1, Unsloth prend en charge l'affinage de Devstral. L'entraînement est 2x plus rapide, utilise 70 % de VRAM en moins et prend en charge des longueurs de contexte 8x plus longues. Devstral tient confortablement dans un GPU L4 de 24 Go de VRAM.

Malheureusement, Devstral dépasse légèrement les limites mémoire d'un VRAM de 16 Go, donc l'affinage gratuit sur Google Colab n'est pas possible pour l'instant. Cependant, vous pouvez affiner le modèle gratuitement en utilisant notre carnet Kagglearrow-up-right, qui offre l'accès à des GPU doubles. Changez simplement le nom du modèle Magistral du notebook pour le modèle Devstral.

Si vous avez une ancienne version d’Unsloth et/ou affinez localement, installez la dernière version d’Unsloth :

Mis à jour

Ce contenu vous a-t-il été utile ?