📙Devstral : Comment exécuter & affiner

Exécutez et affinez Mistral Devstral 1.1, y compris Small-2507 et 2505.

Devstral-Small-2507 (Devstral 1.1) est le nouveau LLM agentif de Mistral pour l'ingénierie logicielle. Il excelle dans l'appel d'outils, l'exploration de bases de code et l'alimentation d'agents de codage. Mistral AI a publié la version originale 2505 en mai 2025.

Affiné à partir de Mistral-Small-3.1arrow-up-right, Devstral prend en charge une fenêtre de contexte de 128k. Devstral Small 1.1 présente des performances améliorées, atteignant un score de 53,6 % sur SWE-bench vérifiéarrow-up-right, faisant de lui (10 juillet 2025) le modèle ouvert n°1 sur le benchmark.

Les GGUFs Unsloth Devstral 1.1 contiennent des soutiens à l'appel d'outils et corrections du template de chat. Devstral 1.1 fonctionne toujours bien avec OpenHands mais se généralise désormais mieux à d'autres invites et environnements de codage.

En tant que modèle texte uniquement, l'encodeur de vision de Devstral a été retiré avant l'affinage. Nous avons ajouté un support Vision optionnel pour le modèle.

circle-check

Tous les téléversements Devstral utilisent notre Dynamic 2.0 méthodologie Unsloth, offrant les meilleures performances sur les benchmarks MMLU 5-shot et KL Divergence. Cela signifie que vous pouvez exécuter et affiner des LLMs Mistral quantifiés avec une perte d'exactitude minimale !

Devstral - Quants dynamiques Unsloth :

🖥️ Exécuter Devstral

⚙️ Paramètres officiels recommandés

Selon Mistral AI, voici les paramètres recommandés pour l'inférence :

  • Température de 0.0 à 0.15

  • Min_P de 0,01 (optionnel, mais 0,01 fonctionne bien, la valeur par défaut de llama.cpp est 0,1)

  • Utilisez --jinja pour activer l'invite système.

Une invite système est recommandée, et est dérivée de l'invite système d'Open Hands. L'invite système complète est fournie iciarrow-up-right.

circle-check

🦙 Tutoriel : Comment exécuter Devstral dans Ollama

  1. Installez ollama si vous ne l'avez pas encore fait !

  1. Exécutez le modèle avec notre quantification dynamique. Notez que vous pouvez appeler ollama serve &dans un autre terminal s'il plante ! Nous incluons tous les paramètres suggérés (température etc.) dans params dans notre téléversement Hugging Face !

  2. De plus, Devstral prend en charge des longueurs de contexte de 128K, il est donc préférable d'activer la quantification du cache KVarrow-up-right. Nous utilisons une quantification en 8 bits qui économise 50% de mémoire. Vous pouvez aussi essayer "q4_0"

📖 Tutoriel : Comment exécuter Devstral dans llama.cpp

  1. Obtenez le dernier llama.cpp sur GitHub iciarrow-up-right. Vous pouvez suivre les instructions de compilation ci-dessous également. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU ou si vous voulez simplement une inférence CPU.

  1. Si vous voulez utiliser llama.cpp directement pour charger des modèles, vous pouvez faire ce qui suit : (:Q4_K_XL) est le type de quantification. Vous pouvez aussi télécharger via Hugging Face (point 3). Ceci est similaire à ollama run

  1. OU télécharger le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir Q4_K_M, ou d'autres versions quantifiées (comme BF16 pleine précision).

  1. Exécutez le modèle.

  2. éditer --threads -1 pour le maximum de threads CPU, --ctx-size 131072 pour la longueur de contexte (Devstral prend en charge une longueur de contexte de 128K !), --n-gpu-layers 99 pour le déchargement GPU sur combien de couches. Essayez de l'ajuster si votre GPU manque de mémoire. Retirez-le aussi si vous n'avez que de l'inférence CPU. Nous utilisons également une quantification en 8 bits pour le cache K afin de réduire l'utilisation mémoire.

  3. Pour le mode conversation :

  1. Pour le mode non conversationnel pour tester notre invite Flappy Bird :

triangle-exclamation

👀Support Vision expérimental

Xuan-Sonarrow-up-right de Hugging Face a montré dans leur dépôt GGUFarrow-up-right comment il est en fait possible de « greffer » l'encodeur de vision de Mistral 3.1 Instruct sur Devstral 2507. Nous avons également téléversé nos fichiers mmproj qui vous permettent d'utiliser ce qui suit :

Par exemple :

Instruction et code de sortie
Code rendu

🦥 Affinage de Devstral avec Unsloth

Tout comme les modèles Mistral standard, y compris Mistral Small 3.1, Unsloth prend en charge l'affinage de Devstral. L'entraînement est 2x plus rapide, utilise 70% de VRAM en moins et prend en charge des longueurs de contexte 8x plus longues. Devstral tient confortablement dans un GPU L4 avec 24 Go de VRAM.

Malheureusement, Devstral dépasse légèrement les limites de mémoire d'un GPU de 16 Go de VRAM, donc l'affinage gratuit sur Google Colab n'est pas possible pour l'instant. Cependant, vous pouvez affiner le modèle gratuitement en utilisant notre carnet Kagglearrow-up-right, qui offre l'accès à des GPU doubles. Changez simplement le nom du modèle Magistral du notebook pour celui du modèle Devstral.

Si vous avez une ancienne version d'Unsloth et/ou si vous effectuez le fine-tuning localement, installez la dernière version d'Unsloth :

Mis à jour

Ce contenu vous a-t-il été utile ?