💥Magistral : comment exécuter et fine-tuner

Découvrez Magistral - les nouveaux modèles de raisonnement de Mistral.

Magistral-Small-2509 est un LLM de raisonnement développé par Mistral AI. Il excelle en codage et en mathématiques et prend en charge plusieurs langues. Magistral prend en charge une fenêtre de contexte de 128k jetons et a été affiné à partir de Mistral-Small-3.2. Magistral fonctionne parfaitement localement sur un seul RTX 4090 ou sur un Mac avec 16 à 24 Go de RAM.

Tutoriel pour exécuter Magistral Affiner Magistral

Tous les téléchargements utilisent Unsloth Dynamic 2.0 pour des performances SOTA en MMLU 5-shot et en divergence KL, ce qui signifie que vous pouvez exécuter et affiner des LLM Mistral quantifiés avec une perte d’exactitude minimale.

Magistral-Small - Unsloth dynamique fichiers :

🖥️ Exécution de Magistral

⚙️ Paramètres officiels recommandés

Selon Mistral AI, voici les paramètres recommandés pour l’inférence :

  • Température de : 0.7

  • Min_P de : 0.01 (facultatif, mais 0.01 fonctionne bien, la valeur par défaut de llama.cpp est 0.1)

  • Réglez top_p à : 0.95

  • Une fenêtre de contexte de 128k est prise en charge, mais les performances peuvent se dégrader au-delà de 40k. Nous recommandons donc de régler la longueur maximale à 40k si vous constatez de mauvaises performances.

Voici le prompt système recommandé pour Magistral 2509, 2507 :

Voici le prompt système recommandé pour Magistral 2506 :

  • Multilingue : Magistral prend en charge de nombreuses langues, notamment : l’anglais, le français, l’allemand, le grec, l’hindi, l’indonésien, l’italien, le japonais, le coréen, le malais, le népalais, le polonais, le portugais, le roumain, le russe, le serbe, l’espagnol, le suédois, le turc, l’ukrainien, le vietnamien, l’arabe, le bengali, le chinois et le farsi.

Tester le modèle

Mistral a ses propres prompts de vérification du style qui peuvent être utilisés pour évaluer Magistral. Gardez à l’esprit que ces tests sont basés sur l’exécution de la version complète non quantifiée du modèle ; cependant, vous pouvez également les tester sur des versions quantifiées :

Facile - Assurez-vous qu’ils fonctionnent toujours

Moyen - Doit être correct la plupart du temps

Difficile - Doit parfois trouver la bonne réponse

Nous fournissons quelques exemples de sorties à la fin du billet de blog.

🦙 Tutoriel : comment exécuter Magistral dans Ollama

  1. Installez ollama si vous ne l’avez pas déjà fait !

  1. Exécutez le modèle avec notre quantification dynamique. Nous n’avons pas défini automatiquement la longueur du contexte, il utilisera donc simplement la longueur de contexte par défaut définie par Ollama. Notez que vous pouvez appeler ollama serve &dans un autre terminal si cela échoue ! Nous incluons tous les paramètres suggérés (température, etc.) dans params dans notre téléchargement Hugging Face !

  2. Magistral prend aussi en charge des longueurs de contexte de 40K, il est donc préférable d’activer la quantification du cache KV. Nous utilisons une quantification 8 bits qui économise 50 % d’utilisation mémoire. Vous pouvez aussi essayer "q4_0" ou "q8_0"

  3. Ollama définit également la longueur de contexte par défaut à 4096, comme mentionné ici. Utilisez OLLAMA_CONTEXT_LENGTH=8192 pour la changer à 8192. Magistral prend en charge jusqu’à 128K, mais 40K (40960) est le plus testé.

📖 Tutoriel : comment exécuter Magistral dans llama.cpp

  1. Obtenez la dernière version llama.cpp sur GitHub ici. Vous pouvez également suivre les instructions de compilation ci-dessous. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n’avez pas de GPU ou si vous souhaitez simplement une inférence CPU. Pour les appareils Apple Mac / Metal, définissez -DGGML_CUDA=OFF puis continuez comme d'habitude - la prise en charge de Metal est activée par défaut.

  1. Si vous souhaitez utiliser llama.cpp directement pour charger les modèles, vous pouvez faire ce qui suit : (:Q4_K_XL) est le type de quantification. Vous pouvez aussi télécharger via Hugging Face (point 3). C’est similaire à ollama run

  1. OU télécharger le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir UD-Q4_K_XL, (Unsloth Dynamic), Q4_K_M, ou d’autres versions quantifiées (comme la précision complète BF16).

  1. Exécutez le modèle.

  2. Modifier --threads -1 pour le nombre maximal de threads CPU, --ctx-size 40960 pour la longueur du contexte (Magistral prend en charge une longueur de contexte de 40K !), --n-gpu-layers 99 pour l’offload GPU selon le nombre de couches. Essayez d’ajuster ce paramètre si votre GPU manque de mémoire. Supprimez-le également si vous n’effectuez l’inférence que sur CPU. Nous utilisons aussi une quantification 8 bits pour le cache K afin de réduire l’utilisation mémoire.

  3. En mode conversation :

Exemples de sorties

Combien de "r" y a-t-il dans strawberry ? [Réponse correcte = 3]
Combien de jours exactement se sont écoulés depuis le début de la Révolution française ? Aujourd’hui, nous sommes le 4 juin 2025. [Réponse correcte = 86 157 jours]

👁️ Support vision

Pour les versions de Magistral antérieures à septembre 2025, Xuan-Son de HuggingFace a montré dans son dépôt GGUF qu’il est en fait possible de « greffer » l’encodeur vision de Mistral 3.1 Instruct sur Devstral, ce qui signifie que vous pourriez faire de même pour Magistral ! D’après nos tests et ceux de nombreux utilisateurs, cela fonctionne plutôt bien ! Nous avons également mis en ligne nos fichiers mmproj, ce qui vous permet d’utiliser ce qui suit :

🦥 Fine-tuning de Magistral avec Unsloth

Tout comme les modèles Mistral standards, y compris Mistral Small 3.1, Unsloth prend en charge le fine-tuning de Magistral. L’entraînement est 2x plus rapide, utilise 70 % de VRAM en moins et prend en charge des contextes 8x plus longs. Magistral tient confortablement dans une GPU L4 de 24 Go de VRAM.

Magistral dépasse légèrement les limites mémoire d’une VRAM de 16 Go, donc il n’est pas possible pour l’instant de le fine-tuner gratuitement sur Google Colab. Cependant, vous pouvez pouvez fine-tuner le modèle gratuitement en utilisant Kaggle, qui offre l’accès à deux GPU.

Pour fine-tuner sur de nouvelles traces de raisonnement, vous pouvez utiliser gratuitement notre notebook Kaggle pour Magistral

Si vous avez une ancienne version d’Unsloth et/ou que vous effectuez un affinage localement, installez la dernière version d’Unsloth :

💠Points de contrôle Float8 dynamiques

Nous fournissons également 2 formats populaires pour les points de contrôle float8, qui utilisent aussi une partie de notre méthodologie dynamique pour conserver une précision maximale :

Les deux sont fantastiques à déployer via vLLM. Consultez l’utilisation des quants FP8 basés sur TorchAO dans vLLM ici.

Mis à jour

Ce contenu vous a-t-il été utile ?