💥Magistral : Comment exécuter & affiner

Découvrez Magistral - les nouveaux modèles de raisonnement de Mistral.

Magistral-Small-2509 est un LLM de raisonnement développé par Mistral AI. Il excelle en codage et en mathématiques et prend en charge plusieurs langues. Magistral supporte une fenêtre de contexte de 128k tokens et a été affiné à partir de Mistral-Small-3.2arrow-up-right. Magistral fonctionne parfaitement en local sur une seule RTX 4090 ou un Mac avec 16 à 24 Go de RAM.

Tutoriel d'exécution de Magistral Fine-tuning de Magistral

circle-check

Tous les téléversements utilisent Unsloth Dynamic 2.0 pour des performances SOTA en MMLU 5-shot et divergence KL, ce qui signifie que vous pouvez exécuter et affiner des LLMs Mistral quantifiés avec une perte d'exactitude minimale.

Magistral-Small - Unsloth Dynamic uploads:

🖥️ Exécution de Magistral

⚙️ Paramètres recommandés officiels

Selon Mistral AI, voici les paramètres recommandés pour l'inférence :

  • Température de : 0,7

  • Min_P de : 0,01 (optionnel, mais 0,01 fonctionne bien, la valeur par défaut de llama.cpp est 0,1)

  • Réglez top_p à : 0,95

  • Une fenêtre de contexte de 128k est prise en charge, mais les performances peuvent se dégrader au-delà de 40k . Nous recommandons donc de définir la longueur maximale à 40k si vous observez de mauvaises performances.

Ceci est le prompt système recommandé pour Magistral 2509, 2507 :

Ceci est le prompt système recommandé pour Magistral 2506 :

circle-check
  • Multilingue : Magistral prend en charge de nombreuses langues, notamment : anglais, français, allemand, grec, hindi, indonésien, italien, japonais, coréen, malais, népalais, polonais, portugais, roumain, russe, serbe, espagnol, suédois, turc, ukrainien, vietnamien, arabe, bengali, chinois et farsi.

Test du modèle

Mistral a ses propres prompts de vibe checking qui peuvent être utilisés pour évaluer Magistral. Gardez à l'esprit que ces tests sont basés sur l'exécution de la version complète non quantifiée du modèle, cependant vous pouvez aussi les tester sur des versions quantifiées :

Facile - Assurez-vous qu'ils fonctionnent toujours

Moyen - Doit être correct la plupart du temps

Difficile - Devrait parfois les résoudre correctement

Nous fournissons quelques exemples de sorties à la fin du blog.

🦙 Tutoriel : Comment exécuter Magistral dans Ollama

  1. Installez ollama si vous ne l'avez pas encore fait !

  1. Exécutez le modèle avec notre quant dynamique. Nous n'avons pas défini automatiquement la longueur du contexte, il utilisera donc la longueur de contexte par défaut d'Ollama. Notez que vous pouvez appeler ollama serve &dans un autre terminal s'il plante ! Nous incluons tous les paramètres suggérés (température etc.) dans params dans notre téléversement Hugging Face !

  2. Magistral prend également en charge des longueurs de contexte de 40K, il est donc préférable d'activer la quantification du cache KVarrow-up-right. Nous utilisons une quantification en 8 bits qui économise 50% de mémoire. Vous pouvez aussi essayer "q4_0" ou "q8_0"

  3. Ollama définit aussi la longueur de contexte par défaut à 4096, comme mentionné iciarrow-up-right. Utilisez OLLAMA_CONTEXT_LENGTH=8192 pour la changer à 8192. Magistral prend en charge jusqu'à 128K, mais 40K (40960) est le plus testé.

📖 Tutoriel : Comment exécuter Magistral dans llama.cpp

  1. Obtenez le dernier llama.cpp sur GitHub iciarrow-up-right. Vous pouvez suivre les instructions de compilation ci-dessous également. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU ou si vous voulez simplement une inférence CPU.

  1. Si vous voulez utiliser llama.cpp directement pour charger des modèles, vous pouvez faire ce qui suit : (:Q4_K_XL) est le type de quantification. Vous pouvez aussi télécharger via Hugging Face (point 3). Ceci est similaire à ollama run

circle-exclamation
  1. OU télécharger le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir UD-Q4_K_XL, (Unsloth Dynamic), Q4_K_M, ou d'autres versions quantifiées (comme BF16 en précision complète).

  1. Exécutez le modèle.

  2. éditer --threads -1 pour le maximum de threads CPU, --ctx-size 40960 pour la longueur de contexte (Magistral prend en charge une longueur de contexte de 40K !), --n-gpu-layers 99 pour le déchargement GPU sur combien de couches. Essayez de l'ajuster si votre GPU manque de mémoire. Retirez-le aussi si vous n'avez que de l'inférence CPU. Nous utilisons également une quantification en 8 bits pour le cache K afin de réduire l'utilisation mémoire.

  3. Pour le mode conversation :

circle-exclamation

Exemples de sorties

chevron-rightCombien de "r" y a-t-il dans strawberry ? [Réponse correcte = 3]hashtag
chevron-right(Fin)hashtag

👁Support Vision

circle-check

Pour les versions de Magistral antérieures à septembre 2025, Xuan-Sonarrow-up-right depuis HuggingFace indiquaient dans leur dépôt GGUFarrow-up-right comment il est en fait possible de « greffer » l'encodeur vision de Mistral 3.1 Instruct sur Devstral ce qui signifie que vous pourriez faire la même chose pour Magistral ! D'après nos tests et de nombreux utilisateurs, cela fonctionne plutôt bien ! Nous avons également téléchargé nos fichiers mmproj qui vous permettent d'utiliser ce qui suit :

🦥 Affinage (fine-tuning) de Magistral avec Unsloth

Tout comme les modèles Mistral standards, y compris Mistral Small 3.1, Unsloth prend en charge le fine-tuning de Magistral. L'entraînement est 2x plus rapide, utilise 70 % de VRAM en moins et prend en charge des longueurs de contexte 8x supérieures. Magistral tient confortablement dans un GPU L4 de 24 Go de VRAM.

Magistral dépasse légèrement les limites mémoire d'une VRAM de 16 Go, donc le fine-tuning gratuit sur Google Colab n'est pas possible pour l'instant. Cependant, vous pouvez pouvez affiner le modèle gratuitement en utilisant Kagglearrow-up-right, qui offre l'accès à des GPU doubles.

Pour affiner sur de nouvelles traces de raisonnement, vous pouvez utiliser notre notebook Kaggle gratuit pour Magistralarrow-up-right

Si vous avez une ancienne version d'Unsloth et/ou si vous effectuez le fine-tuning localement, installez la dernière version d'Unsloth :

💠Points de contrôle Dynamic Float8

Nous fournissons également 2 formats populaires pour les points de contrôle float8, qui utilisent aussi une partie de notre méthodologie dynamique pour conserver une précision maximale :

Les deux sont fantastiques à déployer via vLLM. Lisez la documentation sur l'utilisation des quantifications FP8 basées sur TorchAO dans vLLM iciarrow-up-right.

Mis à jour

Ce contenu vous a-t-il été utile ?