💥Magistral : Comment exécuter et affiner

Découvrez Magistral - les nouveaux modèles de raisonnement de Mistral.

Magistral-Small-2509 est un LLM de raisonnement développé par Mistral AI. Il excelle en codage et en mathématiques et prend en charge plusieurs langues. Magistral supporte une fenêtre de contexte de 128k tokens et a été affiné à partir de Mistral-Small-3.2arrow-up-right. Magistral fonctionne parfaitement en local sur une seule RTX 4090 ou sur un Mac avec 16 à 24 Go de RAM.

Tutoriel : Exécuter Magistral Fine-tuning de Magistral

circle-check

Tous les téléchargements utilisent Unsloth méthodologie Dynamic 2.0 pour des performances SOTA sur MMLU en 5-shot et la divergence KL, ce qui signifie que vous pouvez exécuter et affiner des LLM Mistral quantifiés avec une perte de précision minimale.

Magistral-Small - Unsloth Dynamic uploads :

🖥️ Exécution de Magistral

⚙️ Paramètres officiels recommandés

Selon Mistral AI, voici les paramètres recommandés pour l'inférence :

  • Température de : 0,7

  • Min_P de : 0,01 (optionnel, mais 0,01 fonctionne bien, la valeur par défaut de llama.cpp est 0,1)

  • Réglez top_p à : 0,95

  • Une fenêtre de contexte de 128k est prise en charge, mais les performances peuvent se dégrader au-delà de 40k. Nous recommandons donc de définir la longueur maximale à 40k si vous constatez de mauvaises performances.

Ceci est le prompt système recommandé pour Magistral 2509, 2507 :

Ceci est le prompt système recommandé pour Magistral 2506 :

circle-check
  • Multilingue : Magistral prend en charge de nombreuses langues, y compris : anglais, français, allemand, grec, hindi, indonésien, italien, japonais, coréen, malais, népalais, polonais, portugais, roumain, russe, serbe, espagnol, suédois, turc, ukrainien, vietnamien, arabe, bengali, chinois et farsi.

Tester le modèle

Mistral a ses propres prompts de vérification (vibe checking) qui peuvent être utilisés pour évaluer Magistral. Gardez à l'esprit que ces tests sont basés sur l'exécution de la version complète non quantifiée du modèle, cependant vous pouvez aussi les tester sur des versions quantifiées :

Facile - Assurez-vous qu'ils fonctionnent toujours

Moyen - Devrait être correct la plupart du temps

Difficile - Devrait parfois les obtenir correctement

Nous fournissons quelques exemples de sorties à la fin du blog.

🦙 Tutoriel : Comment exécuter Magistral dans Ollama

  1. Installer ollama si vous ne l’avez pas encore fait !

  1. Exécutez le modèle avec notre quantification dynamique. Nous n'avons pas défini automatiquement la longueur du contexte, il utilisera donc simplement la longueur de contexte par défaut d'Ollama. Notez que vous pouvez appeler ollama serve &dans un autre terminal si cela échoue ! Nous incluons tous les paramètres suggérés (température, etc.) dans params dans notre upload Hugging Face !

  2. Magistral prend également en charge des longueurs de contexte de 40K, il est donc préférable d'activer quantification du cache KVarrow-up-right. Nous utilisons la quantification 8 bits qui permet d'économiser 50 % de mémoire. Vous pouvez aussi essayer "q4_0" ou "q8_0"

  3. Ollama définit également la longueur de contexte par défaut à 4096, comme mentionné iciarrow-up-right. Utilisez OLLAMA_CONTEXT_LENGTH=8192 pour la changer à 8192. Magistral prend en charge jusqu'à 128K, mais 40K (40960) est le plus testé.

📖 Tutoriel : Comment exécuter Magistral dans llama.cpp

  1. Obtenez la dernière llama.cpp sur GitHub iciarrow-up-right. Vous pouvez aussi suivre les instructions de compilation ci-dessous. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU ou si vous voulez simplement de l'inférence CPU. Pour les appareils Apple Mac / Metal, définissez -DGGML_CUDA=OFF puis continuez comme d'habitude - le support Metal est activé par défaut.

  1. Si vous voulez utiliser llama.cpp directement pour charger des modèles, vous pouvez faire ce qui suit : (:Q4_K_XL) est le type de quantification. Vous pouvez aussi télécharger via Hugging Face (point 3). C’est similaire à ollama run

circle-exclamation
  1. OU téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir UD-Q4_K_XL (Unsloth Dynamic), Q4_K_M, ou d'autres versions quantifiées (comme BF16 pleine précision).

  1. Exécutez le modèle.

  2. Modifier --threads -1 pour le nombre maximal de threads CPU, --ctx-size 40960 pour la longueur de contexte (Magistral prend en charge une longueur de contexte de 40K !), --n-gpu-layers 99 pour le déchargement GPU sur combien de couches. Essayez de l'ajuster si votre GPU manque de mémoire. Retirez-le aussi si vous faites de l'inférence uniquement CPU. Nous utilisons également la quantification 8 bits pour le cache K afin de réduire l'utilisation mémoire.

  3. Pour le mode conversation :

circle-exclamation

Exemples de sorties

chevron-rightCombien de "r" y a-t-il dans strawberry ? [Réponse correcte = 3]hashtag
chevron-right0hashtag

circle-check

Xuan-Sonarrow-up-right dépôt GGUFarrow-up-right

pouvez arrow-up-right

arrow-up-right

Si vous avez une ancienne version d’Unsloth et/ou affinez localement, installez la dernière version d’Unsloth :

💠

iciarrow-up-right.

Mis à jour

Ce contenu vous a-t-il été utile ?