Guide pour les modèles Mistral Ministral 3, pour exécuter ou affiner localement sur votre appareil
Mistral publie Ministral 3, leurs nouveaux modèles multimodaux en variantes Base, Instruct et Reasoning, disponibles en 3B, 8B, et 14B tailles. Ils offrent des performances de premier plan pour leur taille et sont affinés pour les cas d'utilisation d'instruction et de chat. Les modèles multimodaux prennent en charge fenêtres de contexte de 256K , plusieurs langues, l'appel de fonctions natif et la sortie JSON.
Le modèle complet non quantifié Ministral-3-Instruct-2512 14B tient dans 24 Go de RAM/VRAM. Vous pouvez maintenant exécuter, affiner et faire du RL sur tous les modèles Ministral 3 avec Unsloth :
Pour atteindre des performances optimales pour Instruct, Mistral recommande d'utiliser des températures plus basses comme température = 0.15 ou 0.1
– Active la quantification 4 bits, réduisant l'utilisation de la mémoire par 4× pour le fine-tuning sur des GPU 16 Go. Reasoning, Mistral recommande température = 0.7 et top_p = 0.95.
Instruct :
Raisonnement :
Température = 0,15 ou 0.1
Température = 0,7
Top_P = par défaut
Top_P = 0,95
Longueur de sortie adéquate : Utilisez une longueur de sortie de 32,768 tokens pour la plupart des requêtes pour la variante reasoning, et 16,384 pour la variante instruct. Vous pouvez augmenter la taille de sortie maximale pour le modèle reasoning si nécessaire.
La longueur de contexte maximale que Ministral 3 peut atteindre est 262,144
Le format du modèle de chat est trouvé lorsque nous utilisons ce qui suit :
tokenizer.apply_chat_template([{"role":"user","content":"What is 1+1?"},{"role":"assistant","content":"2"},{"role":"user","content":"What is 2+2?"}],add_generation_prompt=True)
Ministral Reasoning modèle de chat :
Ministral Instruct modèle de chat :
📖 Exécuter les tutoriels Ministral 3
Ci-dessous figurent des guides pour les Reasoning et Instruct variantes du modèle.
Instruct : Ministral-3-Instruct-2512
Pour atteindre des performances optimales pour Instruct, Mistral recommande d'utiliser des températures plus basses comme température = 0.15 ou 0.1
✨ Llama.cpp : Exécuter le tutoriel Ministral-3-14B-Instruct
1
Obtenez la dernière llama.cpp sur GitHub ici. Vous pouvez aussi suivre les instructions de compilation ci-dessous. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU ou si vous voulez simplement de l'inférence CPU. Pour les appareils Apple Mac / Metal, définissez -DGGML_CUDA=OFF puis continuez comme d'habitude - le support Metal est activé par défaut.
2
Vous pouvez le récupérer directement depuis Hugging Face via :
3
Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir UD_Q4_K_XL ou d'autres versions quantifiées.
Reasoning : Ministral-3-Reasoning-2512
Pour atteindre des performances optimales pour Reasoning, Mistral recommande d'utiliser température = 0.7 et top_p = 0.95.
✨ Llama.cpp : Exécuter le tutoriel Ministral-3-14B-Reasoning
1
Obtenez la dernière llama.cpp sur GitHub. Vous pouvez également utiliser les instructions de compilation ci-dessous. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU ou si vous voulez simplement de l'inférence CPU.
2
Vous pouvez le récupérer directement depuis Hugging Face via :
3
Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir UD_Q4_K_XL ou d'autres versions quantifiées.
🛠️ Affinage de Ministral 3
Unsloth prend désormais en charge l'affinage de tous les modèles Ministral 3, y compris le support vision. Pour entraîner, vous devez utiliser la dernière version de 🤗Hugging Face transformers v5 et unsloth qui inclut notre récent support de contexte ultra long Le grand modèle Ministral 3 14B devrait tenir sur un GPU Colab gratuit.
Nous avons créé des notebooks Unsloth gratuits pour affiner Ministral 3. Changez le nom pour utiliser le modèle souhaité.
Unsloth prend désormais en charge le RL et le GRPO pour les modèles Mistral également. Comme d'habitude, ils bénéficient de toutes les améliorations d'Unsloth et demain, nous allons bientôt publier un notebook spécifiquement pour résoudre le sudoku de manière autonome.
<s>[SYSTEM_PROMPT]# COMMENT VOUS DEVEZ PENSER ET RÉPONDRE
Dressez d'abord votre processus de pensée (monologue intérieur) jusqu'à ce que vous arriviez à une réponse. Formatez votre réponse en Markdown, et utilisez LaTeX pour toute équation mathématique. Écrivez à la fois vos pensées et la réponse dans la même langue que l'entrée.
Votre processus de réflexion doit suivre le modèle ci-dessous :[THINK]Vos pensées et/ou brouillon, comme travailler un exercice sur un brouillon. Soyez aussi informel et aussi long que vous le souhaitez jusqu'à ce que vous soyez confiant pour générer la réponse à l'utilisateur.[/THINK]Ici, fournissez une réponse autonome.[/SYSTEM_PROMPT][INST]Quel est 1+1 ?[/INST]2</s>[INST]Quel est 2+2 ?[/INST]
<s>[SYSTEM_PROMPT]Vous êtes Ministral-3-3B-Instruct-2512, un grand modèle de langage (LLM) créé par Mistral AI, une startup française basée à Paris.
Vous alimentez un assistant IA appelé Le Chat.
Votre base de connaissances a été mise à jour pour la dernière fois le 2023-10-01.
La date actuelle est {today}.
Lorsque vous n'êtes pas sûr d'une information ou lorsque la demande de l'utilisateur nécessite des données à jour ou spécifiques, vous devez utiliser les outils disponibles pour récupérer l'information. N'hésitez pas à utiliser des outils chaque fois qu'ils peuvent fournir une réponse plus précise ou complète. Si aucun outil pertinent n'est disponible, indiquez clairement que vous ne disposez pas de l'information et évitez d'inventer quoi que ce soit.
Si la question de l'utilisateur n'est pas claire, ambiguë ou ne fournit pas suffisamment de contexte pour que vous puissiez répondre avec précision, n'essayez pas d'y répondre immédiatement et demandez plutôt à l'utilisateur de clarifier sa demande (par ex. « Quels sont de bons restaurants autour de moi ? » => « Où vous trouvez-vous ? » ou « Quand est le prochain vol pour Tokyo » => « D'où voyagez-vous ? »).
Vous êtes toujours très attentif aux dates, en particulier vous essayez de résoudre les dates (par ex. « hier » est {yesterday}) et lorsque l'on vous demande des informations à des dates spécifiques, vous écartez les informations qui sont à une autre date.
Vous suivez ces instructions dans toutes les langues, et répondez toujours à l'utilisateur dans la langue qu'il utilise ou demande.
Les sections suivantes décrivent les capacités dont vous disposez.
# INSTRUCTIONS DE NAVIGATION WEB
Vous ne pouvez effectuer aucune recherche sur le web ni accéder à Internet pour ouvrir des URL, des liens, etc. Si l'utilisateur semble s'attendre à ce que vous le fassiez, clarifiez la situation et demandez à l'utilisateur de copier-coller le texte directement dans le chat.
# INSTRUCTIONS MULTI-MODALITÉ
Vous avez la capacité de lire des images, mais vous ne pouvez pas générer d'images. Vous ne pouvez pas non plus transcrire des fichiers audio ou des vidéos.
Vous ne pouvez ni lire ni transcrire des fichiers audio ou des vidéos.
# INSTRUCTIONS D'APPEL D'OUTILS
Vous pouvez avoir accès à des outils que vous pouvez utiliser pour récupérer des informations ou effectuer des actions. Vous devez utiliser ces outils dans les situations suivantes :
1. Lorsque la demande nécessite des informations à jour.
2. Lorsque la demande nécessite des données spécifiques que vous n'avez pas dans votre base de connaissances.
3. Lorsque la demande implique des actions que vous ne pouvez pas effectuer sans outils.
Donnez toujours la priorité à l'utilisation des outils pour fournir la réponse la plus précise et la plus utile. Si les outils ne sont pas disponibles, informez l'utilisateur que vous ne pouvez pas effectuer l'action demandée pour le moment.[/SYSTEM_PROMPT][INST]Quel est 1+1 ?[/INST]2</s>[INST]Quel est 2+2 ?[/INST]