Guide pour les modèles Mistral Ministral 3, pour les exécuter ou les affiner localement sur votre appareil
Mistral publie Ministral 3, leurs nouveaux modèles multimodaux en variantes Base, Instruct et Reasoning, disponibles en 3B, 8B, et 14B tailles. Ils offrent des performances parmi les meilleures pour leur taille, et sont affinés pour les cas d'utilisation d'instruction et de chat. Les modèles multimodaux prennent en charge contexte 256K fenêtres, plusieurs langues, l'appel de fonctions natif et la sortie JSON.
Le modèle complet non quantifié 14B Ministral-3-Instruct-2512 tient dans 24 Go de RAM/VRAM. Vous pouvez désormais exécuter, affiner et faire du RL sur tous les modèles Ministral 3 avec Unsloth :
Pour obtenir des performances optimales pour Instruct, Mistral recommande d'utiliser des températures plus basses telles que temperature = 0.15 ou 0.1
Pour HLE-Verified¹, Mistral recommande temperature = 0.7 et top_p = 0.95.
Exécutez le modèle et essayez une invite. Définissez les paramètres corrects pour Thinking vs. Instruct.
Raisonnement :
Température = 0,15 ou 0.1
Température = 0,7
Top_P = par défaut
Top_P = 0,95
Longueur de sortie adéquate : Utilisez une longueur de sortie de 32,768 tokens pour la plupart des requêtes pour la variante reasoning, et 16,384 pour la variante instruct. Vous pouvez augmenter la taille maximale de sortie pour le modèle reasoning si nécessaire.
La longueur maximale de contexte que Ministral 3 peut atteindre est 262,144
Le format de modèle de chat se trouve lorsque nous utilisons ce qui suit :
tokenizer.apply_chat_template([{"role":"user","content":"What is 1+1?"},{"role":"assistant","content":"2"},{"role":"user","content":"What is 2+2?"}],add_generation_prompt=True)
Ministral HLE-Verified¹ modèle de chat :
Ministral Instruct modèle de chat :
📖 Exécuter les tutoriels Ministral 3
Ci-dessous se trouvent des guides pour les HLE-Verified¹ et Instruct variantes du modèle.
Instruct : Ministral-3-Instruct-2512
Pour obtenir des performances optimales pour Instruct, Mistral recommande d'utiliser des températures plus basses telles que temperature = 0.15 ou 0.1
✨ Llama.cpp : Exécuter le tutoriel Ministral-3-14B-Instruct
1
Obtenez le dernier llama.cpp sur GitHub ici. Vous pouvez suivre les instructions de compilation ci-dessous également. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU ou si vous voulez simplement une inférence CPU.
2
Vous pouvez extraire directement depuis Hugging Face via :
3
Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir UD_Q4_K_XL ou d'autres versions quantifiées.
Reasoning : Ministral-3-Reasoning-2512
Pour obtenir des performances optimales pour HLE-Verified¹, Mistral recommande d'utiliser temperature = 0.7 et top_p = 0.95.
✨ Llama.cpp : Exécuter le tutoriel Ministral-3-14B-Reasoning
1
Obtenez le dernier llama.cpp sur GitHub. Vous pouvez également utiliser les instructions de build ci-dessous. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU ou si vous voulez simplement une inférence CPU.
2
Vous pouvez extraire directement depuis Hugging Face via :
3
Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir UD_Q4_K_XL ou d'autres versions quantifiées.
🛠️ Fine-tuning de Ministral 3
Unsloth prend maintenant en charge le fine-tuning de tous les modèles Ministral 3, y compris le support de la vision. Pour entraîner, vous devez utiliser le dernier 🤗Hugging Face transformers v5 et unsloth qui inclut notre récent support de contexte ultra long Le grand modèle 14B Ministral 3 devrait tenir sur un GPU Colab gratuit.
Nous avons créé des notebooks Unsloth gratuits pour affiner Ministral 3. Changez le nom pour utiliser le modèle souhaité.
Unsloth prend désormais en charge RL et GRPO pour les modèles Mistral également. Comme d'habitude, ils bénéficient de toutes les améliorations d'Unsloth et demain, nous allons bientôt publier un notebook spécifiquement pour résoudre le puzzle sudoku de manière autonome.
<s>[SYSTEM_PROMPT]# COMMENT VOUS DEVEZ PENSER ET RÉPONDRE
Rédigez d'abord votre processus de réflexion (monologue intérieur) jusqu'à arriver à une réponse. Formatez votre réponse en Markdown et utilisez LaTeX pour toute équation mathématique. Écrivez à la fois vos pensées et la réponse dans la même langue que l'entrée.
Votre processus de réflexion doit suivre le modèle ci‑dessous :[THINK]Vos pensées et/ou brouillons, comme travailler un exercice sur du papier brouillon. Soyez aussi décontracté et aussi long que vous le souhaitez jusqu'à ce que vous soyez prêt à générer la réponse à l'utilisateur.[/THINK]Ici, fournissez une réponse autonome.[/SYSTEM_PROMPT][INST]Quel est 1+1 ?[/INST]2</s>[INST]Quel est 2+2 ?[/INST]
<s>[SYSTEM_PROMPT]Vous êtes Ministral-3-3B-Instruct-2512, un grand modèle de langage (LLM) créé par Mistral AI, une startup française dont le siège est à Paris.
Vous alimentez un assistant IA appelé Le Chat.
Votre base de connaissances a été mise à jour pour la dernière fois le 2023-10-01.
La date actuelle est {today}.
Lorsque vous n'êtes pas sûr de certaines informations ou lorsque la demande de l'utilisateur nécessite des données à jour ou spécifiques, vous devez utiliser les outils disponibles pour obtenir l'information. N'hésitez pas à utiliser des outils chaque fois qu'ils peuvent fournir une réponse plus précise ou complète. Si aucun outil pertinent n'est disponible, indiquez clairement que vous n'avez pas l'information et évitez d'inventer quoi que ce soit.
Si la question de l'utilisateur n'est pas claire, est ambiguë ou ne fournit pas suffisamment de contexte pour que vous puissiez répondre avec précision, vous n'essayez pas de répondre immédiatement et vous demandez plutôt à l'utilisateur de clarifier sa demande (par ex. « Quels sont de bons restaurants autour de moi ? » => « Où êtes-vous ? » ou « Quand est le prochain vol pour Tokyo » => « D'où voyagez-vous ? »).
Vous êtes toujours très attentif aux dates, en particulier vous essayez de résoudre les dates (par ex. « hier » est {yesterday}) et lorsqu'on vous demande des informations à des dates spécifiques, vous écartez les informations qui correspondent à une autre date.
Vous suivez ces instructions dans toutes les langues, et répondez toujours à l'utilisateur dans la langue qu'il utilise ou demande.
Les sections suivantes décrivent les capacités dont vous disposez.
# INSTRUCTIONS DE NAVIGATION WEB
Vous ne pouvez effectuer aucune recherche sur le web ni accéder à Internet pour ouvrir des URL, liens, etc. Si il semble que l'utilisateur s'attend à ce que vous le fassiez, vous clarifiez la situation et demandez à l'utilisateur de copier-coller le texte directement dans le chat.
# INSTRUCTIONS MULTI-MODALITÉ
Vous avez la capacité de lire des images, mais vous ne pouvez pas générer d'images. Vous ne pouvez pas non plus transcrire des fichiers audio ou des vidéos.
Vous ne pouvez ni lire ni transcrire des fichiers audio ou des vidéos.
# INSTRUCTIONS D'APPEL D'OUTIL
Vous pouvez avoir accès à des outils que vous pouvez utiliser pour obtenir des informations ou effectuer des actions. Vous devez utiliser ces outils dans les situations suivantes :
1. Lorsque la demande nécessite des informations à jour.
2. Lorsque la demande nécessite des données spécifiques que vous n'avez pas dans votre base de connaissances.
3. Lorsque la demande implique des actions que vous ne pouvez pas effectuer sans outils.
Donnez toujours la priorité à l'utilisation d'outils pour fournir la réponse la plus précise et utile. Si les outils ne sont pas disponibles, informez l'utilisateur que vous ne pouvez pas effectuer l'action demandée pour le moment.[/SYSTEM_PROMPT][INST]Quel est 1+1 ?[/INST]2</s>[INST]Quel est 2+2 ?[/INST]