🐱Ministral 3 - Guide pour exécution

Guide pour les modèles Mistral Ministral 3, pour exécuter ou affiner localement sur votre appareil

Mistral publie Ministral 3, leurs nouveaux modèles multimodaux en variantes Base, Instruct et Reasoning, disponibles en 3B, 8B, et 14B tailles. Ils offrent des performances de premier plan pour leur taille et sont affinés pour les cas d'utilisation d'instruction et de chat. Les modèles multimodaux prennent en charge fenêtres de contexte de 256K , plusieurs langues, l'appel de fonctions natif et la sortie JSON.

Le modèle complet non quantifié Ministral-3-Instruct-2512 14B tient dans 24 Go de RAM/VRAM. Vous pouvez maintenant exécuter, affiner et faire du RL sur tous les modèles Ministral 3 avec Unsloth :

Exécuter les tutoriels Ministral 3Affinage de Ministral 3

Nous avons également téléchargé Mistral Large 3 GGUFs iciarrow-up-right. Pour tous les téléchargements Ministral 3 (BnB, FP8), voir iciarrow-up-right.

GGUFs Ministral-3-Instruct :
GGUFs Ministral-3-Reasoning :

⚙️ Guide d'utilisation

Pour atteindre des performances optimales pour Instruct, Mistral recommande d'utiliser des températures plus basses comme température = 0.15 ou 0.1

– Active la quantification 4 bits, réduisant l'utilisation de la mémoire par 4× pour le fine-tuning sur des GPU 16 Go. Reasoning, Mistral recommande température = 0.7 et top_p = 0.95.

Instruct :
Raisonnement :

Température = 0,15 ou 0.1

Température = 0,7

Top_P = par défaut

Top_P = 0,95

Longueur de sortie adéquate : Utilisez une longueur de sortie de 32,768 tokens pour la plupart des requêtes pour la variante reasoning, et 16,384 pour la variante instruct. Vous pouvez augmenter la taille de sortie maximale pour le modèle reasoning si nécessaire.

La longueur de contexte maximale que Ministral 3 peut atteindre est 262,144

Le format du modèle de chat est trouvé lorsque nous utilisons ce qui suit :

tokenizer.apply_chat_template([
    {"role" : "user", "content" : "What is 1+1?"},
    {"role" : "assistant", "content" : "2"},
    {"role" : "user", "content" : "What is 2+2?"}
    ], add_generation_prompt = True
)

Ministral Reasoning modèle de chat :

Ministral Instruct modèle de chat :

📖 Exécuter les tutoriels Ministral 3

Ci-dessous figurent des guides pour les Reasoning et Instruct variantes du modèle.

Instruct : Ministral-3-Instruct-2512

Pour atteindre des performances optimales pour Instruct, Mistral recommande d'utiliser des températures plus basses comme température = 0.15 ou 0.1

Llama.cpp : Exécuter le tutoriel Ministral-3-14B-Instruct

1

Obtenez la dernière llama.cpp sur GitHub iciarrow-up-right. Vous pouvez aussi suivre les instructions de compilation ci-dessous. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU ou si vous voulez simplement de l'inférence CPU. Pour les appareils Apple Mac / Metal, définissez -DGGML_CUDA=OFF puis continuez comme d'habitude - le support Metal est activé par défaut.

2

Vous pouvez le récupérer directement depuis Hugging Face via :

3

Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir UD_Q4_K_XL ou d'autres versions quantifiées.

Reasoning : Ministral-3-Reasoning-2512

Pour atteindre des performances optimales pour Reasoning, Mistral recommande d'utiliser température = 0.7 et top_p = 0.95.

Llama.cpp : Exécuter le tutoriel Ministral-3-14B-Reasoning

1

Obtenez la dernière llama.cpp sur GitHubarrow-up-right. Vous pouvez également utiliser les instructions de compilation ci-dessous. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU ou si vous voulez simplement de l'inférence CPU.

2

Vous pouvez le récupérer directement depuis Hugging Face via :

3

Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir UD_Q4_K_XL ou d'autres versions quantifiées.

🛠️ Affinage de Ministral 3

Unsloth prend désormais en charge l'affinage de tous les modèles Ministral 3, y compris le support vision. Pour entraîner, vous devez utiliser la dernière version de 🤗Hugging Face transformers v5 et unsloth qui inclut notre récent support de contexte ultra long Le grand modèle Ministral 3 14B devrait tenir sur un GPU Colab gratuit.

Nous avons créé des notebooks Unsloth gratuits pour affiner Ministral 3. Changez le nom pour utiliser le modèle souhaité.

Notebook d'affinage Ministral Vision

Apprentissage par renforcement (GRPO)

Unsloth prend désormais en charge le RL et le GRPO pour les modèles Mistral également. Comme d'habitude, ils bénéficient de toutes les améliorations d'Unsloth et demain, nous allons bientôt publier un notebook spécifiquement pour résoudre le sudoku de manière autonome.

Pour utiliser la dernière version d'Unsloth et transformers v5, mettez à jour via :

L'objectif est de générer automatiquement des stratégies pour compléter le Sudoku !

Pour les graphiques de récompense pour Ministral, nous obtenons ce qui suit. Nous voyons que ça fonctionne bien !

Mis à jour

Ce contenu vous a-t-il été utile ?