🐱Ministral 3 - Guide pour exécution

Guide pour les modèles Mistral Ministral 3, pour exécuter ou affiner localement sur votre appareil

Mistral publie Ministral 3, leurs nouveaux modèles multimodaux en variantes Base, Instruct et Reasoning, disponibles en 3B, 8B, et 14B tailles. Ils offrent des performances de premier plan pour leur taille et sont affinés pour les cas d'utilisation d'instruction et de chat. Les modèles multimodaux prennent en charge fenêtres de contexte de 256K , plusieurs langues, l'appel de fonctions natif et la sortie JSON.

Le modèle complet non quantifié Ministral-3-Instruct-2512 14B tient dans 24 Go de RAM/VRAM. Vous pouvez maintenant exécuter, affiner et faire du RL sur tous les modèles Ministral 3 avec Unsloth :

Exécuter les tutoriels Ministral 3 Affinage de Ministral 3

Nous avons également téléchargé Mistral Large 3 GGUFs ici. Pour tous les téléchargements Ministral 3 (BnB, FP8), voir ici.

GGUFs Ministral-3-Instruct :

GGUFs Ministral-3-Reasoning :

3B • 8B • 14B

⚙️ Guide d'utilisation

Pour atteindre des performances optimales pour Instruct, Mistral recommande d'utiliser des températures plus basses comme température = 0.15 ou 0.1

– Active la quantification 4 bits, réduisant l'utilisation de la mémoire par 4× pour le fine-tuning sur des GPU 16 Go. Reasoning, Mistral recommande température = 0.7 et top_p = 0.95.

Instruct :

Raisonnement :

Température = 0,15 ou 0.1

Température = 0,7

Top_P = par défaut

Top_P = 0,95

Longueur de sortie adéquate : Utilisez une longueur de sortie de 32,768 tokens pour la plupart des requêtes pour la variante reasoning, et 16,384 pour la variante instruct. Vous pouvez augmenter la taille de sortie maximale pour le modèle reasoning si nécessaire.

La longueur de contexte maximale que Ministral 3 peut atteindre est 262,144

Le format du modèle de chat est trouvé lorsque nous utilisons ce qui suit :

tokenizer.apply_chat_template([
    {"role" : "user", "content" : "What is 1+1?"},
    {"role" : "assistant", "content" : "2"},
    {"role" : "user", "content" : "What is 2+2?"}
    ], add_generation_prompt = True
)

Ministral Reasoning modèle de chat :

<s>[SYSTEM_PROMPT]# COMMENT VOUS DEVEZ PENSER ET RÉPONDRE

Dressez d'abord votre processus de pensée (monologue intérieur) jusqu'à ce que vous arriviez à une réponse. Formatez votre réponse en Markdown, et utilisez LaTeX pour toute équation mathématique. Écrivez à la fois vos pensées et la réponse dans la même langue que l'entrée.

Votre processus de réflexion doit suivre le modèle ci-dessous :[THINK]Vos pensées et/ou brouillon, comme travailler un exercice sur un brouillon. Soyez aussi informel et aussi long que vous le souhaitez jusqu'à ce que vous soyez confiant pour générer la réponse à l'utilisateur.[/THINK]Ici, fournissez une réponse autonome.[/SYSTEM_PROMPT][INST]Quel est 1+1 ?[/INST]2</s>[INST]Quel est 2+2 ?[/INST]

Ministral Instruct modèle de chat :

<s>[SYSTEM_PROMPT]Vous êtes Ministral-3-3B-Instruct-2512, un grand modèle de langage (LLM) créé par Mistral AI, une startup française basée à Paris.
Vous alimentez un assistant IA appelé Le Chat.
Votre base de connaissances a été mise à jour pour la dernière fois le 2023-10-01.
La date actuelle est {today}.

Lorsque vous n'êtes pas sûr d'une information ou lorsque la demande de l'utilisateur nécessite des données à jour ou spécifiques, vous devez utiliser les outils disponibles pour récupérer l'information. N'hésitez pas à utiliser des outils chaque fois qu'ils peuvent fournir une réponse plus précise ou complète. Si aucun outil pertinent n'est disponible, indiquez clairement que vous ne disposez pas de l'information et évitez d'inventer quoi que ce soit.
Si la question de l'utilisateur n'est pas claire, ambiguë ou ne fournit pas suffisamment de contexte pour que vous puissiez répondre avec précision, n'essayez pas d'y répondre immédiatement et demandez plutôt à l'utilisateur de clarifier sa demande (par ex. « Quels sont de bons restaurants autour de moi ? » => « Où vous trouvez-vous ? » ou « Quand est le prochain vol pour Tokyo » => « D'où voyagez-vous ? »).
Vous êtes toujours très attentif aux dates, en particulier vous essayez de résoudre les dates (par ex. « hier » est {yesterday}) et lorsque l'on vous demande des informations à des dates spécifiques, vous écartez les informations qui sont à une autre date.
Vous suivez ces instructions dans toutes les langues, et répondez toujours à l'utilisateur dans la langue qu'il utilise ou demande.
Les sections suivantes décrivent les capacités dont vous disposez.

# INSTRUCTIONS DE NAVIGATION WEB

Vous ne pouvez effectuer aucune recherche sur le web ni accéder à Internet pour ouvrir des URL, des liens, etc. Si l'utilisateur semble s'attendre à ce que vous le fassiez, clarifiez la situation et demandez à l'utilisateur de copier-coller le texte directement dans le chat.

# INSTRUCTIONS MULTI-MODALITÉ

Vous avez la capacité de lire des images, mais vous ne pouvez pas générer d'images. Vous ne pouvez pas non plus transcrire des fichiers audio ou des vidéos.
Vous ne pouvez ni lire ni transcrire des fichiers audio ou des vidéos.

# INSTRUCTIONS D'APPEL D'OUTILS

Vous pouvez avoir accès à des outils que vous pouvez utiliser pour récupérer des informations ou effectuer des actions. Vous devez utiliser ces outils dans les situations suivantes :

1. Lorsque la demande nécessite des informations à jour.
2. Lorsque la demande nécessite des données spécifiques que vous n'avez pas dans votre base de connaissances.
3. Lorsque la demande implique des actions que vous ne pouvez pas effectuer sans outils.

Donnez toujours la priorité à l'utilisation des outils pour fournir la réponse la plus précise et la plus utile. Si les outils ne sont pas disponibles, informez l'utilisateur que vous ne pouvez pas effectuer l'action demandée pour le moment.[/SYSTEM_PROMPT][INST]Quel est 1+1 ?[/INST]2</s>[INST]Quel est 2+2 ?[/INST]

📖 Exécuter les tutoriels Ministral 3

Ci-dessous figurent des guides pour les Reasoning et Instruct variantes du modèle.

Instruct : Ministral-3-Instruct-2512

Pour atteindre des performances optimales pour Instruct, Mistral recommande d'utiliser des températures plus basses comme température = 0.15 ou 0.1

✨ Llama.cpp : Exécuter le tutoriel Ministral-3-14B-Instruct

Obtenez la dernière llama.cpp sur GitHub ici. Vous pouvez aussi suivre les instructions de compilation ci-dessous. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU ou si vous voulez simplement de l'inférence CPU. Pour les appareils Apple Mac / Metal, définissez -DGGML_CUDA=OFF puis continuez comme d'habitude - le support Metal est activé par défaut.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Vous pouvez le récupérer directement depuis Hugging Face via :

./llama.cpp/llama-cli \
    -hf unsloth/Ministral-3-14B-Instruct-2512-GGUF:Q4_K_XL \
    --jinja -ngl 99 --ctx-size 32684 \
    --temp 0.15

Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir UD_Q4_K_XL ou d'autres versions quantifiées.

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Ministral-3-14B-Instruct-2512-GGUF",
    local_dir = "Ministral-3-14B-Instruct-2512-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)

Reasoning : Ministral-3-Reasoning-2512

Pour atteindre des performances optimales pour Reasoning, Mistral recommande d'utiliser température = 0.7 et top_p = 0.95.

✨ Llama.cpp : Exécuter le tutoriel Ministral-3-14B-Reasoning

Obtenez la dernière llama.cpp sur GitHub. Vous pouvez également utiliser les instructions de compilation ci-dessous. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU ou si vous voulez simplement de l'inférence CPU.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Vous pouvez le récupérer directement depuis Hugging Face via :

./llama.cpp/llama-cli \
    -hf unsloth/Ministral-3-14B-Reasoning-2512-GGUF:Q4_K_XL \
    --jinja -ngl 99 --ctx-size 32684 \
    --temp 0.6 --top-p 0.95

Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir UD_Q4_K_XL ou d'autres versions quantifiées.

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Ministral-3-14B-Reasoning-2512-GGUF",
    local_dir = "Ministral-3-14B-Reasoning-2512-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)

🛠️ Affinage de Ministral 3

Unsloth prend désormais en charge l'affinage de tous les modèles Ministral 3, y compris le support vision. Pour entraîner, vous devez utiliser la dernière version de 🤗Hugging Face transformers v5 et unsloth qui inclut notre récent support de contexte ultra long Le grand modèle Ministral 3 14B devrait tenir sur un GPU Colab gratuit.

Nous avons créé des notebooks Unsloth gratuits pour affiner Ministral 3. Changez le nom pour utiliser le modèle souhaité.

Ministral-3B-Instruct Notebook Vision (vision)
Ministral-3B-Instruct Notebook GRPO

Notebook d'affinage Ministral Vision

Google Colabcolab.research.google.com

Notebook Ministral Sudoku GRPO RL

Google Colabcolab.research.google.com

✨Apprentissage par renforcement (GRPO)

Unsloth prend désormais en charge le RL et le GRPO pour les modèles Mistral également. Comme d'habitude, ils bénéficient de toutes les améliorations d'Unsloth et demain, nous allons bientôt publier un notebook spécifiquement pour résoudre le sudoku de manière autonome.

Ministral-3B-Instruct Notebook GRPO

Pour utiliser la dernière version d'Unsloth et transformers v5, mettez à jour via :

pip install --upgrade --force-reinstall --no-cache-dir --no-deps unsloth unsloth_zoo

L'objectif est de générer automatiquement des stratégies pour compléter le Sudoku !

Pour les graphiques de récompense pour Ministral, nous obtenons ce qui suit. Nous voyons que ça fonctionne bien !

PrécédentDevstral 2 SuivantDeepSeek-OCR

Mis à jour il y a 10 heures

Ce contenu vous a-t-il été utile ?

hashtag⚙️ Guide d'utilisation

hashtagMinistral Reasoning modèle de chat :

hashtagMinistral Instruct modèle de chat :

hashtag📖 Exécuter les tutoriels Ministral 3

hashtagInstruct : Ministral-3-Instruct-2512

hashtag✨ Llama.cpp : Exécuter le tutoriel Ministral-3-14B-Instruct

hashtagReasoning : Ministral-3-Reasoning-2512

hashtag✨ Llama.cpp : Exécuter le tutoriel Ministral-3-14B-Reasoning

hashtag🛠️ Affinage de Ministral 3

hashtag✨Apprentissage par renforcement (GRPO)