MiniMax-M2.7 - Comment l'exécuter localement
Exécutez le LLM MiniMax-M2.7 localement sur votre propre appareil !
MiniMax-M2.7 est un nouveau modèle ouvert pour les cas d’usage de codage agentique et de chat. Le modèle atteint des performances SOTA dans SWE-Pro (56,22 %) et Terminal Bench 2 (57,0 %).
Le 230B paramètres (10B actifs) modèle est le successeur de MiniMax-M25 et possède une contexte de 200K fenêtre. La version bf16 non quantifiée nécessite 457GB. Unsloth Dynamic 4 bits GGUF réduit la taille à 108GB (-60%) afin qu’il puisse fonctionner sur un 128GB RAM appareil: MiniMax-M2.7 GGUF
Tous les téléversements utilisent Unsloth Dynamic 2.0 pour des performances de quantification SOTA - ainsi, les couches importantes sont converties vers des précisions supérieures (par ex. 8 ou 16 bits). Merci à MiniMax pour l’accès dès le jour zéro.
NOUVEAU : benchmarks MiniMax-M2.7 GGUF disponibles ! Voir ici
⚙️ Guide d’utilisation
La quantification dynamique 4 bits UD-IQ4_XS utilise 108GB d’espace disque - cela tient parfaitement sur un Mac à mémoire unifiée de 128GB pour ~15+ tokens/s, et fonctionne aussi plus rapidement avec un 1x16GB GPU et 96GB de RAM pour 25+ tokens/s. 2 bits les quants ou le plus gros modèle 2 bits tiendront sur un appareil de 96GB.
Pour une pleine précision, utilisez Q8_0 (8 bits) qui utilise 243GB et tiendra sur un appareil / Mac avec 256GB de RAM pour 15+ tokens/s.
Pour de meilleures performances, assurez-vous que votre mémoire totale disponible (VRAM + RAM système) dépasse la taille du fichier du modèle quantifié que vous téléchargez. Sinon, llama.cpp peut toujours fonctionner via le déchargement SSD/HDD, mais l’inférence sera plus lente.
Paramètres recommandés
MiniMax recommande d’utiliser les paramètres suivants pour de meilleures performances : temperature=1.0, top_p = 0.95, top_k = 40.
temperature = 1.0
top_p = 0.95
top_k = 40
Fenêtre de contexte maximale :
196,608Invite système par défaut :
Vous êtes un assistant serviable. Votre nom est MiniMax-M2.7 et vous êtes construit par MiniMax.Exécuter les tutoriels MiniMax-M2.7 :
Pour faire fonctionner MiniMax-M2.7 sur un appareil avec 128GB de RAM, nous utiliserons la UD-IQ4_XS quantification. Vous pouvez maintenant exécuter MiniMax-M2.7 dans llama.cpp et Unsloth Studio.
N’utilisez PAS CUDA 13.2 pour exécuter un quelconque modèle, car cela peut produire du charabia ou de mauvaises sorties. NVIDIA travaille sur un correctif.
🦥 Exécuter dans Unsloth Studio
MiniMax-M2.7 peut désormais s’exécuter dans Unsloth Studio, notre nouvelle interface web open source pour l’IA locale. Unsloth Studio vous permet d’exécuter des modèles localement sur MacOS, Windows, Linux et :
Rechercher, télécharger, exécuter des GGUF et des modèles safetensor
Auto-réparation appel d’outils + recherche web
Exécution de code (Python, Bash)
Inférence automatique réglage des paramètres (temp, top-p, etc.)
Utilise llama.cpp pour une inférence rapide CPU + GPU et le déchargement sur CPU

Rechercher et télécharger MiniMax-M2.7
Au premier lancement, vous devrez créer un mot de passe pour sécuriser votre compte puis vous reconnecter plus tard. Vous verrez ensuite un bref assistant d’intégration pour choisir un modèle, un jeu de données et des paramètres de base. Vous pouvez l’ignorer à tout moment.
Vous pouvez choisir UD-IQ4_XS (quantification dynamique 4 bits) ou d’autres versions quantifiées comme UD-Q4_K_XL . Si les téléchargements se bloquent, voir Hugging Face Hub, débogage XET
Ensuite, allez dans l’onglet Chat Studio et recherchez MiniMax-M2.7 dans la barre de recherche puis téléchargez le modèle et la quantification souhaités. Le téléchargement prendra un certain temps en raison de la taille, veuillez donc patienter. Pour garantir une inférence rapide, assurez-vous d’avoir assez de RAM/VRAM, sinon l’inférence fonctionnera quand même, mais Unsloth déchargera vers votre CPU.

Exécuter MiniMax-M2.7
Les paramètres d’inférence devraient être définis automatiquement lors de l’utilisation d’Unsloth Studio, mais vous pouvez toujours les modifier manuellement. Vous pouvez également modifier la longueur de contexte, le modèle de chat et d’autres paramètres.
Pour plus d’informations, vous pouvez consulter notre guide d’inférence Unsloth Studio.
✨ Exécuter dans llama.cpp
N’utilisez PAS CUDA 13.2 pour exécuter un quelconque modèle, car cela peut produire du charabia ou de mauvaises sorties. NVIDIA travaille sur un correctif.
Obtenez la dernière version de llama.cpp sur GitHub ici. Vous pouvez également suivre les instructions de compilation ci-dessous. Remplacez -DGGML_CUDA=ON par -DGGML_CUDA=OFF si vous n’avez pas de GPU ou si vous souhaitez simplement une inférence sur CPU. Pour les appareils Apple Mac / Metal, définissez -DGGML_CUDA=OFF puis continuez comme d’habitude - la prise en charge de Metal est activée par défaut.
Si vous souhaitez utiliser llama.cpp directement pour charger des modèles, vous pouvez faire ce qui suit : (:IQ4_XS) est le type de quantification. Vous pouvez aussi télécharger via Hugging Face (point 3). C’est similaire à ollama run . Utilisez export LLAMA_CACHE="folder" pour forcer llama.cpp à enregistrer dans un emplacement spécifique. N’oubliez pas que le modèle n’a qu’une longueur de contexte maximale de 200K.
Suivez ceci pour la plupart des cas d’usage par défaut :
Téléchargez le modèle (après avoir installé pip install huggingface_hub hf_transfer). Vous pouvez choisir UD-IQ4_XS (quantification dynamique 4 bits) ou d’autres versions quantifiées comme UD-Q6_K_XL . Nous recommandons d’utiliser notre quantification dynamique 4 bits UD-IQ4_XS afin d’équilibrer taille et précision. Si les téléchargements se bloquent, voir Hugging Face Hub, débogage XET
Vous pouvez modifier --threads 32 pour le nombre de threads CPU, --ctx-size 16384 pour la longueur de contexte, --n-gpu-layers 2 pour le déchargement GPU selon le nombre de couches. Essayez de l’ajuster si votre GPU manque de mémoire. Supprimez-le également si vous utilisez uniquement l’inférence CPU.
🦙 Llama-server et la bibliothèque de complétion d’OpenAI
Pour déployer MiniMax-M2.7 en production, nous utilisons llama-server ou l’API OpenAI. Dans un nouveau terminal, par exemple via tmux, déployez le modèle via :
Ensuite, dans un nouveau terminal, après avoir fait pip install openai, faites :
📊 Benchmarks
Benchmarks GGUF
Ci-dessous figurent les benchmarks KLD 99 % pour MiniMax-M2.7. Plus c’est en bas à gauche, mieux c’est :

Comme MiniMax-M2.7 utilise la même architecture que MiniMax-M2.5, les benchmarks de quantification GGUF pour M2.7 devraient être très similaires à ceux de M2.5. Nous nous référerons donc également au benchmark de quantification précédent effectué pour M2.5 :

Benjamin Marie (tiers) a évalué MiniMax-M2.5 en utilisant les quantifications Unsloth GGUF sur une suite mixte de 750 prompts (LiveCodeBench v6, MMLU Pro, GPQA, Math500), en rapportant à la fois la précision globale et l’augmentation relative des erreurs (à quel point le modèle quantifié fait plus souvent des erreurs que l’original).
Les quants Unsloth, quelle que soit leur précision, offrent de bien meilleures performances que leurs équivalents non Unsloth, tant en précision qu’en erreur relative (bien qu’ils soient 8GB plus petits).
Résultats clés :
Meilleur compromis qualité/taille ici :
unsloth UD-Q4_K_XL. C’est le plus proche de l’original : seulement 6.0 points de moins, et « seulement » +22.8% d’erreurs en plus que la référence.Les autres quants Unsloth Q4 ont des performances très proches les unes des autres (~64,5–64,9 de précision).
IQ4_NL,MXFP4_MOE, etUD-IQ2_XXSont tous essentiellement la même qualité sur ce benchmark, avec ~33–35 % d’erreurs en plus que l’original.Les GGUF Unsloth offrent de bien meilleures performances que les autres GGUF non Unsloth, par ex. voir
lmstudio-community - Q4_K_M(bien qu’il soit 8GB plus petit) etAesSedai - IQ3_S.
Benchmarks officiels

Mis à jour
Ce contenu vous a-t-il été utile ?

