# MiniMax-M2.7 - Comment l'exécuter localement

MiniMax-M2.7 est un nouveau modèle ouvert pour les cas d’usage de codage agentique et de chat. Le modèle atteint des performances SOTA dans SWE-Pro (56,22 %) et Terminal Bench 2 (57,0 %).

Le **230B paramètres** (10B actifs) modèle est le successeur de [MiniMax-M25](https://unsloth.ai/docs/fr/modeles/tutorials/minimax-m25) et possède une **contexte de 200K** fenêtre. La version bf16 non quantifiée nécessite **457GB**. Unsloth Dynamic **4 bits** GGUF réduit la taille à **108GB** **(-60%)** afin qu’il puisse fonctionner sur un **128GB RAM** apparei&#x6C;**:** [**MiniMax-M2.7 GGUF**](https://huggingface.co/unsloth/MiniMax-M2.7-GGUF)

Tous les téléversements utilisent Unsloth [Dynamic 2.0](https://unsloth.ai/docs/fr/bases/unsloth-dynamic-2.0-ggufs) pour des performances de quantification SOTA - ainsi, les couches importantes sont converties vers des précisions supérieures (par ex. 8 ou 16 bits). Merci à MiniMax pour l’accès dès le jour zéro.

{% hint style="success" %}
NOUVEAU : benchmarks MiniMax-M2.7 GGUF disponibles ! [Voir ici](#gguf-benchmarks)
{% endhint %}

### :gear: Guide d’utilisation

La quantification dynamique 4 bits `UD-IQ4_XS` utilise **108GB** d’espace disque - cela tient parfaitement sur un **Mac à mémoire unifiée de 128GB** pour \~15+ tokens/s, et fonctionne aussi plus rapidement avec un **1x16GB GPU et 96GB de RAM** pour 25+ tokens/s. **2 bits** les quants ou le plus gros modèle 2 bits tiendront sur un appareil de 96GB.

Pour une **pleine précision**, utilisez `Q8_0` (8 bits) qui utilise 243GB et tiendra sur un appareil / Mac avec 256GB de RAM pour 15+ tokens/s.

{% hint style="success" %}
Pour de meilleures performances, assurez-vous que votre mémoire totale disponible (VRAM + RAM système) dépasse la taille du fichier du modèle quantifié que vous téléchargez. Sinon, llama.cpp peut toujours fonctionner via le déchargement SSD/HDD, mais l’inférence sera plus lente.
{% endhint %}

### Paramètres recommandés

MiniMax recommande d’utiliser les paramètres suivants pour de meilleures performances : `temperature=1.0`, `top_p = 0.95`, `top_k = 40`.

{% columns %}
{% column %}

| Paramètres par défaut (la plupart des tâches) |
| --------------------------------------------- |
| `temperature = 1.0`                           |
| `top_p = 0.95`                                |
| `top_k = 40`                                  |
| {% endcolumn %}                               |

{% column %}

* **Fenêtre de contexte maximale :** `196,608`
* Invite système par défaut :

{% code overflow="wrap" %}

```
Vous êtes un assistant serviable. Votre nom est MiniMax-M2.7 et vous êtes construit par MiniMax.
```

{% endcode %}
{% endcolumn %}
{% endcolumns %}

## Exécuter les tutoriels MiniMax-M2.7 :

Pour faire fonctionner MiniMax-M2.7 sur un appareil avec 128GB de RAM, nous utiliserons la [`UD-IQ4_XS` quantification](https://huggingface.co/unsloth/MiniMax-M2.7-GGUF?show_file_info=UD-IQ4_XS%2FMiniMax-M2.7-UD-IQ4_XS-00001-of-00004.gguf). Vous pouvez maintenant exécuter MiniMax-M2.7 dans [llama.cpp](#run-in-llama.cpp) et [Unsloth Studio](#run-in-unsloth-studio).

{% hint style="warning" %}
N’utilisez PAS CUDA 13.2 pour exécuter un quelconque modèle, car cela peut produire du charabia ou de mauvaises sorties. NVIDIA travaille sur un correctif.
{% endhint %}

### 🦥 Exécuter dans Unsloth Studio

MiniMax-M2.7 peut désormais s’exécuter dans [Unsloth Studio](https://unsloth.ai/docs/fr/nouveau/studio), notre nouvelle interface web open source pour l’IA locale. Unsloth Studio vous permet d’exécuter des modèles localement sur **MacOS, Windows**, Linux et :

{% columns %}
{% column %}

* Rechercher, télécharger, [exécuter des GGUF](https://unsloth.ai/docs/fr/nouveau/studio#run-models-locally) et des modèles safetensor
* [**Auto-réparation** appel d’outils](https://unsloth.ai/docs/fr/nouveau/studio#execute-code--heal-tool-calling) + **recherche web**
* [**Exécution de code**](https://unsloth.ai/docs/fr/nouveau/studio#run-models-locally) (Python, Bash)
* [Inférence automatique](https://unsloth.ai/docs/fr/nouveau/studio#model-arena) réglage des paramètres (temp, top-p, etc.)
* Utilise llama.cpp pour une inférence rapide CPU + GPU et le déchargement sur CPU
  {% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FstfdTMsoBMmsbQsgQ1Ma%2Flandscape%20clip%20gemma.gif?alt=media&#x26;token=eec5f2f7-b97a-4c1c-ad01-5a041c3e4013" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% stepper %}
{% step %}

#### Installer Unsloth

Exécutez dans votre terminal :

**MacOS, Linux, WSL :**

```bash
curl -fsSL https://unsloth.ai/install.sh | sh
```

**Windows PowerShell :**

```bash
irm https://unsloth.ai/install.ps1 | iex
```

{% endstep %}

{% step %}

#### Lancer Unsloth

**MacOS, Linux, WSL et Windows :**

```bash
unsloth studio -H 0.0.0.0 -p 8888
```

**Ensuite, ouvrez `http://localhost:8888` dans votre navigateur.**
{% endstep %}

{% step %}

#### Rechercher et télécharger MiniMax-M2.7

Au premier lancement, vous devrez créer un mot de passe pour sécuriser votre compte puis vous reconnecter plus tard. Vous verrez ensuite un bref assistant d’intégration pour choisir un modèle, un jeu de données et des paramètres de base. Vous pouvez l’ignorer à tout moment.

Vous pouvez choisir `UD-IQ4_XS` (quantification dynamique 4 bits) ou d’autres versions quantifiées comme `UD-Q4_K_XL` . Si les téléchargements se bloquent, voir [hugging-face-hub-xet-debugging](https://unsloth.ai/docs/fr/bases/troubleshooting-and-faqs/hugging-face-hub-xet-debugging "mention")

Ensuite, allez dans l’onglet [Chat Studio](https://unsloth.ai/docs/fr/nouveau/studio/chat) et recherchez MiniMax-M2.7 dans la barre de recherche puis téléchargez le modèle et la quantification souhaités. Le téléchargement prendra un certain temps en raison de la taille, veuillez donc patienter. Pour garantir une inférence rapide, assurez-vous d’avoir [assez de RAM/VRAM](#usage-guide), sinon l’inférence fonctionnera quand même, mais Unsloth déchargera vers votre CPU.

<div data-with-frame="true"><figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fh6qv7Mh2VqtdhZaixrnO%2FScreenshot%202026-04-11%20at%206.46.55%E2%80%AFPM.png?alt=media&#x26;token=e2568c00-86eb-452f-a4eb-10bcc0194ddf" alt=""><figcaption></figcaption></figure></div>
{% endstep %}

{% step %}

#### Exécuter MiniMax-M2.7

Les paramètres d’inférence devraient être définis automatiquement lors de l’utilisation d’Unsloth Studio, mais vous pouvez toujours les modifier manuellement. Vous pouvez également modifier la longueur de contexte, le modèle de chat et d’autres paramètres.

Pour plus d’informations, vous pouvez consulter notre [guide d’inférence Unsloth Studio](https://unsloth.ai/docs/fr/nouveau/studio/chat).
{% endstep %}
{% endstepper %}

### ✨ Exécuter dans llama.cpp

{% hint style="warning" %}
N’utilisez PAS CUDA 13.2 pour exécuter un quelconque modèle, car cela peut produire du charabia ou de mauvaises sorties. NVIDIA travaille sur un correctif.
{% endhint %}

{% stepper %}
{% step %}
Obtenez la dernière version de `llama.cpp` sur [GitHub ici](https://github.com/ggml-org/llama.cpp). Vous pouvez également suivre les instructions de compilation ci-dessous. Remplacez `-DGGML_CUDA=ON` par `-DGGML_CUDA=OFF` si vous n’avez pas de GPU ou si vous souhaitez simplement une inférence sur CPU. **Pour les appareils Apple Mac / Metal**, définissez `-DGGML_CUDA=OFF` puis continuez comme d’habitude - la prise en charge de Metal est activée par défaut.

{% code overflow="wrap" %}

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \\
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

{% endcode %}
{% endstep %}

{% step %}
Si vous souhaitez utiliser `llama.cpp` directement pour charger des modèles, vous pouvez faire ce qui suit : (:IQ4\_XS) est le type de quantification. Vous pouvez aussi télécharger via Hugging Face (point 3). C’est similaire à `ollama run` . Utilisez `export LLAMA_CACHE="folder"` pour forcer `llama.cpp` à enregistrer dans un emplacement spécifique. N’oubliez pas que le modèle n’a qu’une longueur de contexte maximale de 200K.

Suivez ceci pour **la plupart des cas** d’usage par défaut :

```bash
export LLAMA_CACHE="unsloth/MiniMax-M2.7-GGUF"
./llama.cpp/llama-cli \\
    -hf unsloth/MiniMax-M2.7-GGUF:UD-IQ4_XS \\
    --temp 1.0 \\
    --top-p 0.95 \\
    --top-k 40
```

{% endstep %}

{% step %}
Téléchargez le modèle (après avoir installé `pip install huggingface_hub hf_transfer`). Vous pouvez choisir UD-IQ4\_XS (quantification dynamique 4 bits) ou d’autres versions quantifiées comme `UD-Q6_K_XL` . Nous recommandons d’utiliser notre quantification dynamique 4 bits UD-IQ4\_XS afin d’équilibrer taille et précision. Si les téléchargements se bloquent, voir [hugging-face-hub-xet-debugging](https://unsloth.ai/docs/fr/bases/troubleshooting-and-faqs/hugging-face-hub-xet-debugging "mention")

```bash
hf download unsloth/MiniMax-M2.7-GGUF \\
    --local-dir unsloth/MiniMax-M2.7-GGUF \\
    --include "*UD-IQ4_XS*" # Utilisez "*Q8_0*" pour 8 bits
```

{% endstep %}

{% step %}
Vous pouvez modifier `--threads 32` pour le nombre de threads CPU, `--ctx-size 16384` pour la longueur de contexte, `--n-gpu-layers 2` pour le déchargement GPU selon le nombre de couches. Essayez de l’ajuster si votre GPU manque de mémoire. Supprimez-le également si vous utilisez uniquement l’inférence CPU.

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \\
    --model unsloth/MiniMax-M2.7-GGUF/UD-IQ4_XS/MiniMax-M2.7-UD-IQ4_XS-00001-of-00004.gguf \\
    --temp 1.0 \\
    --top-p 0.95 \\
    --top-k 40
```

{% endcode %}
{% endstep %}
{% endstepper %}

#### 🦙 Llama-server et la bibliothèque de complétion d’OpenAI

Pour déployer MiniMax-M2.7 en production, nous utilisons `llama-server` ou l’API OpenAI. Dans un nouveau terminal, par exemple via tmux, déployez le modèle via :

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-server \\
    --model unsloth/MiniMax-M2.7-GGUF/UD-IQ4_XS/MiniMax-M2.7-UD-IQ4_XS-00001-of-00004.gguf \\
    --alias "unsloth/MiniMax-M2.7" \\
    --prio 3 \\
    --temp 1.0 \\
    --top-p 0.95 \\
    --min-p 0.01 \\
    --top-k 40 \\
    --port 8001
```

{% endcode %}

Ensuite, dans un nouveau terminal, après avoir fait `pip install openai`, faites :

{% code overflow="wrap" %}

```python
from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/MiniMax-M2.7",
    messages = [{"role": "user", "content": "Crée un jeu Snake."},],
)
print(completion.choices[0].message.content)
```

{% endcode %}

## 📊 Benchmarks

### Benchmarks GGUF

Ci-dessous figurent les benchmarks KLD 99 % pour MiniMax-M2.7. Plus c’est en bas à gauche, mieux c’est :

<figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FOkxq866NI68lXd0LBcsV%2FCode_Generated_Image(18)(1).png?alt=media&#x26;token=ce73524f-1db2-410a-ac2f-a26cba04d270" alt=""><figcaption></figcaption></figure>

Comme MiniMax-M2.7 utilise la même architecture que MiniMax-M2.5, les benchmarks de quantification GGUF pour M2.7 devraient être très similaires à ceux de M2.5. Nous nous référerons donc également au benchmark de quantification précédent effectué pour M2.5 :

<figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FhfO2gsbz2lWrZXg3ojyE%2FHCGBTzgboAASv_A.png?alt=media&#x26;token=7d6334ca-4f3c-4946-aacd-d55527375fce" alt=""><figcaption></figcaption></figure>

[Benjamin Marie (tiers) a évalué](https://x.com/bnjmn_marie/status/2027043753484021810/photo/1) **MiniMax-M2.5** en utilisant **les quantifications Unsloth GGUF** sur une **suite mixte de 750 prompts** (LiveCodeBench v6, MMLU Pro, GPQA, Math500), en rapportant à la fois **la précision globale** et **l’augmentation relative des erreurs** (à quel point le modèle quantifié fait plus souvent des erreurs que l’original).

Les quants Unsloth, quelle que soit leur précision, offrent de bien meilleures performances que leurs équivalents non Unsloth, tant en précision qu’en erreur relative (bien qu’ils soient 8GB plus petits).

**Résultats clés :**

* **Meilleur compromis qualité/taille ici : `unsloth UD-Q4_K_XL`.**\
  C’est le plus proche de l’original : seulement **6.0 points** de moins, et « seulement » **+22.8%** d’erreurs en plus que la référence.
* **Les autres quants Unsloth Q4 ont des performances très proches les unes des autres (\~64,5–64,9 de précision).**\
  `IQ4_NL`, `MXFP4_MOE`, et `UD-IQ2_XXS` ont tous essentiellement la même qualité sur ce benchmark, avec **\~33–35 %** d’erreurs en plus que l’original.
* Les GGUF Unsloth offrent de bien meilleures performances que les autres GGUF non Unsloth, par ex. voir `lmstudio-community - Q4_K_M` (bien qu’il soit 8GB plus petit) et `AesSedai - IQ3_S`.

### Benchmarks officiels

<figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fn5Xz2P6kzHRH2sQGPsHH%2Fminimaxm2.7%20model.jpg?alt=media&#x26;token=04f4b3fd-9d04-4e80-9f06-09afd8ce884d" alt=""><figcaption></figcaption></figure>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/fr/modeles/minimax-m27.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
