# NVIDIA Nemotron-3-Super : guide d'exécution

NVIDIA publie **Nemotron-3-Super-120B-A12B**, un modèle MoE hybride ouvert de raisonnement de 120B avec 12B de paramètres actifs, faisant suite au lancement précédent de [Nemotron-3-Nano](/docs/fr/modeles/nemotron-3.md), son homologue 30B. Nemotron-3-Super est conçu pour une grande efficacité et précision pour l'IA multi-agent. Avec une **fenêtre de contexte de 1M tokens** , il domine sa catégorie de taille sur les benchmarks AIME 2025, Terminal Bench et SWE-Bench Verified, tout en atteignant le débit le plus élevé.

Nemotron-3-Super fonctionne sur un appareil avec **64 Go** de RAM, VRAM ou mémoire unifiée et peut désormais être affiné localement. Merci à NVIDIA d'avoir fourni un support day-zero à Unsloth.

<a href="/pages/9ed8ddde53d68481706a3e7f68f59bb62e25a895#run-nemotron-3-super-120b" class="button primary">Nemotron 3 Super</a><a href="/pages/9ed8ddde53d68481706a3e7f68f59bb62e25a895" class="button secondary">Nemotron 3 Nano</a>

GGUF : [Nemotron-3-Super-120B-A12B-GGUF](https://huggingface.co/unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-GGUF) • [NVFP4](https://huggingface.co/unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4) • [FP8](https://huggingface.co/unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-FP8) • [BF16](https://huggingface.co/unsloth/NVIDIA-Nemotron-3-Super-120B-A12B)

### ⚙️ Guide d'utilisation

NVIDIA recommande ces paramètres pour l'inférence :

{% columns %}
{% column %}
**Chat/instruction général (par défaut) :**

* `temperature = 1.0`
* `top_p = 1.0`
  {% endcolumn %}

{% column %}
**Cas d'utilisation d'appel d'outils :**

* `temperature = 0.6`
* `top_p = 0.95`
  {% endcolumn %}
  {% endcolumns %}

**Pour la plupart des usages locaux, définissez :**

* `max_new_tokens` = `32,768` à `262,144` pour des invites standard avec un maximum de 1M de tokens
* Augmentez pour un raisonnement profond ou une génération longue selon ce que votre RAM/VRAM permet.

Le format du modèle de chat se trouve lorsque nous utilisons ce qui suit :

{% code overflow="wrap" %}

```python
tokenizer.apply_chat_template([
    {"role" : "user", "content" : "What is 1+1?"},
    {"role" : "assistant", "content" : "2"},
    {"role" : "user", "content" : "What is 2+2?"}
    ], add_generation_prompt = True, tokenize = False,
)
```

{% endcode %}

{% hint style="success" %}
Parce que le modèle a été entraîné avec NoPE, vous n'avez qu'à changer `max_position_embeddings`. Le modèle n'utilise pas d'embeddings positionnels explicites, donc YaRN n'est pas nécessaire.
{% endhint %}

#### Format du modèle de chat Nemotron 3 :

{% hint style="info" %}
Nemotron 3 utilise `<think>` avec l'ID de token 12 et `</think>` avec l'ID de token 13 pour le raisonnement. Utilisez `--special` pour voir les tokens pour llama.cpp. Vous pourriez également avoir besoin de `--verbose-prompt` pour voir `<think>` puisqu'il est préfixé.
{% endhint %}

{% code overflow="wrap" lineNumbers="true" %}

```
<|im_start|>system\n<|im_end|>\n<|im_start|>user\nWhat is 1+1?<|im_end|>\n<|im_start|>assistant\n<think></think>2<|im_end|>\n<|im_start|>user\nWhat is 2+2?<|im_end|>\n<|im_start|>assistant\n<think>\n
```

{% endcode %}

### 🖥️ Lancer Nemotron-3-Super-120B-A12B

Selon votre cas d'utilisation, vous devrez utiliser des paramètres différents. Certains GGUF finissent par être similaires en taille parce que l'architecture du modèle (comme [gpt-oss](/docs/fr/modeles/gpt-oss-how-to-run-and-fine-tune.md)) a des dimensions non divisibles par 128, donc des parties ne peuvent pas être quantifiées en bits inférieurs. Accédez aux GGUF [ici](https://huggingface.co/unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-GGUF).

Les versions 4 bits du modèle nécessitent \~64 Go de RAM - 72 Go de RAM. 8 bits nécessite 128 Go.

#### Tutoriel Llama.cpp (GGUF) :

Instructions pour exécuter dans llama.cpp (notez que nous utiliserons du 4 bits pour correspondre à la plupart des appareils) :

{% stepper %}
{% step %}
Obtenez le dernier `llama.cpp` sur [GitHub ici](https://github.com/ggml-org/llama.cpp). Vous pouvez suivre les instructions de construction ci-dessous également. Changez `-DGGML_CUDA=ON` à `-DGGML_CUDA=OFF` si vous n'avez pas de GPU ou si vous voulez simplement une inférence CPU.

{% code overflow="wrap" %}

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

{% endcode %}
{% endstep %}

{% step %}
Vous pouvez directement récupérer depuis Hugging Face. Vous pouvez augmenter le contexte à 1M selon ce que votre RAM/VRAM permet.

Suivez ceci pour **cas d'instruction généraux**  :

```bash
./llama.cpp/llama-cli \
    -hf unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 1.0 --top-p 1.0
```

Suivez ceci pour **appel d'outils**  :

```bash
./llama.cpp/llama-cli \
    -hf unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-GGUF:UD-Q4_K_XL \
    --ctx-size 32768 \
    --temp 0.6 --top-p 0.95
```

{% endstep %}

{% step %}
Téléchargez le modèle via (après avoir installé `pip install huggingface_hub hf_transfer` ). Vous pouvez choisir Q4\_K\_M ou d'autres versions quantifiées comme `UD-Q4_K_XL` . Nous recommandons d'utiliser au moins la quantification dynamique 2 bits `UD-Q2_K_XL` pour équilibrer taille et précision. Si les téléchargements se bloquent, voyez : [Hugging Face Hub, débogage XET](/docs/fr/bases/troubleshooting-and-faqs/hugging-face-hub-xet-debugging.md)

```bash
hf download unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-GGUF \
    --local-dir unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-GGUF \
    --include "*UD-Q4_K_XL*" # Utilisez "*UD-Q2_K_XL*" pour le dynamique 2 bits
```

{% endstep %}

{% step %}
Ensuite, exécutez le modèle en mode conversation :

{% code overflow="wrap" %}

```bash
/llama.cpp/llama-cli \
    --model unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-GGUF/UD-Q4_K_XL/NVIDIA-Nemotron-3-Super-120B-A12B-UD-Q4_K_XL-00001-of-00003.gguf \
    --ctx-size 16384 \
    --seed 3407 \
    --prio 2 \
    --temp 0.6 \
    --top-p 0.95
```

{% endcode %}

<figure><img src="/files/1c47e00d9d93fb705f6035430f9f2d1fc154f0f3" alt=""><figcaption></figcaption></figure>

Aussi, ajustez **la fenêtre de contexte** selon les besoins. Assurez-vous que votre matériel peut gérer plus qu'une fenêtre de contexte de 256K. La définir à 1M peut déclencher un OOM CUDA et planter, c'est pourquoi la valeur par défaut est 262 144.
{% endstep %}
{% endstepper %}

### 🦥 Affinage de Nemotron 3 et RL

Unsloth prend désormais en charge l'affinage de tous les modèles Nemotron, y compris Nemotron 3 Super et Nano. Pour des exemples de notebooks pour Nano, voyez notre [guide d'affinage Nano](/docs/fr/modeles/nemotron-3.md).

#### Nemotron 3 Super

* L'affinage des couches de routage est désactivé par défaut pour la stabilité.
* Nemotron-3-Super-120B - LoRA bf16 fonctionne sur 256 Go de VRAM. Si vous utilisez plusieurs GPU, ajoutez     `device_map = "balanced"` ou suivez notre [Guide multiGPU](/docs/fr/bases/multi-gpu-training-with-unsloth.md).

### 🦙Service & déploiement Llama-server

Pour déployer Nemotron 3 en production, nous utilisons `llama-server` Dans un nouveau terminal, par exemple via tmux, déployez le modèle via :

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-server \
    --model unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-GGUF/UD-Q4_K_XL/NVIDIA-Nemotron-3-Super-120B-A12B-UD-Q4_K_XL-00001-of-00003.gguf \
    --alias "unsloth/NVIDIA-Nemotron-3-Super-120B-A12B" \
    --prio 3 \
    --min_p 0.01 \
    --temp 0.6 \
    --top-p 0.95 \
    --ctx-size 16384 \
    --port 8001
```

{% endcode %}

Quand vous exécutez ce qui précède, vous obtiendrez :

<figure><img src="/files/88a83c8461427311b44b66bde66aa1bbedc97960" alt=""><figcaption></figcaption></figure>

Puis dans un nouveau terminal, après avoir fait `pip install openai`, faites :

{% code overflow="wrap" %}

```python
from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/NVIDIA-Nemotron-3-Super-120B-A12B",
    messages = [{"role": "user", "content": "What is 2+2?"},],
)
print(completion.choices[0].message.reasoning_content)
print(completion.choices[0].message.content)
```

{% endcode %}

Ce qui imprimera

{% code overflow="wrap" %}

```
D'accord, l'utilisateur a demandé "What is 2+2?" Cela semble être une question d'arithmétique très basique.

Hmm, peut-être qu'il teste si je fais attention, ou peut-être que c'est un jeune enfant qui apprend les maths. Cela peut aussi être quelqu'un qui vérifie si je vais surcompliquer une question simple.

Je devrais rester simple puisque rien n'indique une ruse dans la requête. La réponse est définitivement 4 - pas besoin de douter d'une addition basique.

Bien que je me demande si on prépare une blague (comme "2+2=5 pour de grandes valeurs de 2"), mais comme aucun contexte n'a été suggéré, je supposerai qu'il s'agit d'une demande sincère.

Mieux vaut répondre clairement et chaleureusement - cela pourrait les encourager à poser plus de questions s'ils apprennent. Pas besoin de fioritures ; énoncez simplement le fait de manière utile.

2 + 2 égale **4**.

Ceci est un fait arithmétique fondamental en notation décimale (base 10). Si vous demandez dans un autre contexte (comme l'arithmétique modulaire, le binaire, ou une blague/référence), n'hésitez pas à préciser — je peux m'adapter ! 😊
```

{% endcode %}

### Benchmarks

Comparé à des modèles de taille similaire, Nemotron 3 Super offre des performances compétitives, tout en fournissant le débit le plus élevé.

<figure><img src="/files/c7ffe504c04c638a74dde116ae587b9ef46d20d4" alt=""><figcaption></figcaption></figure>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/fr/modeles/nemotron-3/nemotron-3-super.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.