# NVIDIA Nemotron 3 Nano - Guide d'exécution NVIDIA publie **Nemotron-3-Nano-4B**, un modèle hybride MoE ouvert de 4B qui suit [Nemotron-3-Super-120B-A12B](/docs/fr/modeles/nemotron-3/nemotron-3-super.md) et Nemotron-3-Nano-30B-A3B. La famille Nemotron est conçue pour des charges de travail de codage, de mathématiques et agentiques rapides et précises. Elles offrent une **fenêtre de contexte de 1M de jetons** et sont compétitives sur les benchmarks de raisonnement, de chat et de débit. Nemotron-3-Nano-4B fonctionne avec **5 Go** de RAM, de VRAM ou de mémoire unifiée. Nemotron-3-Nano-30A3B fonctionne avec **24 Go** de RAM. Nemotron 3 peut désormais être affiné localement via [Unsloth](https://github.com/unslothai/unsloth). Merci à NVIDIA d’avoir offert à Unsloth une prise en charge dès le premier jour. Nemotron-3-Nano-4B Nemotron-3-Nano-30B-A3B Affinage de Nemotron 3 | [Nemotron-3-Nano-**4B**-GGUF](https://huggingface.co/unsloth/NVIDIA-Nemotron-3-Nano-4B-GGUF) | [Nemotron-3-**Nano-30B-A3B**-GGUF](https://huggingface.co/unsloth/Nemotron-3-Nano-30B-A3B-GGUF) | | -------------------------------------------------------------------------------------------- | ----------------------------------------------------------------------------------------------- | ### ⚙️ Guide d’utilisation NVIDIA recommande ces paramètres pour l’inférence : {% columns %} {% column %} **Chat/instructions générales (par défaut) :** * `température = 1.0` * `top_p = 1.0` {% endcolumn %} {% column %} **Cas d’usage d’appel d’outils :** * `température = 0.6` * `top_p = 0.95` {% endcolumn %} {% endcolumns %} **Pour la plupart des utilisations locales, définissez :** * `max_new_tokens` = `32,768` en `262,144` pour les invites standard avec un maximum de 1M de jetons * Augmentez-le pour un raisonnement approfondi ou une génération de longue durée selon la capacité de votre RAM/VRAM. Le format du modèle de conversation se trouve lorsque nous utilisons ce qui suit : {% code overflow="wrap" %} ```python tokenizer.apply_chat_template([ {"role" : "user", "content" : "What is 1+1?"}, {"role" : "assistant", "content" : "2"}, {"role" : "user", "content" : "What is 2+2?"} ], add_generation_prompt = True, tokenize = False, ) ``` {% endcode %} {% hint style="success" %} Comme le modèle a été entraîné avec NoPE, vous n’avez qu’à modifier `max_position_embeddings`. Le modèle n’utilise pas d’embeddings positionnels explicites, donc YaRN n’est pas nécessaire. {% endhint %} #### Format du modèle de conversation Nemotron 3 : {% hint style="info" %} Nemotron 3 utilise `` avec l’ID de jeton 12 et `` avec l’ID de jeton 13 pour le raisonnement. Utilisez `--special` pour voir les jetons pour llama.cpp. Vous devrez peut-être aussi utiliser `--verbose-prompt` pour voir `` car il est préfixé. {% endhint %} {% code overflow="wrap" lineNumbers="true" %} ``` <|im_start|>system\n<|im_end|>\n<|im_start|>user\nWhat is 1+1?<|im_end|>\n<|im_start|>assistant\n2<|im_end|>\n<|im_start|>user\nWhat is 2+2?<|im_end|>\n<|im_start|>assistant\n\n ``` {% endcode %} ## 🖥️ Exécuter Nemotron-3-Nano-4B Selon votre cas d’utilisation, vous devrez utiliser différents paramètres. Certains GGUF finissent par avoir une taille similaire parce que l’architecture du modèle (comme [gpt-oss](/docs/fr/modeles/gpt-oss-how-to-run-and-fine-tune.md)) a des dimensions non divisibles par 128, donc certaines parties ne peuvent pas être quantifiées à un nombre de bits inférieur. Les versions 4 bits du modèle nécessitent environ 3 Go de RAM. 8 bits nécessitent 5 Go. ### 🦥 Guide Unsloth Studio Nemotron 3 peut être exécuté et affiné dans [Unsloth Studio](/docs/fr/nouveau/studio.md), notre nouvelle interface web open source pour l’IA locale. Avec Unsloth Studio, vous pouvez exécuter des modèles localement sur **MacOS, Windows**, Linux et : {% columns %} {% column %} * Rechercher, télécharger, [exécuter des GGUF](/docs/fr/nouveau/studio.md#run-models-locally) et des modèles safetensor * [**Auto-réparation** appel d’outils](/docs/fr/nouveau/studio.md#execute-code--heal-tool-calling) + **recherche web** * [**Exécution de code**](/docs/fr/nouveau/studio.md#run-models-locally) (Python, Bash) * [Inférence automatique](/docs/fr/nouveau/studio.md#model-arena) réglage des paramètres (temp, top-p, etc.) * Inférence rapide CPU + GPU via llama.cpp * [Entraîner des LLM](/docs/fr/nouveau/studio.md#no-code-training) 2x plus vite avec 70 % de VRAM en moins {% endcolumn %} {% column %}

{% endcolumn %} {% endcolumns %} {% stepper %} {% step %} #### Installer Unsloth Exécutez dans votre terminal : **MacOS, Linux, WSL :** ```bash curl -fsSL https://unsloth.ai/install.sh | sh ``` **Windows PowerShell :** ```bash irm https://unsloth.ai/install.ps1 | iex ``` {% endstep %} {% step %} #### Lancer Unsloth **MacOS, Linux, WSL, Windows :** ```bash unsloth studio -H 0.0.0.0 -p 8888 ```

**Puis ouvrez `http://localhost:8888` dans votre navigateur.** {% endstep %} {% step %} #### Rechercher et télécharger Nemotron-3-Nano-4B Lors du premier lancement, vous devrez créer un mot de passe pour sécuriser votre compte et vous reconnecter plus tard. Vous verrez ensuite un bref assistant de configuration pour choisir un modèle, un jeu de données et des paramètres de base. Vous pouvez le passer à tout moment. Ensuite, allez dans l’onglet [Studio Chat](/docs/fr/nouveau/studio/chat.md) et recherchez Nemotron-3-Nano-4B dans la barre de recherche, puis téléchargez le modèle et la quantification souhaités.

{% endstep %} {% step %} #### Exécuter Nemotron-3-Nano-4B Les paramètres d’inférence devraient être définis automatiquement lors de l’utilisation d’Unsloth Studio ; toutefois, vous pouvez toujours les modifier manuellement. Vous pouvez également modifier la longueur du contexte, le modèle de conversation et d’autres réglages. Pour plus d’informations, vous pouvez consulter notre [guide d’inférence Unsloth Studio](/docs/fr/nouveau/studio/chat.md).

{% endstep %} {% endstepper %} ### Tutoriel Llama.cpp : Instructions pour l’exécution dans llama.cpp (nous utiliserons du 8 bits pour une précision quasi maximale) : {% stepper %} {% step %} Obtenez la dernière version `llama.cpp` sur [GitHub ici](https://github.com/ggml-org/llama.cpp). Vous pouvez également suivre les instructions de compilation ci-dessous. Changez `-DGGML_CUDA=ON` en `-DGGML_CUDA=OFF` si vous n’avez pas de GPU ou si vous souhaitez simplement une inférence CPU. {% code overflow="wrap" %} ```bash apt-get update apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y git clone https://github.com/ggml-org/llama.cpp cmake llama.cpp -B llama.cpp/build \ -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split cp llama.cpp/build/bin/llama-* llama.cpp ``` {% endcode %} {% endstep %} {% step %} Vous pouvez le récupérer directement depuis Hugging Face. Vous pouvez augmenter le contexte jusqu’à 1M selon la capacité de votre RAM/VRAM. Suivez ceci pour les **cas d’utilisation d’instructions générales** : ```bash ./llama.cpp/llama-cli \ -hf unsloth/NVIDIA-Nemotron-3-Nano-4B-GGUF:Q8_0 \ --ctx-size 16384 \ --temp 1.0 --top-p 1.0 ``` Suivez ceci pour les **appel d’outils** : ```bash ./llama.cpp/llama-cli \ -hf unsloth/NVIDIA-Nemotron-3-Nano-4B-GGUF:Q8_0 \ --ctx-size 32768 \\ --temp 0.6 --top-p 0.95 ``` {% endstep %} {% step %} Téléchargez le modèle via (après avoir installé `pip install huggingface_hub hf_transfer` ). Vous pouvez choisir `Q8_0` ou d’autres versions quantifiées. ```python # !pip install huggingface_hub hf_transfer import os os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1" from huggingface_hub import snapshot_download snapshot_download( repo_id = "unsloth/NVIDIA-Nemotron-3-Nano-4B-GGUF", local_dir = "unsloth/NVIDIA-Nemotron-3-Nano-4B-GGUF", allow_patterns = ["*Q8_0*"], ) ``` {% endstep %} {% step %} Puis exécutez le modèle en mode conversation : {% code overflow="wrap" %} ```bash ./llama.cpp/llama-cli \ --model unsloth/NVIDIA-Nemotron-3-Nano-4B-GGUF/NVIDIA-Nemotron-3-Nano-4B-Q8_0.gguf \ --ctx-size 16384 \ --seed 3407 \ --prio 2 \ --temp 0.6 \ --top-p 0.95 ``` {% endcode %} Aussi, ajustez **la fenêtre de contexte** selon les besoins. Assurez-vous que votre matériel peut gérer plus qu’une fenêtre de contexte de 256K. La régler à 1M peut déclencher une OOM CUDA et provoquer un plantage, c’est pourquoi la valeur par défaut est 262 144. {% endstep %} {% endstepper %} ## 🖥️ Exécuter Nemotron-3-Nano-30B-A3B Selon votre cas d’utilisation, vous devrez utiliser différents paramètres. Certains GGUF finissent par avoir une taille similaire parce que l’architecture du modèle (comme [gpt-oss](/docs/fr/modeles/gpt-oss-how-to-run-and-fine-tune.md)) a des dimensions non divisibles par 128, donc certaines parties ne peuvent pas être quantifiées à un nombre de bits inférieur. Les versions 4 bits du modèle nécessitent environ 24 Go de RAM. 8 bits nécessitent 36 Go. ### 🦥 Guide Unsloth Studio Pour ce tutoriel, nous utiliserons [Unsloth Studio](/docs/fr/nouveau/studio.md), qui est notre nouvelle interface web pour exécuter et entraîner des LLM. Avec Unsloth Studio, vous pouvez exécuter des modèles localement sur **Mac, Windows**, et Linux, et : {% columns %} {% column %} * Rechercher, télécharger, [exécuter des GGUF](/docs/fr/nouveau/studio.md#run-models-locally) et des modèles safetensor * **Comparer** les modèles **côte à côte** * [**Auto-réparation** appel d’outils](/docs/fr/nouveau/studio.md#execute-code--heal-tool-calling) + **recherche web** * [**Exécution de code**](/docs/fr/nouveau/studio.md#run-models-locally) (Python, Bash) * [Inférence automatique](/docs/fr/nouveau/studio.md#model-arena) réglage des paramètres (temp, top-p, etc.) * [Entraîner des LLM](/docs/fr/nouveau/studio.md#no-code-training) 2x plus vite avec 70 % de VRAM en moins {% endcolumn %} {% column %}

{% endcolumn %} {% endcolumns %} {% stepper %} {% step %} #### Installer Unsloth **MacOS, Linux, WSL :** ```bash curl -fsSL https://unsloth.ai/install.sh | sh ``` **Windows PowerShell :** ```bash irm https://unsloth.ai/install.ps1 | iex ``` {% endstep %} {% step %} #### Configurer Unsloth Studio (une seule fois) La configuration installe automatiquement Node.js (via nvm), compile le frontend, installe toutes les dépendances Python et compile llama.cpp avec la prise en charge CUDA. {% hint style="info" %} **Utilisateurs WSL :** il vous sera demandé votre `sudo` mot de passe pour installer les dépendances de compilation (`cmake`, `git`, `libcurl4-openssl-dev`). {% endhint %} {% endstep %} {% step %} #### Lancer Unsloth **MacOS, Linux, WSL :** ```bash source unsloth_studio/bin/activate unsloth studio -H 0.0.0.0 -p 8888 ``` **Windows PowerShell :** ```bash & .\unsloth_studio\Scripts\unsloth.exe studio -H 0.0.0.0 -p 8888 ```

**Puis ouvrez `http://localhost:8888` dans votre navigateur.** {% endstep %} {% step %} #### Rechercher et télécharger Nemotron-3-Nano-30B-A3B Lors du premier lancement, vous devrez créer un mot de passe pour sécuriser votre compte et vous reconnecter plus tard. Vous verrez ensuite un bref assistant de configuration pour choisir un modèle, un jeu de données et des paramètres de base. Vous pouvez le passer à tout moment. Ensuite, allez dans l’onglet [Studio Chat](/docs/fr/nouveau/studio/chat.md) et recherchez Nemotron-3-Nano-4B dans la barre de recherche, puis téléchargez le modèle et la quantification souhaités.

{% endstep %} {% step %} #### Exécuter Nemotron-3-Nano-30B-A3B Les paramètres d’inférence devraient être définis automatiquement lors de l’utilisation d’Unsloth Studio ; toutefois, vous pouvez toujours les modifier manuellement. Vous pouvez également modifier la longueur du contexte, le modèle de conversation et d’autres réglages. Pour plus d’informations, vous pouvez consulter notre [guide d’inférence Unsloth Studio](/docs/fr/nouveau/studio/chat.md).

{% endstep %} {% endstepper %} ### Tutoriel Llama.cpp : Instructions pour l’exécution dans llama.cpp (notez que nous utiliserons du 4 bits pour convenir à la plupart des appareils) : {% stepper %} {% step %} Obtenez la dernière version `llama.cpp` sur [GitHub ici](https://github.com/ggml-org/llama.cpp). Vous pouvez également suivre les instructions de compilation ci-dessous. Changez `-DGGML_CUDA=ON` en `-DGGML_CUDA=OFF` si vous n’avez pas de GPU ou si vous souhaitez simplement une inférence CPU. **Pour les appareils Apple Mac / Metal**, définissez `-DGGML_CUDA=OFF` puis continuez comme d'habitude - la prise en charge de Metal est activée par défaut. {% code overflow="wrap" %} ```bash apt-get update apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y git clone https://github.com/ggml-org/llama.cpp cmake llama.cpp -B llama.cpp/build \ -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split cp llama.cpp/build/bin/llama-* llama.cpp ``` {% endcode %} {% endstep %} {% step %} Vous pouvez le récupérer directement depuis Hugging Face. Vous pouvez augmenter le contexte jusqu’à 1M selon la capacité de votre RAM/VRAM. Suivez ceci pour les **cas d’utilisation d’instructions générales** : ```bash ./llama.cpp/llama-cli \ -hf unsloth/Nemotron-3-Nano-30B-A3B-GGUF:UD-Q4_K_XL \ --ctx-size 32768 \\ --temp 1.0 --top-p 1.0 ``` Suivez ceci pour les **appel d’outils** : ```bash ./llama.cpp/llama-cli \ -hf unsloth/Nemotron-3-Nano-30B-A3B-GGUF:UD-Q4_K_XL \ --ctx-size 32768 \\ --temp 0.6 --top-p 0.95 ``` {% endstep %} {% step %} Téléchargez le modèle via (après avoir installé `pip install huggingface_hub hf_transfer` ). Vous pouvez choisir `UD-Q4_K_XL` ou d’autres versions quantifiées. ```python # !pip install huggingface_hub hf_transfer import os os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1" from huggingface_hub import snapshot_download snapshot_download( repo_id = "unsloth/Nemotron-3-Nano-30B-A3B-GGUF", local_dir = "unsloth/Nemotron-3-Nano-30B-A3B-GGUF", allow_patterns = ["*UD-Q4_K_XL*"], ) ``` {% endstep %} {% step %} Puis exécutez le modèle en mode conversation : {% code overflow="wrap" %} ```bash ./llama.cpp/llama-cli \ --model unsloth/Nemotron-3-Nano-30B-A3B-GGUF/Nemotron-3-Nano-30B-A3B-UD-Q4_K_XL.gguf \ --ctx-size 16384 \ --seed 3407 \ --prio 2 \ --temp 0.6 \ --top-p 0.95 ``` {% endcode %} Aussi, ajustez **la fenêtre de contexte** selon les besoins. Assurez-vous que votre matériel peut gérer plus qu’une fenêtre de contexte de 256K. La régler à 1M peut déclencher une OOM CUDA et provoquer un plantage, c’est pourquoi la valeur par défaut est 262 144. {% hint style="info" %} Nemotron 3 utilise `` avec l’ID de jeton 12 et `` avec l’ID de jeton 13 pour le raisonnement. Utilisez `--special` pour voir les jetons pour llama.cpp. Vous devrez peut-être aussi utiliser `--verbose-prompt` pour voir `` car il est préfixé. {% endhint %} {% endstep %} {% endstepper %} ### 🦥 Affinage de Nemotron 3 et RL Unsloth prend désormais en charge l’affinage de tous les modèles Nemotron, y compris Nemotron 3 Super et Nano. Le modèle 4B tient sur un GPU Colab gratuit, cependant le modèle 30B ne tient pas. Nous avons tout de même créé pour vous un notebook Colab A100 de 80 Go pour l’affinage. L’affinage LoRA en 16 bits de Nemotron 3 Nano utilisera environ **60 Go de VRAM**: * [Notebook SFT LoRA Nemotron-3-Nano-30B-A3B](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Nemotron-3-Nano-30B-A3B_A100.ipynb) {% embed url="" %} Concernant l’affinage des MoE, ce n’est probablement pas une bonne idée d’affiner la couche routeur, donc nous l’avons désactivée par défaut. Si vous souhaitez conserver ses capacités de raisonnement (optionnel), vous pouvez utiliser un mélange de réponses directes et d’exemples de chaîne de pensée. Utilisez au moins 75 % de raisonnement et 25 % sans raisonnement dans votre jeu de données pour que le modèle conserve ses capacités de raisonnement. #### :sparkles:Apprentissage par renforcement + NeMo Gym Nous avons travaillé avec l’équipe open source de NVIDIA [NeMo Gym](https://github.com/NVIDIA-NeMo/Gym/pull/492) pour démocratiser les environnements RL. Notre collaboration permet un entraînement RL en un seul tour pour de nombreux domaines d’intérêt, notamment les mathématiques, le codage, l’utilisation d’outils, etc., en utilisant les environnements d’entraînement et les jeux de données de NeMo Gym : {% columns %} {% column %} [Notebook d’apprentissage par renforcement NeMo Gym Sudoku](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/nemo_gym_sudoku.ipynb) {% embed url="" %} {% endcolumn %} {% column %} [Notebook NeMo Gym Multi Environments pour l’apprentissage par renforcement](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/NeMo-Gym-Multi-Environment.ipynb) {% embed url="" %} {% endcolumn %} {% endcolumns %} {% hint style="success" %} **Consultez également notre dernier guide de collaboration publié sur le blog officiel Developer de NVIDIA :** #### [Comment affiner un LLM sur des GPU NVIDIA avec Unsloth](https://blogs.nvidia.com/blog/rtx-ai-garage-fine-tuning-unsloth-dgx-spark/) {% endhint %} {% embed url="" %} ### 🦙 Hébergement et déploiement de Llama-server Pour déployer Nemotron 3 en production, nous utilisons `llama-server` Dans un nouveau terminal, par exemple via tmux, déployez le modèle via : {% code overflow="wrap" %} ```bash ./llama.cpp/llama-server \ --model unsloth/Nemotron-3-Nano-30B-A3B-GGUF/Nemotron-3-Nano-30B-A3B-UD-Q4_K_XL.gguf \ --alias "unsloth/Nemotron-3-Nano-30B-A3B" \ --prio 3 \ --min-p 0.01 \ --temp 0.6 \ --top-p 0.95 \ --ctx-size 16384 \ --port 8001 ``` {% endcode %} Lorsque vous exécutez ce qui précède, vous obtiendrez :

Puis dans un nouveau terminal, après avoir fait `pip install openai`, faites : {% code overflow="wrap" %} ```python from openai import OpenAI import json openai_client = OpenAI( base_url = "http://127.0.0.1:8001/v1", api_key = "sk-no-key-required", ) completion = openai_client.chat.completions.create( model = "unsloth/Nemotron-3-Nano-30B-A3B", messages = [{"role": "user", "content": "What is 2+2?"},], ) print(completion.choices[0].message.content) ``` {% endcode %} Qui affichera {% code overflow="wrap" %} ``` L’utilisateur pose une question simple : "What is 2+2?" La réponse est 4. Fournissez la réponse. 2 + 2 = 4. ``` {% endcode %} ### Benchmarks Nemotron-3-Nano-4B est le modèle le plus performant pour sa taille, y compris en débit.

Nemotron-3-Nano-30B-A3B est le modèle le plus performant sur tous les benchmarks, y compris en débit.

--- # Agent Instructions: Querying This Documentation If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question. Perform an HTTP GET request on the current page URL with the `ask` query parameter: ``` GET https://unsloth.ai/docs/fr/modeles/nemotron-3.md?ask= ``` The question should be specific, self-contained, and written in natural language. The response will contain a direct answer to the question and relevant excerpts and sources from the documentation. Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.