> For the complete documentation index, see [llms.txt](https://unsloth.ai/docs/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://unsloth.ai/docs/fr/modeles/nemotron-3-nano-omni.md). # NVIDIA Nemotron 3 Nano Omni - Comment l'exécuter localement NVIDIA Nemotron-3-Nano-Omni-30B-A3B est un modèle MoE hybride de raisonnement ouvert de 30B paramètres, dont 3B actifs, conçu pour des charges de travail agentiques multimodales incluant **audio**, **la vidéo**, le texte, les images et les documents comme entrées, avec une sortie texte. Le modèle fonctionne sur **25 Go de RAM** pour le 4 bits et 36 Go pour le 8 bits. Avec un **contexte de 256K**, Nemotron 3 Nano Omni est le **omni le plus performant** modèle de sa taille et le modèle multimodal ouvert le plus efficace. Nous avons collaboré avec NVIDIA pour une prise en charge dès le premier jour !\ **GGUF :** [Nemotron-3-Nano-Omni-30B-A3B-Reasoning](https://huggingface.co/unsloth/Nemotron-3-Nano-30B-A3B-GGUF) ### ⚙️ Guide d'utilisation NVIDIA recommande ces paramètres pour l’inférence : {% columns %} {% column %} **Mode réflexion :** * `température = 0,6` * `top_p = 0,95` {% endcolumn %} {% column %} **Mode Instruct :** * `température = 0,2` {% endcolumn %} {% endcolumns %} ### Exécuter Nemotron-3-Nano-Omni Selon votre cas d’utilisation, vous devrez utiliser [des paramètres différents](#usage-guide). Certains GGUF finissent par avoir une taille similaire parce que l’architecture du modèle (comme [gpt-oss](/docs/fr/modeles/gpt-oss-how-to-run-and-fine-tune.md)) comporte des dimensions non divisibles par 128, donc certaines parties ne peuvent pas être quantifiées sur moins de bits. **GGUF :** [Nemotron-3-Nano-Omni-30B-A3B-Reasoning](https://huggingface.co/unsloth/Nemotron-3-Nano-30B-A3B-GGUF) Les versions 4 bits du modèle nécessitent \~25 Go de RAM. La version 8 bits nécessite 36 Go. Pour ces guides, nous utiliserons `UD-Q4-K-XL` qui offre un bon équilibre entre taille et précision. Exécuter dans Unsloth Studio Exécuter dans llama.cpp {% hint style="warning" %} Actuellement, aucun GGUF multimodal/vision ne fonctionne dans **Ollama** en raison de fichiers de vision séparés. Utilisez des backends compatibles avec llama.cpp. `mmproj` fichiers de vision. N'utilisez PAS **CUDA 13.2** car vous pourriez obtenir des sorties incohérentes. NVIDIA travaille sur un correctif. {% endhint %} ### 🦥 Guide Unsloth Studio Pour ce tutoriel, nous utiliserons [Unsloth Studio](/docs/fr/nouveau/studio.md), qui est notre nouvelle interface Web pour exécuter et entraîner des LLM. Avec Unsloth Studio, vous pouvez exécuter des modèles et saisir **audio**, image et texte localement sur **Mac, Windows**, et Linux et : {% columns %} {% column %} * Rechercher, télécharger, [exécuter des GGUF](/docs/fr/nouveau/studio.md#run-models-locally) et des modèles safetensor * **Comparer** les modèles **côte à côte** * [**Appels d'outils auto-réparateurs** appels d'outils](/docs/fr/nouveau/studio.md#execute-code--heal-tool-calling) + **recherche web** * [**Exécution de code**](/docs/fr/nouveau/studio.md#run-models-locally) (Python, Bash) * [Inférence automatique](/docs/fr/nouveau/studio.md#model-arena) réglage des paramètres (temp, top-p, etc.) * [Entraîner des LLM](/docs/fr/nouveau/studio.md#no-code-training) 2x plus vite avec 70 % de VRAM en moins {% endcolumn %} {% column %}

{% endcolumn %} {% endcolumns %} {% stepper %} {% step %} #### Installer Unsloth **MacOS, Linux, WSL :** ```bash curl -fsSL https://unsloth.ai/install.sh | sh ``` **Windows PowerShell :** ```bash irm https://unsloth.ai/install.ps1 | iex ``` {% endstep %} {% step %} #### Configurer Unsloth Studio (une seule fois) La configuration installe automatiquement Node.js (via nvm), construit le frontend, installe toutes les dépendances Python et compile llama.cpp avec la prise en charge CUDA. {% hint style="info" %} **Utilisateurs WSL :** vous serez invité à saisir votre `sudo` mot de passe pour installer les dépendances de compilation (`cmake`, `git`, `libcurl4-openssl-dev`). {% endhint %} {% endstep %} {% step %} #### Lancer Unsloth **MacOS, Linux, WSL :** ```bash source unsloth_studio/bin/activate unsloth studio -H 0.0.0.0 -p 8888 ``` **Windows PowerShell :** ```bash unsloth studio -H 0.0.0.0 -p 8888 ```

Puis ouvrez `http://127.0.0.1:8888` dans votre navigateur. {% endstep %} {% step %} #### Rechercher et télécharger NVIDIA-Nemotron-3-Nano-30B-A3B-Omni Au premier lancement, vous devrez créer un mot de passe pour sécuriser votre compte et vous reconnecter plus tard. Puis allez dans l' [Unsloth Chat](/docs/fr/nouveau/studio/chat.md) onglet et recherchez Nemotron-3-Nano-Omni dans la barre de recherche, puis téléchargez le modèle et la quantification souhaités.

{% endstep %} {% step %} #### Exécuter Nemotron-3-Nano-30B-A3B-Omni Les paramètres d’inférence devraient être définis automatiquement lors de l’utilisation d’Unsloth Studio, mais vous pouvez toujours les modifier manuellement. Vous pouvez également modifier la longueur du contexte, le modèle de chat et d’autres paramètres. Pour plus d'informations, vous pouvez consulter notre [guide d'inférence Unsloth Studio](/docs/fr/nouveau/studio/chat.md).

{% endstep %} {% endstepper %} ### 🦙 Tutoriel Llama.cpp : Instructions pour exécuter dans llama.cpp (notez que nous utiliserons du 4 bits pour s’adapter à la plupart des appareils) : {% stepper %} {% step %} Obtenez la dernière `llama.cpp` sur [GitHub ici](https://github.com/ggml-org/llama.cpp). Vous pouvez également suivre les instructions de compilation ci-dessous. Modifiez `-DGGML_CUDA=ON` à `-DGGML_CUDA=OFF` si vous n'avez pas de GPU ou si vous voulez simplement une inférence CPU. **Pour les appareils Apple Mac / Metal**, définissez `-DGGML_CUDA=OFF` puis continuez comme d'habitude - la prise en charge de Metal est activée par défaut. {% code overflow="wrap" %} ```bash apt-get update apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y git clone https://github.com/ggml-org/llama.cpp cmake llama.cpp -B llama.cpp/build \\ -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split cp llama.cpp/build/bin/llama-* llama.cpp ``` {% endcode %} {% endstep %} {% step %} **Prenons d’abord une image !** Vous pouvez également téléverser des images. Nous utiliserons , qui n’est que notre mini-logo montrant comment les fine-tunes sont réalisés avec Unsloth : {% code overflow="wrap" %} ```bash wget https://raw.githubusercontent.com/unslothai/unsloth/refs/heads/main/images/unsloth%20made%20with%20love.png -O unsloth.png ``` {% endcode %}

Prenons aussi la 2e image à {% code overflow="wrap" %} ```bash wget https://files.worldwildlife.org/wwfcmsprod/images/Sloth_Sitting_iStock_3_12_2014/story_full_width/8l7pbjmj29_iStock_000011145477Large_mini__1_.jpg -O picture.png ``` {% endcode %}

{% endstep %} {% step %} Téléchargeons maintenant le modèle manuellement. Nous pouvons le faire via le code ci-dessous (après avoir installé pip install huggingface\_hub). Si les téléchargements se bloquent, voir : [Hugging Face Hub, débogage XET](/docs/fr/bases/troubleshooting-and-faqs/hugging-face-hub-xet-debugging.md) {% code overflow="wrap" %} ```bash pip install huggingface_hub hf download unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning-GGUF \\ --local-dir unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning-GGUF \\ --include "*mmproj-BF16*" \ --include "*UD-Q4_K_XL*" # Utilisez "*UD-Q2_K_XL*" pour le dynamique 2 bits ``` {% endcode %} {% endstep %} {% step %} Puis exécutez le modèle en mode conversation : {% code overflow="wrap" %} ```bash ./llama.cpp/llama-cli \\ --model unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning-GGUF/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning-UD-Q4_K_XL.gguf \\ --mmproj unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning-GGUF/mmproj-BF16.gguf \\ --temp 0.6 \\ --top-p 0.95 \\ --min-p 0.01 ``` {% endcode %} {% endstep %} {% step %} Vous verrez alors ce qui suit :

{% endstep %} {% step %} Ensuite, utilisez `/image` pour charger les deux images et demander « Quelle est cette image » :

{% endstep %} {% step %} Et pour l’image du paresseux :

{% endstep %} {% endstepper %} #### Mise à disposition et déploiement de llama-server Pour déployer Nemotron 3 Nano Omni localement, utilisez `llama-server`. Dans un nouveau terminal, par exemple via `tmux`, déployez le modèle : ```bash ./llama.cpp/llama-server \\ -hf unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning-GGUF:UD-Q4_K_XL \\ --alias "unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning" \\ --prio 3 \\ --temp 0.6 \\ --top-p 0.95 \\ --port 8001 ``` Si vous avez téléchargé le modèle manuellement, utilisez : {% code overflow="wrap" %} ```bash ./llama.cpp/llama-server \\ --model unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning-GGUF/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning-UD-Q4_K_XL.gguf \\ --mmproj unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning-GGUF/mmproj-BF16.gguf \\ --alias "unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning" \\ --prio 3 \\ --temp 0.6 \\ --top-p 0.95 \\ --port 8001 ``` {% endcode %} Ensuite, dans un nouveau terminal, après avoir installé le client OpenAI avec `pip install openai`: ```python from openai import OpenAI openai_client = OpenAI( base_url = "http://127.0.0.1:8001/v1", api_key = "sk-no-key-required", ) completion = openai_client.chat.completions.create( model = "unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning", messages = [ {"role": "user", "content": "What is 2+2?"}, ], ) print(completion.choices[0].message.reasoning_content) print(completion.choices[0].message.content) ``` Ce qui affichera quelque chose comme ci-dessous :

#### Entrée d’image via le serveur compatible OpenAI Utilisons `picture.png` qui était l’image du paresseux comme dans [#llama.cpp-tutorial](#llama.cpp-tutorial "mention") {% code expandable="true" %} ```python from openai import OpenAI import base64 import mimetypes image_link = "picture.png" def file_to_data_url(path: str) -> str: mime = mimetypes.guess_type(path)[0] or "application/octet-stream" with open(path, "rb") as f: data = base64.b64encode(f.read()).decode("utf-8") return f"data:{mime};base64,{data}" openai_client = OpenAI( base_url = "http://127.0.0.1:8001/v1", api_key = "sk-no-key-required", ) completion = openai_client.chat.completions.create( model = "unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning", messages = [ { "role": "user", "content": [ { "type": "text", "text": "Quelle est cette image ?", }, { "type": "image_url", "image_url": { "url": file_to_data_url(image_link), }, }, ], } ], ) print(completion.choices[0].message.reasoning_content) print(completion.choices[0].message.content) ``` {% endcode %} Ce qui affichera quelque chose comme ci-dessous :

### 🦥 Fine-tuning de Nemotron 3 Nano Omni Unsloth prend en charge l’ensemble de la [famille de modèles Nemotron](/docs/fr/modeles/nemotron-3.md) Nemotron 3 Nano Omni est utile pour les ensembles de données agentiques multimodales. Vous pouvez entraîner sur l’audio, la vision ou le texte via Unsloth. **L’entrée vidéo** pour le fine-tuning n’est actuellement pas prise en charge. Pour le texte uniquement et les notebooks, vous pouvez partir du [flux de fine-tuning Nemotron 3 Nano existant](/docs/fr/modeles/nemotron-3.md#fine-tuning-nemotron-3-and-rl). Pour les adaptateurs multimodaux, assurez-vous que votre jeu de données inclut la modalité dont votre agent a réellement besoin : * **Utilisation de l’ordinateur :** captures d’écran, état de l’interface, curseur/contexte, action suivante attendue * **Intelligence documentaire :** PDF, captures d’écran, graphiques, tableaux, cibles d’extraction structurée * **Compréhension audio :** extraits audio, images échantillonnées, résumés, horodatages, événements et questions de suivi * **Boucles d’agent :** exemples d’observation → raisonnement → action → validation Pour Omni, ne réutilisez pas aveuglément les chiffres de VRAM du texte seul. Les encodeurs multimodaux, les poids du projecteur, les jetons d’image, les segments audio et le long contexte augmentent tous l’utilisation mémoire. Commencez par des contextes plus courts et des tailles de lot plus petites, puis montez en puissance. ### Tests de référence Nemotron 3 Nano Omni est le modèle omni le plus puissant pour sa taille. C’est aussi le modèle multimodal ouvert le plus efficace, avec une précision de pointe. Le modèle dépasse Qwen3-Omni-30B-A3B sur tous les benchmarks.

--- # Agent Instructions This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com. ## Querying This Documentation If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question. Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter: ``` GET https://unsloth.ai/docs/fr/modeles/nemotron-3-nano-omni.md?ask=&goal= ``` `ask` is the immediate question: it should be specific, self-contained, and written in natural language. `goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal. The response will contain a direct answer to the question and relevant excerpts and sources from the documentation. Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.