🧩NVIDIA Nemotron-3-Super : guide d'exécution
Exécutez et affinez NVIDIA Nemotron-3-Super-120B-A12B localement sur votre appareil !
NVIDIA publie Nemotron-3-Super-120B-A12B, un modèle MoE hybride ouvert de raisonnement 120B avec 12B de paramètres actifs, faisant suite au lancement précédent de Nemotron-3-Nano, son homologue 30B. Nemotron-3-Super est conçu pour une grande efficacité et précision pour l'IA multi-agent. Avec une fenêtre de contexte de 1M jetons , il domine sa catégorie de taille sur les benchmarks AIME 2025, Terminal Bench et SWE-Bench Verified, tout en atteignant le débit le plus élevé.
Nemotron-3-Super fonctionne sur un appareil avec 64 Go de RAM, VRAM ou mémoire unifiée et peut désormais être affiné localement. Merci à NVIDIA pour avoir fourni à Unsloth un support day-zero.
Nemotron 3 SuperNemotron 3 Nano
GGUF : NVIDIA-Nemotron-3-Super-120B-A12B-GGUF
⚙️ Guide d'utilisation
NVIDIA recommande ces paramètres pour l'inférence :
Chat/instruction général (par défaut) :
température = 1.0top_p = 1.0
Cas d'utilisation d'appel d'outils :
température = 0.6top_p = 0.95
Pour la plupart des usages locaux, réglez :
max_new_tokens=32,768à262,144pour les invites standard avec un maximum de 1M de jetonsAugmentez pour un raisonnement profond ou une génération longue selon ce que votre RAM/VRAM permet.
Le format du modèle de chat se trouve lorsque nous utilisons le suivant :
tokenizer.apply_chat_template([
{"role" : "user", "content" : "What is 1+1?"},
{"role" : "assistant", "content" : "2"},
{"role" : "user", "content" : "What is 2+2?"}
], add_generation_prompt = True, tokenize = False,
)Parce que le modèle a été entraîné avec NoPE, vous n'avez besoin que de modifier max_position_embeddings. Le modèle n'utilise pas d'embeddings positionnels explicites, donc YaRN n'est pas nécessaire.
Format du template de chat Nemotron 3 :
Nemotron 3 utilise <think> avec l'ID de token 12 et </think> avec l'ID de token 13 pour le raisonnement. Utilisez --special pour voir les tokens pour llama.cpp. Vous pourriez aussi avoir besoin de --verbose-prompt pour voir <think> puisqu'il est préfixé.
🖥️ Exécuter Nemotron-3-Super-120B-A12B
Selon votre cas d'utilisation, vous devrez utiliser des paramètres différents. Certains GGUF ont une taille similaire parce que l'architecture du modèle (comme gpt-oss) a des dimensions non divisibles par 128, donc des parties ne peuvent pas être quantifiées en bits inférieurs. Accédez aux GGUF ici.
Les versions 4 bits du modèle nécessitent ~64GB RAM - 72GB RAM. 8 bits nécessite 128GB.
Tutoriel Llama.cpp (GGUF) :
Instructions pour exécuter dans llama.cpp (notez que nous utiliserons du 4 bits pour tenir sur la plupart des appareils) :
Obtenez le dernier llama.cpp sur GitHub ici. Vous pouvez aussi suivre les instructions de compilation ci-dessous. Changez -DGGML_CUDA=ON à -DGGML_CUDA=OFF si vous n'avez pas de GPU ou si vous voulez simplement l'inférence CPU.
Nous devrons installer la branche llama.cpp d'Unsloth pour Nemotron-3-Super ! Ce n'est pas nécessaire pour LM Studio, car il fonctionnera avec une mise à jour.
Vous pouvez directement tirer depuis Hugging Face. Vous pouvez augmenter le contexte à 1M selon ce que votre RAM/VRAM permet.
Suivez ceci pour cas d'utilisation d'instruction générale :
Suivez ceci pour appel d'outils :
Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir Q4_K_M ou d'autres versions quantifiées comme UD-Q4_K_XL . Nous recommandons d'utiliser au moins la quantification dynamique 2 bits UD-Q2_K_XL pour équilibrer taille et précision. Si les téléchargements se bloquent, voir : Hugging Face Hub, débogage XET
Puis exécutez le modèle en mode conversation :

Ajustez également la fenêtre de contexte selon les besoins. Assurez-vous que votre matériel peut gérer plus d'une fenêtre de contexte de 256K. La régler à 1M peut déclencher un OOM CUDA et planter, c'est pourquoi la valeur par défaut est 262 144.
🦥 Affinage de Nemotron 3 et RL
Unsloth prend désormais en charge l'affinage de tous les modèles Nemotron, y compris Nemotron 3 Super et Nano. Pour des exemples de notebook pour Nano, voyez notre guide d'affinage Nano.
Nemotron 3 Super
L'affinage du router-layer est désactivé par défaut pour des raisons de stabilité.
Nemotron-3-Super-120B - LoRA bf16 fonctionne sur 256GB de VRAM. Si vous utilisez plusieurs GPU, ajoutez
device_map = "balanced"ou suivez notre Guide multiGPU.
🦙Service & déploiement llama-server
Pour déployer Nemotron 3 en production, nous utilisons llama-server Dans un nouveau terminal, par exemple via tmux, déployez le modèle via :
Lorsque vous lancez ce qui précède, vous obtiendrez :

Puis dans un nouveau terminal, après avoir fait pip install openai, faites :
Ce qui affichera
Benchmarks
Comparé à des modèles de taille similaire, Nemotron 3 Super offre des performances compétitives, tout en fournissant le débit le plus élevé.

Mis à jour
Ce contenu vous a-t-il été utile ?

