🧩NVIDIA Nemotron 3 Nano - Guide pour exécution

Exécutez et affinez NVIDIA Nemotron 3 Nano localement sur votre appareil !

NVIDIA publie Nemotron 3 Nano, un modèle MoE hybride de raisonnement de 30 milliards de paramètres avec ~3,6 milliards de paramètres actifs - conçu pour des tâches de codage, de mathématiques et d'agentivité rapides et précises. Il dispose d'un fenêtre de contexte de 1M et est le meilleur de sa classe de taille sur SWE-Bench, GPQA Diamond, le raisonnement, le chat et le débit.

Nemotron 3 Nano fonctionne sur 24 Go de RAM/VRAM (ou mémoire unifiée) et vous pouvez maintenant l'affiner l'exécuter localement. Merci à NVIDIA d'avoir fourni à Unsloth un support dès le jour zéro.

Tutoriel d’exécution Ajustement fin de Nano 3

NVIDIA Nemotron 3 Nano GGUF pour exécuter : unsloth/Nemotron-3-Nano-30B-A3B-GGUF Nous avons aussi téléchargé BF16 et FP8 variantes.

⚙️ Guide d'utilisation

NVIDIA recommande ces paramètres pour l'inférence :

Chat/instruction général (par défaut) :

température = 1.0
top_p = 1.0

Cas d'utilisation d'appel d'outils :

température = 0,6
top_p = 0.95

Pour la plupart des usages locaux, réglez :

max_new_tokens = 32,768 en 262,144 pour des invites standard avec un maximum de 1M de tokens
Augmentez pour un raisonnement profond ou une génération longue selon ce que votre RAM/VRAM permet.

Le format du modèle de chat est trouvé lorsque nous utilisons ce qui suit :

tokenizer.apply_chat_template([
    {"role" : "user", "content" : "What is 1+1?"},
    {"role" : "assistant", "content" : "2"},
    {"role" : "user", "content" : "What is 2+2?"}
    ], add_generation_prompt = True, tokenize = False,
)

Format de modèle de chat Nemotron 3 :

Nemotron 3 utilise <think> avec l'ID de token 12 et </think> avec l'ID de token 13 pour le raisonnement. Utilisez --special pour voir les tokens pour llama.cpp. Vous pourriez aussi avoir besoin de --verbose-prompt pour voir <think> puisqu'il est préfixé.

<|im_start|>system\n<|im_end|>\n<|im_start|>user\nWhat is 1+1?<|im_end|>\n<|im_start|>assistant\n<think></think>2<|im_end|>\n<|im_start|>user\nWhat is 2+2?<|im_end|>\n<|im_start|>assistant\n<think>\n

🖥️ Exécuter Nemotron-3-Nano-30B-A3B

Selon votre cas d'utilisation, vous devrez utiliser des paramètres différents. Certains GGUF ont une taille similaire car l'architecture du modèle (comme gpt-oss) a des dimensions non divisibles par 128, donc des parties ne peuvent pas être quantifiées en bits plus faibles.

Tutoriel Llama.cpp (GGUF) :

Instructions pour exécuter dans llama.cpp (notez que nous utiliserons du 4 bits pour tenir sur la plupart des dispositifs) :

Obtenez la dernière llama.cpp sur GitHub ici. Vous pouvez aussi suivre les instructions de compilation ci-dessous. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU ou si vous voulez simplement de l'inférence CPU. Pour les appareils Apple Mac / Metal, définissez -DGGML_CUDA=OFF puis continuez comme d'habitude - le support Metal est activé par défaut.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Vous pouvez directement récupérer depuis Hugging Face. Vous pouvez augmenter le contexte à 1M selon ce que votre RAM/VRAM permet.

Suivez ceci pour cas d'instruction généraux :

./llama.cpp/llama-cli \
    -hf unsloth/Nemotron-3-Nano-30B-A3B-GGUF:UD-Q4_K_XL \
    --jinja --ctx-size 32768 \
    --temp 1.0 --top-p 1.0 --fit on

Suivez ceci pour appel d'outils généraux :

./llama.cpp/llama-cli \
    -hf unsloth/Nemotron-3-Nano-30B-A3B-GGUF:UD-Q4_K_XL \
    --jinja --ctx-size 32768 \
    --temp 0.6 --top-p 0.95 --fit on

Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir UD-Q4_K_XL ou d'autres versions quantifiées.

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Nemotron-3-Nano-30B-A3B-GGUF",
    local_dir = "unsloth/Nemotron-3-Nano-30B-A3B-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)

Ensuite, exécutez le modèle en mode conversation :

./llama.cpp/llama-cli \
    --model unsloth/Nemotron-3-Nano-30B-A3B-GGUF/Nemotron-3-Nano-30B-A3B-UD-Q4_K_XL.gguf \
    --ctx-size 16384 \
    --fit on \
    --seed 3407 \
    --prio 2 \
    --temp 0.6 \
    --top-p 0.95 \
    --jinja

Ajustez également la fenêtre de contexte si nécessaire. Assurez-vous que votre matériel peut gérer plus qu'une fenêtre de contexte de 256K. La définir à 1M peut provoquer un OOM CUDA et planter, c'est pourquoi la valeur par défaut est 262 144.

Parce que le modèle a été entraîné avec NoPE, vous devez seulement changer max_position_embeddings. Le modèle n'utilise pas d'embeddings positionnels explicites, donc YaRN n'est pas nécessaire.

🦥 Affinage de Nemotron 3 Nano et RL

Unsloth prend désormais en charge l'affinage de tous les modèles Nemotron, y compris Nemotron 3 Nano. Le modèle 30B ne tient pas sur un GPU Colab gratuit ; cependant, nous avons tout de même créé un notebook Colab A100 80 Go pour vous permettre de l'affiner. L'affinage LoRA en 16 bits de Nemotron 3 Nano utilisera environ 60 Go de VRAM:

Notebook SFT LoRA Nemotron-3-Nano-30B-A3B

Google Colabcolab.research.google.com

Pour l'affinage des MoE - ce n'est probablement pas une bonne idée d'affiner la couche de routeur, donc nous l'avons désactivée par défaut. Si vous voulez préserver ses capacités de raisonnement (optionnel), vous pouvez utiliser un mélange de réponses directes et d'exemples de chaîne de pensée. Utilisez au moins 75 % de raisonnement et 25 % sans raisonnement dans votre jeu de données pour faire en sorte que le modèle conserve ses capacités de raisonnement.

✨Apprentissage par renforcement + NeMo Gym

Nous avons travaillé avec l'équipe open-source NVIDIA NeMo Gym pour permettre la démocratisation des environnements RL. Notre collaboration permet l'entraînement RL par rollout à tour unique pour de nombreux domaines d'intérêt, y compris les mathématiques, le codage, l'utilisation d'outils, etc., en utilisant des environnements d'entraînement et des jeux de données de NeMo Gym :

Notebook d'apprentissage par renforcement NeMo Gym Sudoku

Google Colabcolab.research.google.com

Notebook NeMo Gym multi-environnements pour l'apprentissage par renforcement

Google Colabcolab.research.google.com

Consultez également notre dernier guide de collaboration publié sur le blog officiel des développeurs de NVIDIA :

Comment affiner un LLM sur les GPU NVIDIA avec Unsloth

How to Fine-Tune an LLM on NVIDIA GPUs With UnslothNVIDIA Blog

🎉Llama-server service & déploiement

Pour déployer Nemotron 3 en production, nous utilisons llama-server Dans un nouveau terminal, par exemple via tmux, déployez le modèle via :

./llama.cpp/llama-server \
    --model unsloth/Nemotron-3-Nano-30B-A3B-GGUF/Nemotron-3-Nano-30B-A3B-UD-Q4_K_XL.gguf \
    --alias "unsloth/Nemotron-3-Nano-30B-A3B" \
    --fit on \
    --prio 3 \
    --min_p 0.01 \
    --temp 0.6 \
    --top-p 0.95 \
    --ctx-size 16384 \
    --port 8001 \
    --jinja

Lorsque vous exécutez ce qui précède, vous obtiendrez :

Puis dans un nouveau terminal, après avoir fait pip install openai, faites :

from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/Nemotron-3-Nano-30B-A3B",
    messages = [{"role": "user", "content": "What is 2+2?"},],
)
print(completion.choices[0].message.content)

Ce qui affichera

L'utilisateur pose une question simple : "What is 2+2?" La réponse est 4. Fournissez la réponse.

2 + 2 = 4.

Benchmarks

Nemotron-3-Nano-30B-A3B est le modèle le plus performant sur tous les benchmarks, y compris le débit.

PrécédentGLM-4.7 SuivantQwen-Image-2512

Mis à jour il y a 10 heures

Ce contenu vous a-t-il été utile ?

hashtag⚙️ Guide d'utilisation

hashtagFormat de modèle de chat Nemotron 3 :

hashtag🖥️ Exécuter Nemotron-3-Nano-30B-A3B

hashtagTutoriel Llama.cpp (GGUF) :

hashtag🦥 Affinage de Nemotron 3 Nano et RL

hashtag✨Apprentissage par renforcement + NeMo Gym

hashtagComment affiner un LLM sur les GPU NVIDIA avec Unslotharrow-up-right

hashtag🎉Llama-server service & déploiement

hashtagBenchmarks

⚙️ Guide d'utilisation

Format de modèle de chat Nemotron 3 :

🖥️ Exécuter Nemotron-3-Nano-30B-A3B

Tutoriel Llama.cpp (GGUF) :

🦥 Affinage de Nemotron 3 Nano et RL

✨Apprentissage par renforcement + NeMo Gym

Comment affiner un LLM sur les GPU NVIDIA avec Unsloth

🎉Llama-server service & déploiement

Benchmarks