🧩NVIDIA Nemotron 3 Nano - Anleitung zum Ausführen

Führe & feinabstimme NVIDIA Nemotron 3 Nano lokal auf deinem Gerät!

NVIDIA veröffentlicht Nemotron 3 Nano, ein 30B-Parameter Hybrid-Reasoning MoE-Modell mit ~3,6B aktiven Parametern - entwickelt für schnelles, genaues Codieren, Mathematik und agentische Aufgaben. Es hat ein 1M Kontextfenster und ist in seiner Größenklasse am besten bei SWE-Bench, GPQA Diamond, Reasoning, Chat und Durchsatz.

Nemotron 3 Nano läuft auf 24GB RAM/VRAM (oder Unified Memory) und du kannst es jetzt feinabstimmen lokal ausführen. Danke an NVIDIA für die Bereitstellung von Day-Zero-Support für Unsloth.

Ausführungsanleitung Feinabstimmung Nano 3

NVIDIA Nemotron 3 Nano GGUF zum Ausführen: unsloth/Nemotron-3-Nano-30B-A3B-GGUF Wir haben außerdem hochgeladen BF16 und FP8 Varianten.

⚙️ Gebrauchsanleitung

NVIDIA empfiehlt diese Einstellungen für Inferenz:

Allgemeiner Chat/Anweisung (Standard):

temperature = 1.0
top_p = 1.0

Tool-Calling-Anwendungsfälle:

temperature = 0.6
top_p = 0.95

Für die meisten lokalen Einsätze, setze:

max_new_tokens = 32,768 zu 262,144 für Standard-Prompts mit maximal 1M Tokens
Erhöhe es für tiefes Reasoning oder lange Generierung, soweit dein RAM/VRAM es zulässt.

Das Chat-Template-Format findet sich, wenn wir Folgendes verwenden:

tokenizer.apply_chat_template([
    {"role" : "user", "content" : "What is 1+1?"},
    {"role" : "assistant", "content" : "2"},
    {"role" : "user", "content" : "What is 2+2?"}
    ], add_generation_prompt = True, tokenize = False,
)

Nemotron 3 Chat-Template-Format:

Nemotron 3 verwendet <think> mit Token-ID 12 und </think> mit Token-ID 13 für Reasoning. Verwende --special um die Tokens für llama.cpp zu sehen. Möglicherweise brauchst du auch --verbose-prompt um zu sehen <think> da es vorangestellt wird.

<|im_start|>system\n<|im_end|>\n<|im_start|>user\nWhat is 1+1?<|im_end|>\n<|im_start|>assistant\n<think></think>2<|im_end|>\n<|im_start|>user\nWhat is 2+2?<|im_end|>\n<|im_start|>assistant\n<think>\n

🖥️ Nemotron-3-Nano-30B-A3B ausführen

Je nach Anwendungsfall musst du unterschiedliche Einstellungen verwenden. Manche GGUFs sind in der Größe ähnlich, weil die Modellarchitektur (wie gpt-oss) Dimensionen hat, die nicht durch 128 teilbar sind, sodass Teile nicht auf niedrigere Bits quantisiert werden können.

Llama.cpp Tutorial (GGUF):

Anweisungen zum Ausführen in llama.cpp (beachte, dass wir 4-Bit verwenden werden, um auf die meisten Geräte zu passen):

Hole dir die neueste llama.cpp auf GitHub hier. Du kannst auch den Build-Anweisungen unten folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Du kannst direkt von Hugging Face ziehen. Du kannst den Kontext auf 1M erhöhen, soweit dein RAM/VRAM es zulässt.

Folge dem für allgemeine Anweisungs- Anwendungsfälle:

./llama.cpp/llama-cli \
    -hf unsloth/Nemotron-3-Nano-30B-A3B-GGUF:UD-Q4_K_XL \
    --jinja --ctx-size 32768 \
    --temp 1.0 --top-p 1.0 --fit on

Folge dem für Tool-Calling Anwendungsfälle:

./llama.cpp/llama-cli \
    -hf unsloth/Nemotron-3-Nano-30B-A3B-GGUF:UD-Q4_K_XL \
    --jinja --ctx-size 32768 \
    --temp 0.6 --top-p 0.95 --fit on

Laden Sie das Modell herunter (nach der Installation pip install huggingface_hub hf_transfer ). Sie können wählen UD-Q4_K_XL oder andere quantisierte Versionen.

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Nemotron-3-Nano-30B-A3B-GGUF",
    local_dir = "unsloth/Nemotron-3-Nano-30B-A3B-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)

Dann führe das Modell im Konversationsmodus aus:

./llama.cpp/llama-cli \
    --model unsloth/Nemotron-3-Nano-30B-A3B-GGUF/Nemotron-3-Nano-30B-A3B-UD-Q4_K_XL.gguf \
    --ctx-size 16384 \
    --alias "unsloth/GLM-4.7" \
    --seed 3407 \
    --prio 2 \
    --temp 0.6 \
    --top-p 0.95 \
    --jinja

Passe außerdem Kontextfenster nach Bedarf an. Stelle sicher, dass deine Hardware mehr als ein 256K-Kontextfenster handhaben kann. Das Setzen auf 1M kann CUDA OOM auslösen und abstürzen, weshalb der Standard 262.144 ist.

Weil das Modell mit NoPEtrainiert wurde, musst du nur max_position_embeddingsändern. Das Modell verwendet keine expliziten Positions-Embeddings, daher ist YaRN nicht nötig.

🦥 Feinabstimmung Nemotron 3 Nano und RL

Unsloth unterstützt jetzt die Feinabstimmung aller Nemotron-Modelle, einschließlich Nemotron 3 Nano. Das 30B-Modell passt nicht auf eine kostenlose Colab-GPU; wir haben jedoch ein 80GB A100 Colab-Notebook erstellt, damit du damit feinabstimmen kannst. 16-Bit LoRA-Feinabstimmung von Nemotron 3 Nano wird etwa 60GB VRAM:

Nemotron-3-Nano-30B-A3B SFT LoRA Notebook

Google Colabcolab.research.google.com

Bei der Feinabstimmung von MoEs - es ist wahrscheinlich keine gute Idee, die Router-Schicht zu feinabstimmen, daher haben wir sie standardmäßig deaktiviert. Wenn du seine Reasoning-Fähigkeiten erhalten möchtest (optional), kannst du eine Mischung aus direkten Antworten und Chain-of-Thought-Beispielen verwenden. Verwende mindestens 75% Reasoning und 25% Nicht-Reasoning in deinem Datensatz, damit das Modell seine Reasoning-Fähigkeiten behält.

✨Reinforcement Learning + NeMo Gym

Wir arbeiteten mit dem Open-Source NVIDIA NeMo Gym Team zusammen, um die Demokratisierung von RL-Umgebungen zu ermöglichen. Unsere Zusammenarbeit ermöglicht Single-Turn-Rollout-RL-Training für viele Interessensgebiete, einschließlich Mathematik, Codierung, Tool-Nutzung usw., unter Verwendung von Trainingsumgebungen und Datensätzen aus NeMo Gym:

NeMo Gym Sudoku Reinforcement Learning Notebook

Google Colabcolab.research.google.com

NeMo Gym Multi Environments für Reinforcement Learning Notebook

Google Colabcolab.research.google.com

Sieh dir auch unseren neuesten Kollaborationsleitfaden an, der auf NVIDIAs offiziellem Developer-Blog veröffentlicht wurde:

How to Fine-Tune an LLM on NVIDIA GPUs With Unsloth

How to Fine-Tune an LLM on NVIDIA GPUs With UnslothNVIDIA Blog

🎉Llama-server Bereitstellung & Deployment

Um Nemotron 3 für die Produktion bereitzustellen, verwenden wir llama-server In einem neuen Terminal, z. B. via tmux, deploye das Modell via:

./llama.cpp/llama-server \
    --model unsloth/Nemotron-3-Nano-30B-A3B-GGUF/Nemotron-3-Nano-30B-A3B-UD-Q4_K_XL.gguf \
    --alias "unsloth/Nemotron-3-Nano-30B-A3B" \
    --alias "unsloth/GLM-4.7" \
    --prio 3 \
    --min_p 0.01 \
    --temp 0.6 \
    --top-p 0.95 \
    --ctx-size 16384 \
    --port 8001 \
    --jinja

Wenn du das Obige ausführst, erhältst du:

Dann in einem neuen Terminal, nachdem du pip install openai, mache:

from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/Nemotron-3-Nano-30B-A3B",
    messages = [{"role": "user", "content": "Was ist 2+2?"},],
)
print(completion.choices[0].message.content)

Was folgendes ausgibt

Der Benutzer stellt eine einfache Frage: "What is 2+2?" Die Antwort ist 4. Gib die Antwort.

2 + 2 = 4.

Benchmarks

Nemotron-3-Nano-30B-A3B ist das leistungsfähigste Modell über alle Benchmarks hinweg, einschließlich Durchsatz.

VorherigeGLM-4.7 NächsteQwen-Image-2512

Zuletzt aktualisiert vor 11 Stunden

War das hilfreich?

hashtag⚙️ Gebrauchsanleitung

hashtagNemotron 3 Chat-Template-Format:

hashtag🖥️ Nemotron-3-Nano-30B-A3B ausführen

hashtagLlama.cpp Tutorial (GGUF):

hashtag🦥 Feinabstimmung Nemotron 3 Nano und RL

hashtag✨Reinforcement Learning + NeMo Gym

hashtagHow to Fine-Tune an LLM on NVIDIA GPUs With Unslotharrow-up-right

hashtag🎉Llama-server Bereitstellung & Deployment

hashtagBenchmarks

⚙️ Gebrauchsanleitung

Nemotron 3 Chat-Template-Format:

🖥️ Nemotron-3-Nano-30B-A3B ausführen

Llama.cpp Tutorial (GGUF):

🦥 Feinabstimmung Nemotron 3 Nano und RL

✨Reinforcement Learning + NeMo Gym

How to Fine-Tune an LLM on NVIDIA GPUs With Unsloth

🎉Llama-server Bereitstellung & Deployment

Benchmarks