🧩NVIDIA Nemotron 3 Nano - Anleitung zum Ausführen

Führe & feinabstimme NVIDIA Nemotron 3 Nano lokal auf deinem Gerät!

NVIDIA veröffentlicht Nemotron 3 Nano, ein 30B-Parameter Hybrid-Reasoning MoE-Modell mit ~3,6B aktiven Parametern - entwickelt für schnelles, genaues Codieren, Mathematik und agentische Aufgaben. Es hat ein 1M Kontextfenster und ist in seiner Größenklasse am besten bei SWE-Bench, GPQA Diamond, Reasoning, Chat und Durchsatz.

Nemotron 3 Nano läuft auf 24GB RAM/VRAM (oder Unified Memory) und du kannst es jetzt feinabstimmen lokal ausführen. Danke an NVIDIA für die Bereitstellung von Day-Zero-Support für Unsloth.

AusführungsanleitungFeinabstimmung Nano 3

NVIDIA Nemotron 3 Nano GGUF zum Ausführen: unsloth/Nemotron-3-Nano-30B-A3B-GGUFarrow-up-right Wir haben außerdem hochgeladen BF16arrow-up-right und FP8arrow-up-right Varianten.

⚙️ Gebrauchsanleitung

NVIDIA empfiehlt diese Einstellungen für Inferenz:

Allgemeiner Chat/Anweisung (Standard):

  • temperature = 1.0

  • top_p = 1.0

Tool-Calling-Anwendungsfälle:

  • temperature = 0.6

  • top_p = 0.95

Für die meisten lokalen Einsätze, setze:

  • max_new_tokens = 32,768 zu 262,144 für Standard-Prompts mit maximal 1M Tokens

  • Erhöhe es für tiefes Reasoning oder lange Generierung, soweit dein RAM/VRAM es zulässt.

Das Chat-Template-Format findet sich, wenn wir Folgendes verwenden:

tokenizer.apply_chat_template([
    {"role" : "user", "content" : "What is 1+1?"},
    {"role" : "assistant", "content" : "2"},
    {"role" : "user", "content" : "What is 2+2?"}
    ], add_generation_prompt = True, tokenize = False,
)

Nemotron 3 Chat-Template-Format:

circle-info

Nemotron 3 verwendet <think> mit Token-ID 12 und </think> mit Token-ID 13 für Reasoning. Verwende --special um die Tokens für llama.cpp zu sehen. Möglicherweise brauchst du auch --verbose-prompt um zu sehen <think> da es vorangestellt wird.

🖥️ Nemotron-3-Nano-30B-A3B ausführen

Je nach Anwendungsfall musst du unterschiedliche Einstellungen verwenden. Manche GGUFs sind in der Größe ähnlich, weil die Modellarchitektur (wie gpt-oss) Dimensionen hat, die nicht durch 128 teilbar sind, sodass Teile nicht auf niedrigere Bits quantisiert werden können.

Llama.cpp Tutorial (GGUF):

Anweisungen zum Ausführen in llama.cpp (beachte, dass wir 4-Bit verwenden werden, um auf die meisten Geräte zu passen):

1

Hole dir die neueste llama.cpp auf GitHub hierarrow-up-right. Du kannst auch den Build-Anweisungen unten folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

2

Du kannst direkt von Hugging Face ziehen. Du kannst den Kontext auf 1M erhöhen, soweit dein RAM/VRAM es zulässt.

Folge dem für allgemeine Anweisungs- Anwendungsfälle:

Folge dem für Tool-Calling Anwendungsfälle:

3

Laden Sie das Modell herunter (nach der Installation pip install huggingface_hub hf_transfer ). Sie können wählen UD-Q4_K_XL oder andere quantisierte Versionen.

4

Dann führe das Modell im Konversationsmodus aus:

Passe außerdem Kontextfenster nach Bedarf an. Stelle sicher, dass deine Hardware mehr als ein 256K-Kontextfenster handhaben kann. Das Setzen auf 1M kann CUDA OOM auslösen und abstürzen, weshalb der Standard 262.144 ist.

5

Nemotron 3 verwendet <think> mit Token-ID 12 und </think> mit Token-ID 13 für Reasoning. Verwende --special um die Tokens für llama.cpp zu sehen. Möglicherweise brauchst du auch --verbose-prompt um zu sehen <think> da es vorangestellt wird.

circle-check

🦥 Feinabstimmung Nemotron 3 Nano und RL

Unsloth unterstützt jetzt die Feinabstimmung aller Nemotron-Modelle, einschließlich Nemotron 3 Nano. Das 30B-Modell passt nicht auf eine kostenlose Colab-GPU; wir haben jedoch ein 80GB A100 Colab-Notebook erstellt, damit du damit feinabstimmen kannst. 16-Bit LoRA-Feinabstimmung von Nemotron 3 Nano wird etwa 60GB VRAM:

Bei der Feinabstimmung von MoEs - es ist wahrscheinlich keine gute Idee, die Router-Schicht zu feinabstimmen, daher haben wir sie standardmäßig deaktiviert. Wenn du seine Reasoning-Fähigkeiten erhalten möchtest (optional), kannst du eine Mischung aus direkten Antworten und Chain-of-Thought-Beispielen verwenden. Verwende mindestens 75% Reasoning und 25% Nicht-Reasoning in deinem Datensatz, damit das Modell seine Reasoning-Fähigkeiten behält.

Reinforcement Learning + NeMo Gym

Wir arbeiteten mit dem Open-Source NVIDIA NeMo Gymarrow-up-right Team zusammen, um die Demokratisierung von RL-Umgebungen zu ermöglichen. Unsere Zusammenarbeit ermöglicht Single-Turn-Rollout-RL-Training für viele Interessensgebiete, einschließlich Mathematik, Codierung, Tool-Nutzung usw., unter Verwendung von Trainingsumgebungen und Datensätzen aus NeMo Gym:

circle-check

🎉Llama-server Bereitstellung & Deployment

Um Nemotron 3 für die Produktion bereitzustellen, verwenden wir llama-server In einem neuen Terminal, z. B. via tmux, deploye das Modell via:

Wenn du das Obige ausführst, erhältst du:

Dann in einem neuen Terminal, nachdem du pip install openai, mache:

Was folgendes ausgibt

Benchmarks

Nemotron-3-Nano-30B-A3B ist das leistungsfähigste Modell über alle Benchmarks hinweg, einschließlich Durchsatz.

Zuletzt aktualisiert

War das hilfreich?