🧩NVIDIA Nemotron 3 Nano - Anleitung zum Ausführen

Führe & finetune NVIDIA Nemotron 3 Nano lokal auf deinem Gerät!

NVIDIA veröffentlicht Nemotron 3 Nano, ein 30B-Parameter-Hybrid-Reasoning-MoE-Modell mit ~3,6B aktiven Parametern - entwickelt für schnelles, genaues Programmieren, Mathematik und agentische Aufgaben. Es hat ein 1M Kontextfenster und ist innerhalb seiner Größenklasse am besten bei SWE-Bench, GPQA Diamond, Reasoning, Chat und Durchsatz.

Nemotron 3 Nano läuft auf 24GB RAM/VRAM (oder Unified Memory) und Sie können es jetzt feinabstimmen lokal. Danke an NVIDIA für die Bereitstellung von Day-Zero-Support für Unsloth.

Ausführungs-TutorialFeinabstimmung Nano 3

NVIDIA Nemotron 3 Nano GGUF zum Ausführen: unsloth/Nemotron-3-Nano-30B-A3B-GGUFarrow-up-right Wir haben außerdem hochgeladen BF16arrow-up-right und FP8arrow-up-right Varianten.

⚙️ Gebrauchsanleitung

NVIDIA empfiehlt diese Einstellungen für Inferenz:

Allgemeiner Chat/Anweisung (Standard):

  • temperature = 1.0

  • top_p = 1.0

Anwendungsfälle mit Tool-Aufrufen:

  • temperature = 0.6

  • top_p = 0.95

Für die meisten lokalen Anwendungen, setzen Sie:

  • max_new_tokens = 32,768 auf 262,144 für Standard-Prompts mit maximal 1M Tokens

  • Erhöhen Sie es für tiefes Reasoning oder Langform-Generierung, je nach verfügbarer RAM/VRAM.

Das Chat-Template-Format ergibt sich, wenn wir das Folgende verwenden:

tokenizer.apply_chat_template([
    {"role" : "user", "content" : "What is 1+1?"},
    {"role" : "assistant", "content" : "2"},
    {"role" : "user", "content" : "What is 2+2?"}
    ], add_generation_prompt = True, tokenize = False,
)
circle-check

Nemotron 3 Chat-Template-Format:

circle-info

Nemotron 3 verwendet <think> mit Token-ID 12 und </think> mit Token-ID 13 für Reasoning. Verwenden Sie --special um die Tokens für llama.cpp zu sehen. Möglicherweise benötigen Sie auch --verbose-prompt um <think> zu sehen, da es vorangestellt ist.

🖥️ Nemotron-3-Nano-30B-A3B ausführen

Je nach Anwendungsfall müssen Sie unterschiedliche Einstellungen verwenden. Einige GGUFs sind in der Größe ähnlich, weil die Modellarchitektur (wie gpt-oss) Dimensionen hat, die nicht durch 128 teilbar sind, sodass Teile nicht auf niedrigere Bits quantisiert werden können.

Die 4-Bit-Versionen des Modells benötigen ~24GB RAM. 8-Bit benötigt 36GB.

Llama.cpp Tutorial (GGUF):

Anweisungen zum Ausführen in llama.cpp (wir verwenden 4-Bit, um auf die meisten Geräte zu passen):

1

Holen Sie sich das neueste llama.cpp auf GitHub hierarrow-up-right. Sie können auch den untenstehenden Build-Anweisungen folgen. Ändern Sie -DGGML_CUDA=ON auf -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz wünschen. Für Apple Mac / Metal-Geräte, setzen Sie -DGGML_CUDA=OFF und fahren dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

2

Sie können direkt von Hugging Face ziehen. Sie können den Kontext auf 1M erhöhen, je nachdem wie viel RAM/VRAM Sie haben.

Befolgen Sie dies für allgemeine Anweisungs- Anwendungsfälle:

Befolgen Sie dies für Tool-Aufrufe Anwendungsfälle:

3

Laden Sie das Modell herunter via (nach Installation von pip install huggingface_hub hf_transfer ). Sie können wählen UD-Q4_K_XL oder andere quantisierte Versionen.

4

Dann führen Sie das Modell im Konversationsmodus aus:

Passen Sie außerdem Kontextfenster nach Bedarf an. Stellen Sie sicher, dass Ihre Hardware mehr als ein 256K-Kontextfenster verarbeiten kann. Das Setzen auf 1M kann CUDA OOM auslösen und zum Absturz führen, weshalb der Standard 262.144 ist.

circle-info

Nemotron 3 verwendet <think> mit Token-ID 12 und </think> mit Token-ID 13 für Reasoning. Verwenden Sie --special um die Tokens für llama.cpp zu sehen. Möglicherweise benötigen Sie auch --verbose-prompt um <think> zu sehen, da es vorangestellt ist.

circle-check

🦥 Feinabstimmung von Nemotron 3 Nano und RL

Unsloth unterstützt jetzt die Feinabstimmung aller Nemotron-Modelle, einschließlich Nemotron 3 Nano. Das 30B-Modell passt nicht auf eine kostenlose Colab-GPU; wir haben jedoch trotzdem ein 80GB A100 Colab-Notebook erstellt, damit Sie feinabstimmen können. 16-Bit LoRA-Feinabstimmung von Nemotron 3 Nano benötigt etwa 60GB VRAM:

Bei der Feinabstimmung von MoEs - es ist wahrscheinlich keine gute Idee, die Router-Schicht zu feinabstimmen, daher haben wir sie standardmäßig deaktiviert. Wenn Sie seine Reasoning-Fähigkeiten beibehalten möchten (optional), können Sie eine Mischung aus direkten Antworten und Chain-of-Thought-Beispielen verwenden. Verwenden Sie mindestens 75% Reasoning und 25% Nicht-Reasoning in Ihrem Datensatz, damit das Modell seine Reasoning-Fähigkeiten beibehält.

Reinforcement Learning + NeMo Gym

Wir haben mit dem Open-Source NVIDIA NeMo Gymarrow-up-right Team zusammengearbeitet, um die Demokratisierung von RL-Umgebungen zu ermöglichen. Unsere Zusammenarbeit ermöglicht Single-Turn-Rollout-RL-Training für viele interessante Bereiche, einschließlich Mathematik, Programmierung, Tool-Nutzung usw., unter Verwendung von Trainingsumgebungen und Datensätzen aus NeMo Gym:

circle-check

🎉Llama-server Bereitstellung & Deployment

Um Nemotron 3 in Produktion zu bringen, verwenden wir llama-server In einem neuen Terminal, z. B. via tmux, deployen Sie das Modell mit:

Wenn Sie das Obige ausführen, erhalten Sie:

Dann in einem neuen Terminal, nachdem Sie pip install openai, tun Sie:

Was Folgendes ausgeben wird

Benchmarks

Nemotron-3-Nano-30B-A3B ist das leistungsstärkste Modell über alle Benchmarks hinweg, einschließlich Durchsatz.

Zuletzt aktualisiert

War das hilfreich?