🧩NVIDIA Nemotron 3 Nano - Anleitung zur Ausführung
Führe NVIDIA Nemotron 3 Nano lokal auf deinem Gerät aus & feineinstelle es!
NVIDIA veröffentlicht Nemotron-3-Nano-4B, ein 4B offenes hybrides MoE-Modell, das auf Nemotron-3-Super-120B-A12B und Nemotron-3-Nano-30B-A3B folgt. Die Nemotron-Familie ist für schnelle, präzise Codierungs-, Mathematik- und agentische Workloads konzipiert. Sie verfügen über ein 1M-Token-Kontext Fenster und sind konkurrenzfähig bei Reasoning-, Chat- und Durchsatz-Benchmarks.
Nemotron-3-Nano-4B läuft auf 5GB RAM, VRAM oder Unified Memory. Nemotron-3-Nano-30A3B läuft auf 24GB RAM. Nemotron 3 kann jetzt lokal über feinabgestimmt werden via Unsloth. Danke an NVIDIA für die Day-Zero-Unterstützung von Unsloth.
Nemotron-3-Nano-4BNemotron-3-Nano-30B-A3BFeinabstimmung von Nemotron 3
⚙️ Gebrauchsanleitung
NVIDIA empfiehlt diese Einstellungen für Inferenz:
Allgemeiner Chat/Instruktion (Standard):
temperature = 1.0top_p = 1.0
Tool-Calling-Anwendungsfälle:
temperature = 0.6top_p = 0.95
Für die meisten lokalen Einsatzzwecke setzen Sie:
max_new_tokens=32,768auf262,144für Standard-Prompts mit maximal 1M TokensErhöhen Sie dies für tiefes Reasoning oder Langform-Generierung, je nachdem, wie viel RAM/VRAM Sie haben.
Das Chat-Template-Format findet sich, wenn wir das Folgende verwenden:
tokenizer.apply_chat_template([
{"role" : "user", "content" : "What is 1+1?"},
{"role" : "assistant", "content" : "2"},
{"role" : "user", "content" : "What is 2+2?"}
], add_generation_prompt = True, tokenize = False,
)Da das Modell mit NoPE trainiert wurde, müssen Sie nur max_position_embeddingsändern. Das Modell verwendet keine expliziten positionalen Einbettungen, daher wird YaRN nicht benötigt.
Nemotron 3 Chat-Template-Format:
Nemotron 3 verwendet <think> mit Token-ID 12 und </think> mit Token-ID 13 für Reasoning. Verwenden Sie --special um die Tokens für llama.cpp zu sehen. Möglicherweise benötigen Sie auch --verbose-prompt um zu sehen <think> da es vorangestellt ist.
🖥️ Nemotron-3-Nano-4B ausführen
Je nach Anwendungsfall müssen Sie unterschiedliche Einstellungen verwenden. Einige GGUFs sind am Ende ähnlich groß, weil die Modellarchitektur (wie gpt-oss) Dimensionen hat, die nicht durch 128 teilbar sind, sodass Teile nicht auf niedrigere Bitbreiten quantisiert werden können.
Die 4-Bit-Versionen des Modells benötigen ~3GB RAM. 8-Bit benötigt 5GB.
Llama.cpp Tutorial (GGUF):
Anweisungen zum Ausführen in llama.cpp (wir verwenden 8-Bit für nahezu volle Präzision):
Holen Sie sich das neueste llama.cpp auf GitHub hier. Sie können auch den Build-Anweisungen unten folgen. Ändern Sie -DGGML_CUDA=ON auf -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz wünschen.
Sie können direkt von Hugging Face ziehen. Sie können den Kontext auf 1M erhöhen, je nachdem, wie viel RAM/VRAM Sie zur Verfügung haben.
Befolgen Sie dies für allgemeine Instruktions- Anwendungsfälle:
Befolgen Sie dies für Tool-Calling Anwendungsfälle:
Laden Sie das Modell herunter via (nach Installation von pip install huggingface_hub hf_transfer ). Sie können Q8_0 oder andere quantisierte Versionen wählen.
Dann führen Sie das Modell im Konversationsmodus aus:
Passen Sie außerdem das Kontextfenster nach Bedarf an. Stellen Sie sicher, dass Ihre Hardware mehr als ein 256K-Kontextfenster verarbeiten kann. Das Setzen auf 1M kann CUDA OOM auslösen und abstürzen, weshalb der Standard 262.144 ist.
🖥️ Nemotron-3-Nano-30B-A3B ausführen
Je nach Anwendungsfall müssen Sie unterschiedliche Einstellungen verwenden. Einige GGUFs sind am Ende ähnlich groß, weil die Modellarchitektur (wie gpt-oss) Dimensionen hat, die nicht durch 128 teilbar sind, sodass Teile nicht auf niedrigere Bitbreiten quantisiert werden können.
Die 4-Bit-Versionen des Modells benötigen ~24GB RAM. 8-Bit benötigt 36GB.
Llama.cpp Tutorial (GGUF):
Anweisungen zum Ausführen in llama.cpp (hinweis: wir werden 4-Bit verwenden, um auf die meisten Geräte zu passen):
Holen Sie sich das neueste llama.cpp auf GitHub hier. Sie können auch den Build-Anweisungen unten folgen. Ändern Sie -DGGML_CUDA=ON auf -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz wünschen. Für Apple Mac / Metal-Geräte, setzen Sie -DGGML_CUDA=OFF und fahren dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.
Sie können direkt von Hugging Face ziehen. Sie können den Kontext auf 1M erhöhen, je nachdem, wie viel RAM/VRAM Sie zur Verfügung haben.
Befolgen Sie dies für allgemeine Instruktions- Anwendungsfälle:
Befolgen Sie dies für Tool-Calling Anwendungsfälle:
Laden Sie das Modell herunter via (nach Installation von pip install huggingface_hub hf_transfer ). Sie können UD-Q4_K_XL oder andere quantisierte Versionen wählen.
Dann führen Sie das Modell im Konversationsmodus aus:
Passen Sie außerdem das Kontextfenster nach Bedarf an. Stellen Sie sicher, dass Ihre Hardware mehr als ein 256K-Kontextfenster verarbeiten kann. Das Setzen auf 1M kann CUDA OOM auslösen und abstürzen, weshalb der Standard 262.144 ist.
Nemotron 3 verwendet <think> mit Token-ID 12 und </think> mit Token-ID 13 für Reasoning. Verwenden Sie --special um die Tokens für llama.cpp zu sehen. Möglicherweise benötigen Sie auch --verbose-prompt um zu sehen <think> da es vorangestellt ist.
🦥 Feinabstimmung von Nemotron 3 und RL
Unsloth unterstützt jetzt die Feinabstimmung aller Nemotron-Modelle, einschließlich Nemotron 3 Super und Nano.
Das 4B-Modell passt auf eine kostenlose Colab-GPU, das 30B-Modell jedoch nicht. Wir haben trotzdem ein 80GB A100 Colab-Notebook für Sie erstellt, um damit zu feinabstimmen. 16-Bit LoRA-Feinabstimmung von Nemotron 3 Nano wird ungefähr 60GB VRAM:
Zur Feinabstimmung von MoEs - es ist wahrscheinlich keine gute Idee, die Router-Schicht zu feinabstimmen, daher haben wir sie standardmäßig deaktiviert. Wenn Sie seine Reasoning-Fähigkeiten erhalten möchten (optional), können Sie eine Mischung aus direkten Antworten und Chain-of-Thought-Beispielen verwenden. Verwenden Sie mindestens 75% Reasoning und 25% Nicht-Reasoning in Ihrem Datensatz, damit das Modell seine Reasoning-Fähigkeiten behält.
✨Reinforcement Learning + NeMo Gym
Wir haben mit dem Open-Source NVIDIA NeMo Gym Team zusammengearbeitet, um die Demokratisierung von RL-Umgebungen zu ermöglichen. Unsere Zusammenarbeit ermöglicht Single-Turn-Rollout-RL-Training für viele Interessengebiete, einschließlich Mathematik, Codierung, Tool-Nutzung usw., unter Verwendung von Trainingsumgebungen und Datensätzen aus NeMo Gym:
Schauen Sie sich außerdem unseren neuesten Kollaborationsleitfaden an, der auf NVIDIAs offiziellem Entwickler-Blog veröffentlicht wurde:
🦙 Llama-server Bereitstellung & Deployment
Um Nemotron 3 für die Produktion bereitzustellen, verwenden wir llama-server Öffnen Sie in einem neuen Terminal, z. B. via tmux, und deployen Sie das Modell via:
Wenn Sie das Obige ausführen, erhalten Sie:

Öffnen Sie dann in einem neuen Terminal, nachdem Sie pip install openai, Folgendes:
Was folgendes ausgeben wird
Benchmarks
Nemotron-3-Nano-4B ist das leistungsfähigste Modell in seiner Größenklasse, einschließlich Durchsatz.
Nemotron-3-Nano-30B-A3B ist das leistungsfähigste Modell über alle Benchmarks hinweg, einschließlich Durchsatz.

Zuletzt aktualisiert
War das hilfreich?

