🧩NVIDIA Nemotron 3 Nano - Anleitung zur Ausführung

Führe NVIDIA Nemotron 3 Nano lokal auf deinem Gerät aus & feineinstelle es!

NVIDIA veröffentlicht Nemotron-3-Nano-4B, ein 4B offenes hybrides MoE-Modell, das auf Nemotron-3-Super-120B-A12B und Nemotron-3-Nano-30B-A3B folgt. Die Nemotron-Familie ist für schnelle, präzise Codierungs-, Mathematik- und agentische Workloads konzipiert. Sie verfügen über ein 1M-Token-Kontext Fenster und sind konkurrenzfähig bei Reasoning-, Chat- und Durchsatz-Benchmarks.

Nemotron-3-Nano-4B läuft auf 5GB RAM, VRAM oder Unified Memory. Nemotron-3-Nano-30A3B läuft auf 24GB RAM. Nemotron 3 kann jetzt lokal über feinabgestimmt werden via Unslotharrow-up-right. Danke an NVIDIA für die Day-Zero-Unterstützung von Unsloth.

Nemotron-3-Nano-4BNemotron-3-Nano-30B-A3BFeinabstimmung von Nemotron 3

⚙️ Gebrauchsanleitung

NVIDIA empfiehlt diese Einstellungen für Inferenz:

Allgemeiner Chat/Instruktion (Standard):

  • temperature = 1.0

  • top_p = 1.0

Tool-Calling-Anwendungsfälle:

  • temperature = 0.6

  • top_p = 0.95

Für die meisten lokalen Einsatzzwecke setzen Sie:

  • max_new_tokens = 32,768 auf 262,144 für Standard-Prompts mit maximal 1M Tokens

  • Erhöhen Sie dies für tiefes Reasoning oder Langform-Generierung, je nachdem, wie viel RAM/VRAM Sie haben.

Das Chat-Template-Format findet sich, wenn wir das Folgende verwenden:

tokenizer.apply_chat_template([
    {"role" : "user", "content" : "What is 1+1?"},
    {"role" : "assistant", "content" : "2"},
    {"role" : "user", "content" : "What is 2+2?"}
    ], add_generation_prompt = True, tokenize = False,
)
circle-check

Nemotron 3 Chat-Template-Format:

circle-info

Nemotron 3 verwendet <think> mit Token-ID 12 und </think> mit Token-ID 13 für Reasoning. Verwenden Sie --special um die Tokens für llama.cpp zu sehen. Möglicherweise benötigen Sie auch --verbose-prompt um zu sehen <think> da es vorangestellt ist.

🖥️ Nemotron-3-Nano-4B ausführen

Je nach Anwendungsfall müssen Sie unterschiedliche Einstellungen verwenden. Einige GGUFs sind am Ende ähnlich groß, weil die Modellarchitektur (wie gpt-oss) Dimensionen hat, die nicht durch 128 teilbar sind, sodass Teile nicht auf niedrigere Bitbreiten quantisiert werden können.

Die 4-Bit-Versionen des Modells benötigen ~3GB RAM. 8-Bit benötigt 5GB.

Llama.cpp Tutorial (GGUF):

Anweisungen zum Ausführen in llama.cpp (wir verwenden 8-Bit für nahezu volle Präzision):

1

Holen Sie sich das neueste llama.cpp auf GitHub hierarrow-up-right. Sie können auch den Build-Anweisungen unten folgen. Ändern Sie -DGGML_CUDA=ON auf -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz wünschen.

2

Sie können direkt von Hugging Face ziehen. Sie können den Kontext auf 1M erhöhen, je nachdem, wie viel RAM/VRAM Sie zur Verfügung haben.

Befolgen Sie dies für allgemeine Instruktions- Anwendungsfälle:

Befolgen Sie dies für Tool-Calling Anwendungsfälle:

3

Laden Sie das Modell herunter via (nach Installation von pip install huggingface_hub hf_transfer ). Sie können Q8_0 oder andere quantisierte Versionen wählen.

4

Dann führen Sie das Modell im Konversationsmodus aus:

Passen Sie außerdem das Kontextfenster nach Bedarf an. Stellen Sie sicher, dass Ihre Hardware mehr als ein 256K-Kontextfenster verarbeiten kann. Das Setzen auf 1M kann CUDA OOM auslösen und abstürzen, weshalb der Standard 262.144 ist.

🖥️ Nemotron-3-Nano-30B-A3B ausführen

Je nach Anwendungsfall müssen Sie unterschiedliche Einstellungen verwenden. Einige GGUFs sind am Ende ähnlich groß, weil die Modellarchitektur (wie gpt-oss) Dimensionen hat, die nicht durch 128 teilbar sind, sodass Teile nicht auf niedrigere Bitbreiten quantisiert werden können.

Die 4-Bit-Versionen des Modells benötigen ~24GB RAM. 8-Bit benötigt 36GB.

Llama.cpp Tutorial (GGUF):

Anweisungen zum Ausführen in llama.cpp (hinweis: wir werden 4-Bit verwenden, um auf die meisten Geräte zu passen):

1

Holen Sie sich das neueste llama.cpp auf GitHub hierarrow-up-right. Sie können auch den Build-Anweisungen unten folgen. Ändern Sie -DGGML_CUDA=ON auf -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz wünschen. Für Apple Mac / Metal-Geräte, setzen Sie -DGGML_CUDA=OFF und fahren dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

2

Sie können direkt von Hugging Face ziehen. Sie können den Kontext auf 1M erhöhen, je nachdem, wie viel RAM/VRAM Sie zur Verfügung haben.

Befolgen Sie dies für allgemeine Instruktions- Anwendungsfälle:

Befolgen Sie dies für Tool-Calling Anwendungsfälle:

3

Laden Sie das Modell herunter via (nach Installation von pip install huggingface_hub hf_transfer ). Sie können UD-Q4_K_XL oder andere quantisierte Versionen wählen.

4

Dann führen Sie das Modell im Konversationsmodus aus:

Passen Sie außerdem das Kontextfenster nach Bedarf an. Stellen Sie sicher, dass Ihre Hardware mehr als ein 256K-Kontextfenster verarbeiten kann. Das Setzen auf 1M kann CUDA OOM auslösen und abstürzen, weshalb der Standard 262.144 ist.

circle-info

Nemotron 3 verwendet <think> mit Token-ID 12 und </think> mit Token-ID 13 für Reasoning. Verwenden Sie --special um die Tokens für llama.cpp zu sehen. Möglicherweise benötigen Sie auch --verbose-prompt um zu sehen <think> da es vorangestellt ist.

🦥 Feinabstimmung von Nemotron 3 und RL

Unsloth unterstützt jetzt die Feinabstimmung aller Nemotron-Modelle, einschließlich Nemotron 3 Super und Nano.

Das 4B-Modell passt auf eine kostenlose Colab-GPU, das 30B-Modell jedoch nicht. Wir haben trotzdem ein 80GB A100 Colab-Notebook für Sie erstellt, um damit zu feinabstimmen. 16-Bit LoRA-Feinabstimmung von Nemotron 3 Nano wird ungefähr 60GB VRAM:

Zur Feinabstimmung von MoEs - es ist wahrscheinlich keine gute Idee, die Router-Schicht zu feinabstimmen, daher haben wir sie standardmäßig deaktiviert. Wenn Sie seine Reasoning-Fähigkeiten erhalten möchten (optional), können Sie eine Mischung aus direkten Antworten und Chain-of-Thought-Beispielen verwenden. Verwenden Sie mindestens 75% Reasoning und 25% Nicht-Reasoning in Ihrem Datensatz, damit das Modell seine Reasoning-Fähigkeiten behält.

Reinforcement Learning + NeMo Gym

Wir haben mit dem Open-Source NVIDIA NeMo Gymarrow-up-right Team zusammengearbeitet, um die Demokratisierung von RL-Umgebungen zu ermöglichen. Unsere Zusammenarbeit ermöglicht Single-Turn-Rollout-RL-Training für viele Interessengebiete, einschließlich Mathematik, Codierung, Tool-Nutzung usw., unter Verwendung von Trainingsumgebungen und Datensätzen aus NeMo Gym:

circle-check

🦙 Llama-server Bereitstellung & Deployment

Um Nemotron 3 für die Produktion bereitzustellen, verwenden wir llama-server Öffnen Sie in einem neuen Terminal, z. B. via tmux, und deployen Sie das Modell via:

Wenn Sie das Obige ausführen, erhalten Sie:

Öffnen Sie dann in einem neuen Terminal, nachdem Sie pip install openai, Folgendes:

Was folgendes ausgeben wird

Benchmarks

Nemotron-3-Nano-4B ist das leistungsfähigste Modell in seiner Größenklasse, einschließlich Durchsatz.

Nemotron-3-Nano-30B-A3B ist das leistungsfähigste Modell über alle Benchmarks hinweg, einschließlich Durchsatz.

Zuletzt aktualisiert

War das hilfreich?