🧩NVIDIA Nemotron 3 Nano - Anleitung zum Ausführen

Führe NVIDIA Nemotron 3 Nano lokal auf deinem Gerät aus & finetune es!

NVIDIA veröffentlicht Nemotron 3 Nano, ein 30B Parameter Hybrid-Reasoning MoE-Modell mit ~3,6B aktiven Parametern – entwickelt für schnelles, genaues Codieren, Mathematik und agentische Aufgaben. Es hat ein 1M Kontextfenster und ist in seiner Größenklasse am besten bei SWE-Bench, GPQA Diamond, Reasoning, Chat und Durchsatz.

Nemotron 3 Nano läuft auf 24GB RAM/VRAM (oder Unified Memory) und Sie können es jetzt feinabstimmen lokal ausführen. Danke an NVIDIA für die Bereitstellung von Day-Zero-Support für Unsloth.

Ausführungs-TutorialFeinabstimmung von Nano 3

NVIDIA Nemotron 3 Nano GGUF zum Ausführen: unsloth/Nemotron-3-Nano-30B-A3B-GGUFarrow-up-right Wir haben außerdem hochgeladen BF16arrow-up-right und FP8arrow-up-right Varianten.

⚙️ Gebrauchsanleitung

NVIDIA empfiehlt diese Einstellungen für die Inferenz:

Allgemeiner Chat/Instruktion (Standard):

  • temperature = 1.0

  • top_p = 1.0

Tool-Calling-Anwendungsfälle:

  • temperature = 0.6

  • top_p = 0.95

Für die meisten lokalen Anwendungen setzen Sie:

  • max_new_tokens = 32,768 zu 262,144 für Standard-Prompts mit maximal 1M Token

  • Erhöhen Sie dies für tiefes Reasoning oder Langform-Generierung, je nachdem, wie viel RAM/VRAM Ihnen zur Verfügung steht.

Das Chat-Template-Format findet sich, wenn wir das Folgende verwenden:

tokenizer.apply_chat_template([
    {"role" : "user", "content" : "What is 1+1?"},
    {"role" : "assistant", "content" : "2"},
    {"role" : "user", "content" : "What is 2+2?"}
    ], add_generation_prompt = True, tokenize = False,
)

Nemotron 3 Chat-Template-Format:

circle-info

Nemotron 3 verwendet <think> mit Token-ID 12 und </think> mit Token-ID 13 für Reasoning. Verwenden Sie --special um die Tokens für llama.cpp zu sehen. Möglicherweise benötigen Sie auch --verbose-prompt um zu sehen <think> da es vorangestellt ist.

🖥️ Nemotron-3-Nano-30B-A3B ausführen

Je nach Anwendungsfall müssen Sie unterschiedliche Einstellungen verwenden. Manche GGUFs sind in der Größe ähnlich, weil die Modellarchitektur (wie gpt-oss) Dimensionen hat, die nicht durch 128 teilbar sind, sodass Teile nicht auf niedrigere Bits quantisiert werden können.

Llama.cpp Tutorial (GGUF):

Anleitung zum Ausführen in llama.cpp (Hinweis: Wir verwenden 4-Bit, um die meisten Geräte passend zu machen):

1

Holen Sie sich die neueste llama.cpp auf GitHub hierarrow-up-right. Sie können auch den unten stehenden Build-Anweisungen folgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz wünschen.

2

Sie können direkt von Hugging Face ziehen. Sie können den Kontext auf 1M erhöhen, je nachdem, wie viel RAM/VRAM Sie haben.

Befolgen Sie dies für allgemeine Instruktions- Anwendungsfälle:

Befolgen Sie dies für Tool-Calling Anwendungsfälle:

3

Laden Sie das Modell herunter über (nach Installation von pip install huggingface_hub hf_transfer ). Sie können wählen UD-Q4_K_XL oder andere quantisierte Versionen.

4

Führen Sie dann das Modell im Konversationsmodus aus:

Passen Sie außerdem Kontextfenster nach Bedarf an. Stellen Sie sicher, dass Ihre Hardware mehr als ein 256K Kontextfenster verarbeiten kann. Das Setzen auf 1M kann CUDA OOM auslösen und abstürzen, weshalb der Standard 262.144 ist.

5

Nemotron 3 verwendet <think> mit Token-ID 12 und </think> mit Token-ID 13 für Reasoning. Verwenden Sie --special um die Tokens für llama.cpp zu sehen. Möglicherweise benötigen Sie auch --verbose-prompt um zu sehen <think> da es vorangestellt ist.

circle-check

🦥 Feinabstimmung von Nemotron 3 Nano und RL

Unsloth unterstützt jetzt die Feinabstimmung aller Nemotron-Modelle, einschließlich Nemotron 3 Nano. Das 30B-Modell passt nicht auf eine kostenlose Colab-GPU; wir haben jedoch trotzdem ein 80GB A100 Colab-Notebook erstellt, mit dem Sie feinabstimmen können. Die 16-Bit LoRA-Feinabstimmung von Nemotron 3 Nano benötigt etwa 60GB VRAM:

Bei der Feinabstimmung von MoEs – es ist wahrscheinlich keine gute Idee, die Router-Schicht zu feinabstimmen, daher haben wir sie standardmäßig deaktiviert. Wenn Sie seine Reasoning-Fähigkeiten beibehalten möchten (optional), können Sie eine Mischung aus direkten Antworten und Chain-of-Thought-Beispielen verwenden. Nutzen Sie mindestens 75% Reasoning und 25% Nicht-Reasoning in Ihrem Datensatz, damit das Modell seine Reasoning-Fähigkeiten behält.

Reinforcement Learning + NeMo Gym

Wir haben mit dem Open-Source NVIDIA NeMo Gymarrow-up-right Team zusammengearbeitet, um die Demokratisierung von RL-Umgebungen zu ermöglichen. Unsere Zusammenarbeit ermöglicht Single-Turn-Rollout-RL-Training für viele Interessensgebiete, einschließlich Mathematik, Codierung, Tool-Nutzung usw., unter Verwendung von Trainingsumgebungen und Datensätzen aus NeMo Gym:

circle-check

🎉Llama-server Serving & Deployment

Um Nemotron 3 für die Produktion bereitzustellen, verwenden wir llama-server In einem neuen Terminal, z. B. via tmux, deployen Sie das Modell über:

Wenn Sie das Obige ausführen, erhalten Sie:

Dann in einem neuen Terminal, nachdem Sie pip install openai, tun Sie:

Was ausgeben wird

Benchmarks

Nemotron-3-Nano-30B-A3B ist das leistungsstärkste Modell über alle Benchmarks hinweg, einschließlich Durchsatz.

Zuletzt aktualisiert

War das hilfreich?