🧩NVIDIA Nemotron-3-Super: Anleitung zum Ausführen
Führe & feintune NVIDIA Nemotron-3-Super-120B-A12B lokal auf deinem Gerät!
NVIDIA veröffentlicht Nemotron-3-Super-120B-A12B, ein 120B offenes hybrides Reasoning-MoE-Modell mit 12B aktiven Parametern, nach dem früheren Start von Nemotron-3-Nano, seinem 30B-Pendant. Nemotron-3-Super ist für hohe Effizienz und Genauigkeit bei Multi-Agent-AI konzipiert. Mit einem 1M-Token Kontextfenster führt es seine Größenklasse bei den AIME 2025-, Terminal Bench- und SWE-Bench Verified-Benchmarks an und erreicht gleichzeitig den höchsten Durchsatz.
Nemotron-3-Super läuft auf einem Gerät mit 64GB RAM, VRAM oder Unified Memory und kann jetzt lokal feinabgestimmt werden. Danke an NVIDIA für die Bereitstellung von Day-One-Unterstützung für Unsloth.
Nemotron 3 SuperNemotron 3 Nano
GGUF: NVIDIA-Nemotron-3-Super-120B-A12B-GGUF
⚙️ Gebrauchsanleitung
NVIDIA empfiehlt diese Einstellungen für Inferenz:
Allgemeiner Chat/Anweisung (Standard):
temperature = 1.0top_p = 1.0
Anwendungsfälle für Tool-Aufrufe:
temperature = 0.6top_p = 0.95
Für den meisten lokalen Gebrauch setze:
max_new_tokens=32,768auf262,144für Standard-Prompts mit maximal 1M TokensErhöhe es für tiefes Reasoning oder Langform-Generierung, je nachdem wie viel RAM/VRAM du hast.
Das Chat-Template-Format findet sich, wenn wir Folgendes verwenden:
tokenizer.apply_chat_template([
{"role" : "user", "content" : "What is 1+1?"},
{"role" : "assistant", "content" : "2"},
{"role" : "user", "content" : "What is 2+2?"}
], add_generation_prompt = True, tokenize = False,
)Weil das Modell mit NoPE trainiert wurde, musst du nur max_position_embeddingsändern. Das Modell verwendet keine expliziten Positions-Embeddings, daher ist YaRN nicht erforderlich.
Nemotron 3 Chat-Template-Format:
Nemotron 3 verwendet <think> mit Token-ID 12 und </think> mit Token-ID 13 für Reasoning. Verwende --special um die Tokens für llama.cpp zu sehen. Möglicherweise benötigst du auch --verbose-prompt um <think> zu sehen, da es vorangestellt ist.
🖥️ Nemotron-3-Super-120B-A12B ausführen
Abhängig von deinem Anwendungsfall benötigst du unterschiedliche Einstellungen. Einige GGUFs ähneln sich in der Größe, weil die Modellarchitektur (wie gpt-oss) Dimensionen hat, die nicht durch 128 teilbar sind, sodass Teile nicht auf niedrigere Bitbreiten quantisiert werden können. Greife auf GGUFs zu hier.
Die 4-Bit-Versionen des Modells benötigen ~64GB RAM - 72GB RAM. 8-Bit benötigt 128GB.
Llama.cpp Tutorial (GGUF):
Anweisungen zum Ausführen in llama.cpp (beachte, dass wir 4-Bit verwenden, um auf die meisten Geräte zu passen):
Hole dir das neueste llama.cpp auf GitHub hier. Du kannst auch den untenstehenden Build-Anweisungen folgen. Ändere -DGGML_CUDA=ON auf -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest.
Wir müssen Unsloths llama.cpp-Branch für Nemotron-3-Super installieren! Das ist für LM Studio nicht notwendig, da es mit einem Update funktionieren wird.
Du kannst direkt von Hugging Face ziehen. Du kannst den Kontext auf 1M erhöhen, je nachdem wie viel RAM/VRAM du hast.
Befolge dies für allgemeine Anweisungs- Anwendungsfälle:
Befolge dies für Tool-Aufrufe Anwendungsfälle:
Lade das Modell herunter via (nach Installation von pip install huggingface_hub hf_transfer ). Du kannst Q4_K_M oder andere quantisierte Versionen wie UD-Q4_K_XL wählen. Wir empfehlen, mindestens dynamische 2-Bit-Quantisierung zu verwenden UD-Q2_K_XL um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe: Hugging Face Hub, XET-Debugging
Dann starte das Modell im Konversationsmodus:

Passe außerdem das Kontextfenster nach Bedarf an. Stelle sicher, dass deine Hardware mehr als ein 256K-Kontextfenster verarbeiten kann. Das Setzen auf 1M kann CUDA OOM auslösen und abstürzen, weshalb der Standard 262.144 ist.
🦥 Feinabstimmung von Nemotron 3 und RL
Unsloth unterstützt jetzt die Feinabstimmung aller Nemotron-Modelle, einschließlich Nemotron 3 Super und Nano. Für Notebook-Beispiele von Nano siehe unseren Nemotron 3 Nano Fine-Tuning Guide.
Nemotron 3 Super
Router-Layer-Feinabstimmung ist aus Stabilitätsgründen standardmäßig deaktiviert.
Nemotron-3-Super-120B - bf16 LoRA funktioniert auf 256GB VRAM. Wenn du mehrere GPUs verwendest, füge hinzu
device_map = "balanced"oder folge unserem MultiGPU-Guide.
🦙Llama-server Bereitstellung & Deployment
Um Nemotron 3 in Produktion bereitzustellen, verwenden wir llama-server In einem neuen Terminal, z. B. via tmux, deploye das Modell via:
Wenn du das Obige ausführst, erhältst du:

Dann in einem neuen Terminal, nachdem du pip install openaiausgeführt hast, mache:
Was folgendes ausgeben wird:
Benchmarks
Im Vergleich zu ähnlich großen Modellen ist Nemotron 3 Super wettbewerbsfähig und bietet gleichzeitig den höchsten Durchsatz.

Zuletzt aktualisiert
War das hilfreich?

