🧩NVIDIA Nemotron-3-Super: Anleitung zur Ausführung
Führe NVIDIA Nemotron-3-Super-120B-A12B lokal auf deinem Gerät aus & feineinstelle es!
NVIDIA veröffentlicht Nemotron-3-Super-120B-A12B, ein 120B offenes hybrides Reasoning-MoE-Modell mit 12B aktiven Parametern, nach der früheren Einführung von Nemotron-3-Nano, seinem 30B-Pendant. Nemotron-3-Super ist für hohe Effizienz und Genauigkeit bei Multi-Agent-KI konzipiert. Mit einem 1M-Token Kontextfenster führt es seine Größenklasse bei den AIME 2025-, Terminal Bench- und SWE-Bench Verified-Benchmarks an und erreicht gleichzeitig den höchsten Durchsatz.
Nemotron-3-Super läuft auf einem Gerät mit 64GB RAM, VRAM oder Unified Memory und kann jetzt lokal feinabgestimmt werden. Danke an NVIDIA für die Bereitstellung von Day-Zero-Unterstützung für Unsloth.
Nemotron 3 SuperNemotron 3 Nano
GGUF: Nemotron-3-Super-120B-A12B-GGUF • NVFP4 • FP8 • BF16
⚙️ Gebrauchsanleitung
NVIDIA empfiehlt diese Einstellungen für Inferenz:
Allgemeiner Chat/Anweisung (Standard):
temperature = 1.0top_p = 1.0
Tool-Calling-Anwendungsfälle:
temperature = 0.6top_p = 0.95
Für die meisten lokalen Nutzungen, setzen Sie:
max_new_tokens=32,768auf262,144für Standard-Prompts mit maximal 1M TokensErhöhen Sie für tiefes Reasoning oder lange Generierung, je nachdem wie viel RAM/VRAM Sie zur Verfügung haben.
Das Chat-Template-Format findet sich, wenn wir folgendes verwenden:
tokenizer.apply_chat_template([
{"role" : "user", "content" : "What is 1+1?"},
{"role" : "assistant", "content" : "2"},
{"role" : "user", "content" : "What is 2+2?"}
], add_generation_prompt = True, tokenize = False,
)Da das Modell mit NoPE trainiert wurde, müssen Sie nur max_position_embeddingsändern. Das Modell verwendet keine expliziten Positions-Embeddings, daher wird YaRN nicht benötigt.
Nemotron 3 Chat-Template-Format:
Nemotron 3 verwendet <think> mit der Token-ID 12 und </think> mit der Token-ID 13 für Reasoning. Verwenden Sie --special um die Tokens für llama.cpp zu sehen. Möglicherweise benötigen Sie auch --verbose-prompt um <think> zu sehen, da es vorangestellt ist.
🖥️ Nemotron-3-Super-120B-A12B ausführen
Je nach Anwendungsfall müssen Sie unterschiedliche Einstellungen verwenden. Manche GGUFs sind in der Größe ähnlich, weil die Modellarchitektur (wie gpt-oss) Dimensionen hat, die nicht durch 128 teilbar sind, sodass Teile nicht auf niedrigere Bits quantisiert werden können. Greifen Sie auf GGUFs zu hier.
Die 4-Bit-Versionen des Modells benötigen ~64GB RAM - 72GB RAM. 8-Bit erfordern 128GB.
Llama.cpp Tutorial (GGUF):
Anleitungen zum Ausführen in llama.cpp (wir verwenden 4-Bit, um auf den meisten Geräten zu passen):
Beschaffen Sie sich das neueste llama.cpp auf GitHub hier. Sie können auch den unten stehenden Build-Anleitungen folgen. Ändern Sie -DGGML_CUDA=ON auf -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz möchten.
Sie können direkt von Hugging Face ziehen. Sie können den Kontext auf 1M erhöhen, je nachdem wie viel RAM/VRAM Sie zur Verfügung haben.
Folgen Sie dies für allgemeine Anleitungs- Anwendungsfälle:
Folgen Sie dies für Tool-Calling Anwendungsfälle:
Laden Sie das Modell herunter via (nachdem Sie installiert haben pip install huggingface_hub hf_transfer ). Sie können Q4_K_M oder andere quantisierte Versionen wie UD-Q4_K_XL wählen. Wir empfehlen, mindestens 2-Bit dynamische Quantisierung zu verwenden, UD-Q2_K_XL um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe: Hugging Face Hub, XET-Debugging
Dann starten Sie das Modell im Konversationsmodus:

Passen Sie außerdem Kontextfenster bei Bedarf an. Stellen Sie sicher, dass Ihre Hardware mehr als ein 256K-Kontextfenster verarbeiten kann. Es kann bei Setzen auf 1M CUDA OOM auslösen und abstürzen, weshalb der Standard 262.144 ist.
🦥 Feinabstimmung von Nemotron 3 und RL
Unsloth unterstützt jetzt die Feinabstimmung aller Nemotron-Modelle, einschließlich Nemotron 3 Super und Nano. Für Notebook-Beispiele zu Nano siehe unseren Nemotron 3 Nano Feinabstimmungsleitfaden.
Nemotron 3 Super
Router-Layer-Feinabstimmung ist standardmäßig aus Stabilitätsgründen deaktiviert.
Nemotron-3-Super-120B - bf16 LoRA funktioniert mit 256GB VRAM. Wenn Sie Multi-GPUs verwenden, fügen Sie
device_map = "balanced"hinzu oder folgen Sie unserem multiGPU-Leitfaden.
🦙Llama-server Bereitstellung & Deployment
Um Nemotron 3 in Produktion bereitzustellen, verwenden wir llama-server In einem neuen Terminal, z. B. via tmux, deployen Sie das Modell via:
Wenn Sie das oben ausführen, erhalten Sie:

Dann in einem neuen Terminal, nachdem Sie pip install openaiausgeführt haben, tun Sie:
Was folgendes ausgibt:
Benchmarks
Im Vergleich zu ähnlich großen Modellen ist Nemotron 3 Super wettbewerbsfähig und bietet gleichzeitig den höchsten Durchsatz.

Zuletzt aktualisiert
War das hilfreich?

