🧩NVIDIA Nemotron-3-Super: Anleitung zur Ausführung

Führe NVIDIA Nemotron-3-Super-120B-A12B lokal auf deinem Gerät aus & feineinstelle es!

NVIDIA veröffentlicht Nemotron-3-Super-120B-A12B, ein 120B offenes hybrides Reasoning-MoE-Modell mit 12B aktiven Parametern, nach der früheren Einführung von Nemotron-3-Nano, seinem 30B-Pendant. Nemotron-3-Super ist für hohe Effizienz und Genauigkeit bei Multi-Agent-KI konzipiert. Mit einem 1M-Token Kontextfenster führt es seine Größenklasse bei den AIME 2025-, Terminal Bench- und SWE-Bench Verified-Benchmarks an und erreicht gleichzeitig den höchsten Durchsatz.

Nemotron-3-Super läuft auf einem Gerät mit 64GB RAM, VRAM oder Unified Memory und kann jetzt lokal feinabgestimmt werden. Danke an NVIDIA für die Bereitstellung von Day-Zero-Unterstützung für Unsloth.

Nemotron 3 SuperNemotron 3 Nano

GGUF: Nemotron-3-Super-120B-A12B-GGUFarrow-up-rightNVFP4arrow-up-rightFP8arrow-up-rightBF16arrow-up-right

⚙️ Gebrauchsanleitung

NVIDIA empfiehlt diese Einstellungen für Inferenz:

Allgemeiner Chat/Anweisung (Standard):

  • temperature = 1.0

  • top_p = 1.0

Tool-Calling-Anwendungsfälle:

  • temperature = 0.6

  • top_p = 0.95

Für die meisten lokalen Nutzungen, setzen Sie:

  • max_new_tokens = 32,768 auf 262,144 für Standard-Prompts mit maximal 1M Tokens

  • Erhöhen Sie für tiefes Reasoning oder lange Generierung, je nachdem wie viel RAM/VRAM Sie zur Verfügung haben.

Das Chat-Template-Format findet sich, wenn wir folgendes verwenden:

tokenizer.apply_chat_template([
    {"role" : "user", "content" : "What is 1+1?"},
    {"role" : "assistant", "content" : "2"},
    {"role" : "user", "content" : "What is 2+2?"}
    ], add_generation_prompt = True, tokenize = False,
)
circle-check

Nemotron 3 Chat-Template-Format:

circle-info

Nemotron 3 verwendet <think> mit der Token-ID 12 und </think> mit der Token-ID 13 für Reasoning. Verwenden Sie --special um die Tokens für llama.cpp zu sehen. Möglicherweise benötigen Sie auch --verbose-prompt um <think> zu sehen, da es vorangestellt ist.

🖥️ Nemotron-3-Super-120B-A12B ausführen

Je nach Anwendungsfall müssen Sie unterschiedliche Einstellungen verwenden. Manche GGUFs sind in der Größe ähnlich, weil die Modellarchitektur (wie gpt-oss) Dimensionen hat, die nicht durch 128 teilbar sind, sodass Teile nicht auf niedrigere Bits quantisiert werden können. Greifen Sie auf GGUFs zu hierarrow-up-right.

Die 4-Bit-Versionen des Modells benötigen ~64GB RAM - 72GB RAM. 8-Bit erfordern 128GB.

Llama.cpp Tutorial (GGUF):

Anleitungen zum Ausführen in llama.cpp (wir verwenden 4-Bit, um auf den meisten Geräten zu passen):

1

Beschaffen Sie sich das neueste llama.cpp auf GitHub hierarrow-up-right. Sie können auch den unten stehenden Build-Anleitungen folgen. Ändern Sie -DGGML_CUDA=ON auf -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz möchten.

2

Sie können direkt von Hugging Face ziehen. Sie können den Kontext auf 1M erhöhen, je nachdem wie viel RAM/VRAM Sie zur Verfügung haben.

Folgen Sie dies für allgemeine Anleitungs- Anwendungsfälle:

Folgen Sie dies für Tool-Calling Anwendungsfälle:

3

Laden Sie das Modell herunter via (nachdem Sie installiert haben pip install huggingface_hub hf_transfer ). Sie können Q4_K_M oder andere quantisierte Versionen wie UD-Q4_K_XL wählen. Wir empfehlen, mindestens 2-Bit dynamische Quantisierung zu verwenden, UD-Q2_K_XL um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe: Hugging Face Hub, XET-Debugging

4

Dann starten Sie das Modell im Konversationsmodus:

Passen Sie außerdem Kontextfenster bei Bedarf an. Stellen Sie sicher, dass Ihre Hardware mehr als ein 256K-Kontextfenster verarbeiten kann. Es kann bei Setzen auf 1M CUDA OOM auslösen und abstürzen, weshalb der Standard 262.144 ist.

🦥 Feinabstimmung von Nemotron 3 und RL

Unsloth unterstützt jetzt die Feinabstimmung aller Nemotron-Modelle, einschließlich Nemotron 3 Super und Nano. Für Notebook-Beispiele zu Nano siehe unseren Nemotron 3 Nano Feinabstimmungsleitfaden.

Nemotron 3 Super

  • Router-Layer-Feinabstimmung ist standardmäßig aus Stabilitätsgründen deaktiviert.

  • Nemotron-3-Super-120B - bf16 LoRA funktioniert mit 256GB VRAM. Wenn Sie Multi-GPUs verwenden, fügen Sie device_map = "balanced" hinzu oder folgen Sie unserem multiGPU-Leitfaden.

🦙Llama-server Bereitstellung & Deployment

Um Nemotron 3 in Produktion bereitzustellen, verwenden wir llama-server In einem neuen Terminal, z. B. via tmux, deployen Sie das Modell via:

Wenn Sie das oben ausführen, erhalten Sie:

Dann in einem neuen Terminal, nachdem Sie pip install openaiausgeführt haben, tun Sie:

Was folgendes ausgibt:

Benchmarks

Im Vergleich zu ähnlich großen Modellen ist Nemotron 3 Super wettbewerbsfähig und bietet gleichzeitig den höchsten Durchsatz.

Zuletzt aktualisiert

War das hilfreich?