🧩NVIDIA Nemotron-3-Super: Anleitung zum Ausführen

Führe & feintune NVIDIA Nemotron-3-Super-120B-A12B lokal auf deinem Gerät!

NVIDIA veröffentlicht Nemotron-3-Super-120B-A12B, ein 120B offenes hybrides Reasoning-MoE-Modell mit 12B aktiven Parametern, nach dem früheren Start von Nemotron-3-Nano, seinem 30B-Pendant. Nemotron-3-Super ist für hohe Effizienz und Genauigkeit bei Multi-Agent-AI konzipiert. Mit einem 1M-Token Kontextfenster führt es seine Größenklasse bei den AIME 2025-, Terminal Bench- und SWE-Bench Verified-Benchmarks an und erreicht gleichzeitig den höchsten Durchsatz.

Nemotron-3-Super läuft auf einem Gerät mit 64GB RAM, VRAM oder Unified Memory und kann jetzt lokal feinabgestimmt werden. Danke an NVIDIA für die Bereitstellung von Day-One-Unterstützung für Unsloth.

Nemotron 3 SuperNemotron 3 Nano

GGUF: NVIDIA-Nemotron-3-Super-120B-A12B-GGUFarrow-up-right

⚙️ Gebrauchsanleitung

NVIDIA empfiehlt diese Einstellungen für Inferenz:

Allgemeiner Chat/Anweisung (Standard):

  • temperature = 1.0

  • top_p = 1.0

Anwendungsfälle für Tool-Aufrufe:

  • temperature = 0.6

  • top_p = 0.95

Für den meisten lokalen Gebrauch setze:

  • max_new_tokens = 32,768 auf 262,144 für Standard-Prompts mit maximal 1M Tokens

  • Erhöhe es für tiefes Reasoning oder Langform-Generierung, je nachdem wie viel RAM/VRAM du hast.

Das Chat-Template-Format findet sich, wenn wir Folgendes verwenden:

tokenizer.apply_chat_template([
    {"role" : "user", "content" : "What is 1+1?"},
    {"role" : "assistant", "content" : "2"},
    {"role" : "user", "content" : "What is 2+2?"}
    ], add_generation_prompt = True, tokenize = False,
)
circle-check

Nemotron 3 Chat-Template-Format:

circle-info

Nemotron 3 verwendet <think> mit Token-ID 12 und </think> mit Token-ID 13 für Reasoning. Verwende --special um die Tokens für llama.cpp zu sehen. Möglicherweise benötigst du auch --verbose-prompt um <think> zu sehen, da es vorangestellt ist.

🖥️ Nemotron-3-Super-120B-A12B ausführen

Abhängig von deinem Anwendungsfall benötigst du unterschiedliche Einstellungen. Einige GGUFs ähneln sich in der Größe, weil die Modellarchitektur (wie gpt-oss) Dimensionen hat, die nicht durch 128 teilbar sind, sodass Teile nicht auf niedrigere Bitbreiten quantisiert werden können. Greife auf GGUFs zu hierarrow-up-right.

Die 4-Bit-Versionen des Modells benötigen ~64GB RAM - 72GB RAM. 8-Bit benötigt 128GB.

Llama.cpp Tutorial (GGUF):

Anweisungen zum Ausführen in llama.cpp (beachte, dass wir 4-Bit verwenden, um auf die meisten Geräte zu passen):

1

Hole dir das neueste llama.cpp auf GitHub hierarrow-up-right. Du kannst auch den untenstehenden Build-Anweisungen folgen. Ändere -DGGML_CUDA=ON auf -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest.

circle-exclamation
2

Du kannst direkt von Hugging Face ziehen. Du kannst den Kontext auf 1M erhöhen, je nachdem wie viel RAM/VRAM du hast.

Befolge dies für allgemeine Anweisungs- Anwendungsfälle:

Befolge dies für Tool-Aufrufe Anwendungsfälle:

3

Lade das Modell herunter via (nach Installation von pip install huggingface_hub hf_transfer ). Du kannst Q4_K_M oder andere quantisierte Versionen wie UD-Q4_K_XL wählen. Wir empfehlen, mindestens dynamische 2-Bit-Quantisierung zu verwenden UD-Q2_K_XL um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe: Hugging Face Hub, XET-Debugging

4

Dann starte das Modell im Konversationsmodus:

Passe außerdem das Kontextfenster nach Bedarf an. Stelle sicher, dass deine Hardware mehr als ein 256K-Kontextfenster verarbeiten kann. Das Setzen auf 1M kann CUDA OOM auslösen und abstürzen, weshalb der Standard 262.144 ist.

🦥 Feinabstimmung von Nemotron 3 und RL

Unsloth unterstützt jetzt die Feinabstimmung aller Nemotron-Modelle, einschließlich Nemotron 3 Super und Nano. Für Notebook-Beispiele von Nano siehe unseren Nemotron 3 Nano Fine-Tuning Guide.

Nemotron 3 Super

  • Router-Layer-Feinabstimmung ist aus Stabilitätsgründen standardmäßig deaktiviert.

  • Nemotron-3-Super-120B - bf16 LoRA funktioniert auf 256GB VRAM. Wenn du mehrere GPUs verwendest, füge hinzu device_map = "balanced" oder folge unserem MultiGPU-Guide.

🦙Llama-server Bereitstellung & Deployment

Um Nemotron 3 in Produktion bereitzustellen, verwenden wir llama-server In einem neuen Terminal, z. B. via tmux, deploye das Modell via:

Wenn du das Obige ausführst, erhältst du:

Dann in einem neuen Terminal, nachdem du pip install openaiausgeführt hast, mache:

Was folgendes ausgeben wird:

Benchmarks

Im Vergleich zu ähnlich großen Modellen ist Nemotron 3 Super wettbewerbsfähig und bietet gleichzeitig den höchsten Durchsatz.

Zuletzt aktualisiert

War das hilfreich?