# NVIDIA Nemotron-3-Super: Anleitung zum Ausführen

NVIDIA veröffentlicht **Nemotron-3-Super-120B-A12B**, ein 120B offenes hybrides Reasoning-MoE-Modell mit 12B aktiven Parametern, nach der früheren Einführung von [Nemotron-3-Nano](/docs/de/modelle/nemotron-3.md), seinem 30B-Pendant. Nemotron-3-Super ist für hohe Effizienz und Genauigkeit bei Multi-Agent-KI konzipiert. Mit einem **1M-Token** Kontextfenster führt es seine Größenklasse bei den AIME 2025-, Terminal Bench- und SWE-Bench Verified-Benchmarks an und erreicht gleichzeitig den höchsten Durchsatz.

Nemotron-3-Super läuft auf einem Gerät mit **64GB** RAM, VRAM oder Unified Memory und kann jetzt lokal feinabgestimmt werden. Danke an NVIDIA für die Bereitstellung von Day-Zero-Unterstützung für Unsloth.

<a href="/pages/5b44e9e3a6e7afb8361cf47dd0a061fbfa0ed3ef#run-nemotron-3-super-120b" class="button primary">Nemotron 3 Super</a><a href="/pages/5b44e9e3a6e7afb8361cf47dd0a061fbfa0ed3ef" class="button secondary">Nemotron 3 Nano</a>

GGUF: [Nemotron-3-Super-120B-A12B-GGUF](https://huggingface.co/unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-GGUF) • [NVFP4](https://huggingface.co/unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4) • [FP8](https://huggingface.co/unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-FP8) • [BF16](https://huggingface.co/unsloth/NVIDIA-Nemotron-3-Super-120B-A12B)

### ⚙️ Gebrauchsanleitung

NVIDIA empfiehlt diese Einstellungen für Inferenz:

{% columns %}
{% column %}
**Allgemeiner Chat/Anweisung (Standard):**

* `temperature = 1.0`
* `top_p = 1.0`
  {% endcolumn %}

{% column %}
**Tool-Calling-Anwendungsfälle:**

* `temperature = 0.6`
* `top_p = 0.95`
  {% endcolumn %}
  {% endcolumns %}

**Für die meisten lokalen Nutzungen, setzen Sie:**

* `max_new_tokens` = `32,768` auf `262,144` für Standard-Prompts mit maximal 1M Tokens
* Erhöhen Sie für tiefes Reasoning oder lange Generierung, je nachdem wie viel RAM/VRAM Sie zur Verfügung haben.

Das Chat-Template-Format findet sich, wenn wir folgendes verwenden:

{% code overflow="wrap" %}

```python
tokenizer.apply_chat_template([
    {"role" : "user", "content" : "What is 1+1?"},
    {"role" : "assistant", "content" : "2"},
    {"role" : "user", "content" : "What is 2+2?"}
    ], add_generation_prompt = True, tokenize = False,
)
```

{% endcode %}

{% hint style="success" %}
Da das Modell mit NoPE trainiert wurde, müssen Sie nur `max_position_embeddings`ändern. Das Modell verwendet keine expliziten Positions-Embeddings, daher wird YaRN nicht benötigt.
{% endhint %}

#### Nemotron 3 Chat-Template-Format:

{% hint style="info" %}
Nemotron 3 verwendet `<think>` mit der Token-ID 12 und `</think>` mit der Token-ID 13 für Reasoning. Verwenden Sie `--special` um die Tokens für llama.cpp zu sehen. Möglicherweise benötigen Sie auch `--verbose-prompt` um `<think>` zu sehen, da es vorangestellt ist.
{% endhint %}

{% code overflow="wrap" lineNumbers="true" %}

```
<|im_start|>system\n<|im_end|>\n<|im_start|>user\nWhat is 1+1?<|im_end|>\n<|im_start|>assistant\n<think></think>2<|im_end|>\n<|im_start|>user\nWhat is 2+2?<|im_end|>\n<|im_start|>assistant\n<think>\n
```

{% endcode %}

### 🖥️ Nemotron-3-Super-120B-A12B ausführen

Je nach Anwendungsfall müssen Sie unterschiedliche Einstellungen verwenden. Manche GGUFs sind in der Größe ähnlich, weil die Modellarchitektur (wie [gpt-oss](/docs/de/modelle/gpt-oss-how-to-run-and-fine-tune.md)) Dimensionen hat, die nicht durch 128 teilbar sind, sodass Teile nicht auf niedrigere Bits quantisiert werden können. Greifen Sie auf GGUFs zu [hier](https://huggingface.co/unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-GGUF).

Die 4-Bit-Versionen des Modells benötigen \~64GB RAM - 72GB RAM. 8-Bit erfordern 128GB.

#### Llama.cpp Tutorial (GGUF):

Anleitungen zum Ausführen in llama.cpp (wir verwenden 4-Bit, um auf den meisten Geräten zu passen):

{% stepper %}
{% step %}
Beschaffen Sie sich das neueste `llama.cpp` auf [GitHub hier](https://github.com/ggml-org/llama.cpp). Sie können auch den unten stehenden Build-Anleitungen folgen. Ändern Sie `-DGGML_CUDA=ON` auf `-DGGML_CUDA=OFF` wenn Sie keine GPU haben oder nur CPU-Inferenz möchten.

{% code overflow="wrap" %}

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

{% endcode %}
{% endstep %}

{% step %}
Sie können direkt von Hugging Face ziehen. Sie können den Kontext auf 1M erhöhen, je nachdem wie viel RAM/VRAM Sie zur Verfügung haben.

Folgen Sie dies für **allgemeine Anleitungs-** Anwendungsfälle:

```bash
./llama.cpp/llama-cli \
    -hf unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 1.0 --top-p 1.0
```

Folgen Sie dies für **Tool-Calling** Anwendungsfälle:

```bash
./llama.cpp/llama-cli \
    -hf unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-GGUF:UD-Q4_K_XL \
    --ctx-size 32768 \
    --temp 0.6 --top-p 0.95
```

{% endstep %}

{% step %}
Laden Sie das Modell herunter via (nachdem Sie installiert haben `pip install huggingface_hub hf_transfer` ). Sie können Q4\_K\_M oder andere quantisierte Versionen wie `UD-Q4_K_XL` wählen. Wir empfehlen, mindestens 2-Bit dynamische Quantisierung zu verwenden, `UD-Q2_K_XL` um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe: [Hugging Face Hub, XET-Debugging](/docs/de/grundlagen/troubleshooting-and-faqs/hugging-face-hub-xet-debugging.md)

```bash
hf download unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-GGUF \
    --local-dir unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-GGUF \
    --include "*UD-Q4_K_XL*" # Verwenden Sie "*UD-Q2_K_XL*" für dynamische 2-Bit
```

{% endstep %}

{% step %}
Dann starten Sie das Modell im Konversationsmodus:

{% code overflow="wrap" %}

```bash
/llama.cpp/llama-cli \
    --model unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-GGUF/UD-Q4_K_XL/NVIDIA-Nemotron-3-Super-120B-A12B-UD-Q4_K_XL-00001-of-00003.gguf \
    --ctx-size 16384 \
    --seed 3407 \
    --prio 2 \
    --temp 0.6 \
    --top-p 0.95
```

{% endcode %}

<figure><img src="/files/2924fb30a49b06315da27b716fb275555b28f22d" alt=""><figcaption></figcaption></figure>

Passen Sie außerdem **Kontextfenster** bei Bedarf an. Stellen Sie sicher, dass Ihre Hardware mehr als ein 256K-Kontextfenster verarbeiten kann. Es kann bei Setzen auf 1M CUDA OOM auslösen und abstürzen, weshalb der Standard 262.144 ist.
{% endstep %}
{% endstepper %}

### 🦥 Feinabstimmung von Nemotron 3 und RL

Unsloth unterstützt jetzt die Feinabstimmung aller Nemotron-Modelle, einschließlich Nemotron 3 Super und Nano. Für Notebook-Beispiele zu Nano siehe unseren Nemotron 3 [Nano Feinabstimmungsleitfaden](/docs/de/modelle/nemotron-3.md).

#### Nemotron 3 Super

* Router-Layer-Feinabstimmung ist standardmäßig aus Stabilitätsgründen deaktiviert.
* Nemotron-3-Super-120B - bf16 LoRA funktioniert mit 256GB VRAM. Wenn Sie Multi-GPUs verwenden, fügen Sie     `device_map = "balanced"` hinzu oder folgen Sie unserem [multiGPU-Leitfaden](/docs/de/grundlagen/multi-gpu-training-with-unsloth.md).

### 🦙Llama-server Bereitstellung & Deployment

Um Nemotron 3 in Produktion bereitzustellen, verwenden wir `llama-server` In einem neuen Terminal, z. B. via tmux, deployen Sie das Modell via:

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-server \
    --model unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-GGUF/UD-Q4_K_XL/NVIDIA-Nemotron-3-Super-120B-A12B-UD-Q4_K_XL-00001-of-00003.gguf \
    --alias "unsloth/NVIDIA-Nemotron-3-Super-120B-A12B" \
    --prio 3 \
    --min_p 0.01 \
    --temp 0.6 \
    --top-p 0.95 \
    --ctx-size 16384 \
    --port 8001
```

{% endcode %}

Wenn Sie das oben ausführen, erhalten Sie:

<figure><img src="/files/068ac3291c5ddaace94ce2c332b52787cd922f54" alt=""><figcaption></figcaption></figure>

Dann in einem neuen Terminal, nachdem Sie `pip install openai`ausgeführt haben, tun Sie:

{% code overflow="wrap" %}

```python
from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/NVIDIA-Nemotron-3-Super-120B-A12B",
    messages = [{"role": "user", "content": "What is 2+2?"},],
)
print(completion.choices[0].message.reasoning_content)
print(completion.choices[0].message.content)
```

{% endcode %}

Was folgendes ausgibt:

{% code overflow="wrap" %}

```
Okay, der Benutzer fragte „What is 2+2?“ Das scheint eine sehr grundlegende arithmetische Frage zu sein.

Hmm, vielleicht testen sie, ob ich aufmerksam bin, oder vielleicht sind sie ein junges Kind, das Mathe lernt. Es könnte auch jemand sein, der prüft, ob ich eine einfache Frage überkompliziere.

Ich sollte es schlicht halten, da es keinen Hinweis auf eine Falle in der Anfrage gibt. Die Antwort ist definitiv 4 - kein Grund, bei einfacher Addition zu zweifeln.

Ein Teil von mir fragt sich, ob sie auf einen Witz hinauswollen (wie „2+2=5 für große Werte von 2“), aber da sie keinen Kontext angaben, gehe ich von einer ernstgemeinten Anfrage aus.

Besser klar und freundlich antworten – das könnte sie ermutigen, mehr Fragen zu stellen, wenn sie lernen. Keine unnötige Ausschmückung; einfach die Tatsache hilfreich darlegen.

2 + 2 ergibt **4**.

Dies ist eine grundlegende arithmetische Tatsache im Dezimalsystem (Basis 10). Wenn Sie in einem anderen Kontext fragen (wie modulare Arithmetik, Binärsystem oder ein Witz/Referenz), klären Sie das gern – ich passe mich gerne an! 😊
```

{% endcode %}

### Benchmarks

Im Vergleich zu ähnlich großen Modellen ist Nemotron 3 Super wettbewerbsfähig und bietet gleichzeitig den höchsten Durchsatz.

<figure><img src="/files/42635805d77489841852a213a45f961350213caf" alt=""><figcaption></figcaption></figure>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/de/modelle/nemotron-3/nemotron-3-super.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.