# NVIDIA Nemotron 3 Nano - Anleitung zum Ausführen

NVIDIA veröffentlicht **Nemotron-3-Nano-4B**, ein offenes 4B-Hybrid-MoE-Modell, das folgt [Nemotron-3-Super-120B-A12B](https://unsloth.ai/docs/de/modelle/nemotron-3/nemotron-3-super) und Nemotron-3-Nano-30B-A3B. Die Nemotron-Familie ist für schnelle, genaue Coding-, Mathematik- und agentische Workloads konzipiert. Sie verfügen über ein **1M-Token-Kontext** -Fenster und sind bei Reasoning-, Chat- und Durchsatz-Benchmarks konkurrenzfähig.

Nemotron-3-Nano-4B läuft auf **5 GB** an RAM, VRAM oder einheitlichem Speicher. Nemotron-3-Nano-30A3B läuft auf **24 GB** RAM. Nemotron 3 kann jetzt lokal über [Unsloth](https://github.com/unslothai/unsloth)feinabgestimmt werden. Vielen Dank an NVIDIA dafür, dass sie Unsloth Day-Zero-Support gegeben haben.

<a href="#run-nemotron-3-nano-4b" class="button primary">Nemotron-3-Nano-4B</a><a href="#run-nemotron-3-nano-30b-a3b" class="button primary">Nemotron-3-Nano-30B-A3B</a><a href="https://docs.unsloth.ai/models/nemotron-3#fine-tuning-nemotron-3-nano-and-rl" class="button secondary">Nemotron 3 feinabstimmen</a>

| [Nemotron-3-Nano-**4B**-GGUF](https://huggingface.co/unsloth/NVIDIA-Nemotron-3-Nano-4B-GGUF) | [Nemotron-3-**Nano-30B-A3B**-GGUF](https://huggingface.co/unsloth/Nemotron-3-Nano-30B-A3B-GGUF) |
| -------------------------------------------------------------------------------------------- | ----------------------------------------------------------------------------------------------- |

### ⚙️ Nutzungshandbuch

NVIDIA empfiehlt diese Einstellungen für die Inferenz:

{% columns %}
{% column %}
**Allgemeiner Chat/Anweisungen (Standard):**

* `temperature = 1.0`
* `top_p = 1.0`
  {% endcolumn %}

{% column %}
**Anwendungsfälle für Tool-Calling:**

* `temperature = 0.6`
* `top_p = 0.95`
  {% endcolumn %}
  {% endcolumns %}

**Für die meisten lokalen Anwendungen setzen Sie:**

* `max_new_tokens` = `32,768` auf `262,144` für Standard-Prompts mit einem Maximum von 1M Tokens
* Erhöhen Sie es für tiefes Reasoning oder lange Generierung, je nachdem, wie viel RAM/VRAM Ihnen zur Verfügung steht.

Das Chat-Template-Format findet man, wenn man das Folgende verwendet:

{% code overflow="wrap" %}

```python
tokenizer.apply_chat_template([
    {"role" : "user", "content" : "Was ist 1+1?"},
    {"role" : "assistant", "content" : "2"},
    {"role" : "user", "content" : "Was ist 2+2?"}
    ], add_generation_prompt = True, tokenize = False,
)
```

{% endcode %}

{% hint style="success" %}
Da das Modell mit NoPE trainiert wurde, müssen Sie nur `max_position_embeddings`ändern. Das Modell verwendet keine expliziten Positions-Embeddings, daher wird YaRN nicht benötigt.
{% endhint %}

#### Nemotron 3 Chat-Template-Format:

{% hint style="info" %}
Nemotron 3 verwendet `<think>` mit Token-ID 12 und `</think>` mit Token-ID 13 für das Reasoning. Verwenden Sie `--special` um die Tokens für llama.cpp anzuzeigen. Möglicherweise benötigen Sie auch `--verbose-prompt` um `<think>` zu sehen, da es vorangestellt wird.
{% endhint %}

{% code overflow="wrap" lineNumbers="true" %}

```
<|im_start|>system\n<|im_end|>\n<|im_start|>user\nWas ist 1+1?<|im_end|>\n<|im_start|>assistant\n<think></think>2<|im_end|>\n<|im_start|>user\nWas ist 2+2?<|im_end|>\n<|im_start|>assistant\n<think>\n
```

{% endcode %}

## 🖥️ Nemotron-3-Nano-4B ausführen

Je nach Anwendungsfall müssen Sie unterschiedliche Einstellungen verwenden. Einige GGUFs landen in der Größe ähnlich, weil die Modellarchitektur (wie [gpt-oss](https://unsloth.ai/docs/de/modelle/gpt-oss-how-to-run-and-fine-tune)) Dimensionen hat, die nicht durch 128 teilbar sind, sodass Teile nicht auf niedrigere Bits quantisiert werden können.

Die 4-Bit-Versionen des Modells benötigen ca. 3 GB RAM. 8-Bit benötigt 5 GB.

### 🦥 Unsloth Studio-Leitfaden

Nemotron 3 kann ausgeführt und feinabgestimmt werden in [Unsloth Studio](https://unsloth.ai/docs/de/neu/studio), unserer neuen Open-Source-Web-UI für lokale KI. Mit Unsloth Studio können Sie Modelle lokal auf **MacOS, Windows**, Linux und:

{% columns %}
{% column %}

* Suchen, herunterladen, [GGUFs ausführen](https://unsloth.ai/docs/de/neu/studio#run-models-locally) und Safetensor-Modelle
* [**Selbstheilendes** Tool-Calling](https://unsloth.ai/docs/de/neu/studio#execute-code--heal-tool-calling) + **Websuche**
* [**Codeausführung**](https://unsloth.ai/docs/de/neu/studio#run-models-locally) (Python, Bash)
* [Automatische Inferenz](https://unsloth.ai/docs/de/neu/studio#model-arena) Parameter-Tuning (Temp, Top-p usw.)
* Schnelle CPU- + GPU-Inferenz über llama.cpp
* [LLMs trainieren](https://unsloth.ai/docs/de/neu/studio#no-code-training) 2x schneller mit 70 % weniger VRAM
  {% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FFeQ0UUlnjXkDdqhcWglh%2Fskinny%20studio%20chat.png?alt=media&#x26;token=c2ee045f-c243-4024-a8e4-bb4dbe7bae79" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% stepper %}
{% step %}

#### Unsloth installieren

Führen Sie in Ihrem Terminal aus:

**MacOS, Linux, WSL:**

```bash
curl -fsSL https://unsloth.ai/install.sh | sh
```

**Windows PowerShell:**

```bash
irm https://unsloth.ai/install.ps1 | iex
```

{% endstep %}

{% step %}

#### Unsloth starten

**MacOS, Linux, WSL, Windows:**

```bash
unsloth studio -H 0.0.0.0 -p 8888
```

<div data-with-frame="true"><figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fd1yMMNa65Ccz50Ke0E7r%2FScreenshot%202026-03-17%20at%2012.32.38%E2%80%AFAM.png?alt=media&#x26;token=9369cfe7-35b1-4955-b8cb-42f7ecb43780" alt="" width="375"><figcaption></figcaption></figure></div>

**Dann öffnen Sie `http://localhost:8888` in Ihrem Browser.**
{% endstep %}

{% step %}

#### Nemotron-3-Nano-4B suchen und herunterladen

Beim ersten Start müssen Sie ein Passwort erstellen, um Ihr Konto zu sichern, und sich später erneut anmelden. Danach sehen Sie einen kurzen Einrichtungsassistenten, um ein Modell, einen Datensatz und grundlegende Einstellungen auszuwählen. Sie können ihn jederzeit überspringen.

Dann gehen Sie zum [Studio-Chat](https://unsloth.ai/docs/de/neu/studio/chat) Tab und suchen Sie in der Suchleiste nach Nemotron-3-Nano-4B und laden Sie Ihr gewünschtes Modell und Ihre gewünschte Quantisierung herunter.

<div data-with-frame="true"><figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2F82jpCCGLO19X8ts986AW%2FScreenshot%202026-03-20%20at%201.26.43%E2%80%AFAM.png?alt=media&#x26;token=ef3d0a14-6b63-4421-afb2-ba1dffe9982f" alt="" width="375"><figcaption></figcaption></figure></div>
{% endstep %}

{% step %}

#### Nemotron-3-Nano-4B ausführen

Die Inferenzparameter sollten bei Verwendung von Unsloth Studio automatisch gesetzt werden, Sie können sie jedoch weiterhin manuell ändern. Sie können auch die Kontextlänge, das Chat-Template und andere Einstellungen bearbeiten.

Weitere Informationen finden Sie in unserem [Unsloth Studio Inferenzleitfaden](https://unsloth.ai/docs/de/neu/studio/chat).

<div data-with-frame="true"><figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FXPQGEEr1YoKofrTatAKK%2Ftoolcallingif.gif?alt=media&#x26;token=25d68698-fb13-4c46-99b2-d39fb025df08" alt="" width="563"><figcaption></figcaption></figure></div>
{% endstep %}
{% endstepper %}

### Llama.cpp-Tutorial:

Anweisungen zum Ausführen in llama.cpp (wir verwenden 8-Bit für nahezu volle Präzision):

{% stepper %}
{% step %}
Holen Sie sich das neueste `llama.cpp` auf [GitHub hier](https://github.com/ggml-org/llama.cpp). Sie können auch den folgenden Build-Anweisungen folgen. Ändern Sie `-DGGML_CUDA=ON` auf `-DGGML_CUDA=OFF` wenn Sie keine GPU haben oder nur CPU-Inferenz möchten.

{% code overflow="wrap" %}

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \\
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

{% endcode %}
{% endstep %}

{% step %}
Sie können direkt von Hugging Face herunterladen. Sie können den Kontext auf 1M erhöhen, sofern Ihr RAM/VRAM dies zulässt.

Folgen Sie dies für **allgemeine Anweisungs-** Anwendungsfälle:

```bash
./llama.cpp/llama-cli \\
    -hf unsloth/NVIDIA-Nemotron-3-Nano-4B-GGUF:Q8_0 \\
    --ctx-size 16384 \\
    --temp 1.0 --top-p 1.0
```

Folgen Sie dies für **Tool-Calling** Anwendungsfälle:

```bash
./llama.cpp/llama-cli \\
    -hf unsloth/NVIDIA-Nemotron-3-Nano-4B-GGUF:Q8_0 \\
    --ctx-size 32768 \\
    --temp 0.6 --top-p 0.95
```

{% endstep %}

{% step %}
Laden Sie das Modell über herunter (nach der Installation von `pip install huggingface_hub hf_transfer` ). Sie können `Q8_0` oder andere quantisierte Versionen wählen.

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/NVIDIA-Nemotron-3-Nano-4B-GGUF",
    local_dir = "unsloth/NVIDIA-Nemotron-3-Nano-4B-GGUF",
    allow_patterns = ["*Q8_0*"],
)
```

{% endstep %}

{% step %}
Dann führen Sie das Modell im Konversationsmodus aus:

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \\
    --model unsloth/NVIDIA-Nemotron-3-Nano-4B-GGUF/NVIDIA-Nemotron-3-Nano-4B-Q8_0.gguf \\
    --ctx-size 16384 \\
    --seed 3407 \\
    --prio 2 \\
    --temp 0.6 \\
    --top-p 0.95
```

{% endcode %}

Passen Sie außerdem das **Kontextfenster** bei Bedarf an. Stellen Sie sicher, dass Ihre Hardware mehr als ein 256K-Kontextfenster bewältigen kann. Wenn Sie es auf 1M setzen, kann dies CUDA OOM auslösen und zum Absturz führen, weshalb der Standardwert 262.144 ist.
{% endstep %}
{% endstepper %}

## 🖥️ Nemotron-3-Nano-30B-A3B ausführen

Je nach Anwendungsfall müssen Sie unterschiedliche Einstellungen verwenden. Einige GGUFs landen in der Größe ähnlich, weil die Modellarchitektur (wie [gpt-oss](https://unsloth.ai/docs/de/modelle/gpt-oss-how-to-run-and-fine-tune)) Dimensionen hat, die nicht durch 128 teilbar sind, sodass Teile nicht auf niedrigere Bits quantisiert werden können.

Die 4-Bit-Versionen des Modells benötigen ca. 24 GB RAM. 8-Bit benötigt 36 GB.

### 🦥 Unsloth Studio-Leitfaden

Für dieses Tutorial werden wir verwenden [Unsloth Studio](https://unsloth.ai/docs/de/neu/studio), unsere neue Web-UI zum Ausführen und Trainieren von LLMs. Mit Unsloth Studio können Sie Modelle lokal auf **Mac, Windows**, und Linux und:

{% columns %}
{% column %}

* Suchen, herunterladen, [GGUFs ausführen](https://unsloth.ai/docs/de/neu/studio#run-models-locally) und Safetensor-Modelle
* **Vergleichen** Modelle **nebeneinander**
* [**Selbstheilendes** Tool-Calling](https://unsloth.ai/docs/de/neu/studio#execute-code--heal-tool-calling) + **Websuche**
* [**Codeausführung**](https://unsloth.ai/docs/de/neu/studio#run-models-locally) (Python, Bash)
* [Automatische Inferenz](https://unsloth.ai/docs/de/neu/studio#model-arena) Parameter-Tuning (Temp, Top-p usw.)
* [LLMs trainieren](https://unsloth.ai/docs/de/neu/studio#no-code-training) 2x schneller mit 70 % weniger VRAM
  {% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FFeQ0UUlnjXkDdqhcWglh%2Fskinny%20studio%20chat.png?alt=media&#x26;token=c2ee045f-c243-4024-a8e4-bb4dbe7bae79" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% stepper %}
{% step %}

#### Unsloth installieren

**MacOS, Linux, WSL:**

```bash
curl -fsSL https://unsloth.ai/main/install.sh | sh
```

**Windows PowerShell:**

```bash
irm https://unsloth.ai/install.ps1 | iex
```

{% endstep %}

{% step %}

#### Unsloth Studio einrichten (einmalig)

Die Einrichtung installiert automatisch Node.js (über nvm), baut das Frontend, installiert alle Python-Abhängigkeiten und baut llama.cpp mit CUDA-Unterstützung.

{% hint style="warning" %}
**Die erste Installation kann 5–10 Minuten dauern. Das ist normal, da `llama.cpp` Binärdateien kompilieren muss. B**brechen Sie es nicht ab.
{% endhint %}

{% hint style="info" %}
**WSL-Nutzer:** Sie werden nach Ihrem `sudo` -Passwort gefragt, um Build-Abhängigkeiten zu installieren (`cmake`, `git`, `libcurl4-openssl-dev`).
{% endhint %}
{% endstep %}

{% step %}

#### Unsloth starten

**MacOS, Linux, WSL:**

```bash
source unsloth_studio/bin/activate
unsloth studio -H 0.0.0.0 -p 8888
```

**Windows PowerShell:**

```bash
& .\\unsloth_studio\\Scripts\\unsloth.exe studio -H 0.0.0.0 -p 8888
```

<div data-with-frame="true"><figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fd1yMMNa65Ccz50Ke0E7r%2FScreenshot%202026-03-17%20at%2012.32.38%E2%80%AFAM.png?alt=media&#x26;token=9369cfe7-35b1-4955-b8cb-42f7ecb43780" alt="" width="375"><figcaption></figcaption></figure></div>

**Dann öffnen Sie `http://localhost:8888` in Ihrem Browser.**
{% endstep %}

{% step %}

#### Nemotron-3-Nano-30B-A3B suchen und herunterladen

Beim ersten Start müssen Sie ein Passwort erstellen, um Ihr Konto zu sichern, und sich später erneut anmelden. Danach sehen Sie einen kurzen Einrichtungsassistenten, um ein Modell, einen Datensatz und grundlegende Einstellungen auszuwählen. Sie können ihn jederzeit überspringen.

Dann gehen Sie zum [Studio-Chat](https://unsloth.ai/docs/de/neu/studio/chat) Tab und suchen Sie in der Suchleiste nach Nemotron-3-Nano-4B und laden Sie Ihr gewünschtes Modell und Ihre gewünschte Quantisierung herunter.

<div data-with-frame="true"><figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FQUTU2gI4DNuscVEuiT8f%2FScreenshot%202026-03-20%20at%201.28.50%E2%80%AFAM.png?alt=media&#x26;token=74d5fd9e-a229-4ddc-a96d-abe68e1ca6a3" alt="" width="375"><figcaption></figcaption></figure></div>
{% endstep %}

{% step %}

#### Nemotron-3-Nano-30B-A3B ausführen

Die Inferenzparameter sollten bei Verwendung von Unsloth Studio automatisch gesetzt werden, Sie können sie jedoch weiterhin manuell ändern. Sie können auch die Kontextlänge, das Chat-Template und andere Einstellungen bearbeiten.

Weitere Informationen finden Sie in unserem [Unsloth Studio Inferenzleitfaden](https://unsloth.ai/docs/de/neu/studio/chat).

<div data-with-frame="true"><figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FXPQGEEr1YoKofrTatAKK%2Ftoolcallingif.gif?alt=media&#x26;token=25d68698-fb13-4c46-99b2-d39fb025df08" alt="" width="563"><figcaption></figcaption></figure></div>
{% endstep %}
{% endstepper %}

### Llama.cpp-Tutorial:

Anweisungen zum Ausführen in llama.cpp (beachten Sie, dass wir 4-Bit verwenden werden, um auf die meisten Geräte zu passen):

{% stepper %}
{% step %}
Holen Sie sich das neueste `llama.cpp` auf [GitHub hier](https://github.com/ggml-org/llama.cpp). Sie können auch den folgenden Build-Anweisungen folgen. Ändern Sie `-DGGML_CUDA=ON` auf `-DGGML_CUDA=OFF` wenn Sie keine GPU haben oder nur CPU-Inferenz möchten. **Für Apple Mac / Metal-Geräte**, setzen Sie `-DGGML_CUDA=OFF` danach wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

{% code overflow="wrap" %}

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \\
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

{% endcode %}
{% endstep %}

{% step %}
Sie können direkt von Hugging Face herunterladen. Sie können den Kontext auf 1M erhöhen, sofern Ihr RAM/VRAM dies zulässt.

Folgen Sie dies für **allgemeine Anweisungs-** Anwendungsfälle:

```bash
./llama.cpp/llama-cli \\
    -hf unsloth/Nemotron-3-Nano-30B-A3B-GGUF:UD-Q4_K_XL \\
    --ctx-size 32768 \\
    --temp 1.0 --top-p 1.0
```

Folgen Sie dies für **Tool-Calling** Anwendungsfälle:

```bash
./llama.cpp/llama-cli \\
    -hf unsloth/Nemotron-3-Nano-30B-A3B-GGUF:UD-Q4_K_XL \\
    --ctx-size 32768 \\
    --temp 0.6 --top-p 0.95
```

{% endstep %}

{% step %}
Laden Sie das Modell über herunter (nach der Installation von `pip install huggingface_hub hf_transfer` ). Sie können `UD-Q4_K_XL` oder andere quantisierte Versionen wählen.

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Nemotron-3-Nano-30B-A3B-GGUF",
    local_dir = "unsloth/Nemotron-3-Nano-30B-A3B-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)
```

{% endstep %}

{% step %}
Dann führen Sie das Modell im Konversationsmodus aus:

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \\
    --model unsloth/Nemotron-3-Nano-30B-A3B-GGUF/Nemotron-3-Nano-30B-A3B-UD-Q4_K_XL.gguf \\
    --ctx-size 16384 \\
    --seed 3407 \\
    --prio 2 \\
    --temp 0.6 \\
    --top-p 0.95
```

{% endcode %}

Passen Sie außerdem das **Kontextfenster** bei Bedarf an. Stellen Sie sicher, dass Ihre Hardware mehr als ein 256K-Kontextfenster bewältigen kann. Wenn Sie es auf 1M setzen, kann dies CUDA OOM auslösen und zum Absturz führen, weshalb der Standardwert 262.144 ist.

{% hint style="info" %}
Nemotron 3 verwendet `<think>` mit Token-ID 12 und `</think>` mit Token-ID 13 für das Reasoning. Verwenden Sie `--special` um die Tokens für llama.cpp anzuzeigen. Möglicherweise benötigen Sie auch `--verbose-prompt` um `<think>` zu sehen, da es vorangestellt wird.
{% endhint %}
{% endstep %}
{% endstepper %}

### 🦥 Nemotron 3 und RL feinabstimmen

Unsloth unterstützt jetzt das Feinabstimmen aller Nemotron-Modelle, einschließlich Nemotron 3 Super und Nano.&#x20;

Das 4B-Modell passt auf eine kostenlose Colab-GPU, das 30B-Modell jedoch nicht. Wir haben dennoch ein 80GB-A100-Colab-Notebook für Sie erstellt, mit dem Sie feinabstimmen können. Das 16-Bit-LoRA-Feinabstimmen von Nemotron 3 Nano wird etwa **60 GB VRAM**:

* [Nemotron-3-Nano-30B-A3B SFT LoRA-Notebook](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Nemotron-3-Nano-30B-A3B_A100.ipynb)

{% embed url="<https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Nemotron-3-Nano-30B-A3B_A100.ipynb>" %}

Beim Feinabstimmen von MoEs ist es wahrscheinlich keine gute Idee, die Router-Schicht mit feinabzustimmen, daher haben wir sie standardmäßig deaktiviert. Wenn Sie seine Reasoning-Fähigkeiten beibehalten möchten (optional), können Sie eine Mischung aus direkten Antworten und Chain-of-Thought-Beispielen verwenden. Verwenden Sie mindestens <mark style="background-color:green;">75 % Reasoning</mark> und <mark style="background-color:green;">25 % Nicht-Reasoning</mark> in Ihrem Datensatz, damit das Modell seine Reasoning-Fähigkeiten behält.

#### :sparkles:Reinforcement Learning + NeMo Gym

Wir haben mit dem Open-Source-NVIDIA [NeMo Gym](https://github.com/NVIDIA-NeMo/Gym/pull/492) -Team zusammengearbeitet, um die Demokratisierung von RL-Umgebungen zu ermöglichen. Unsere Zusammenarbeit ermöglicht Single-Turn-Rollout-RL-Training für viele relevante Bereiche, darunter Mathematik, Coding, Tool-Use usw., unter Verwendung von Trainingsumgebungen und Datensätzen aus NeMo Gym:

{% columns %}
{% column %}
[NeMo Gym Sudoku Reinforcement-Learning-Notebook](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/nemo_gym_sudoku.ipynb)

{% embed url="<https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/NeMo-Gym-Sudoku.ipynb>" %}
{% endcolumn %}

{% column %}
[NeMo Gym Multi-Umgebungen für Reinforcement-Learning-Notebook](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/NeMo-Gym-Multi-Environment.ipynb)

{% embed url="<https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/NeMo-Gym-Multi-Environment.ipynb>" %}
{% endcolumn %}
{% endcolumns %}

{% hint style="success" %}
**Schauen Sie sich außerdem unseren neuesten Kollaborationsleitfaden an, der auf NVIDIAs offiziellem Developer-Blog veröffentlicht wurde:**

#### [Wie man ein LLM auf NVIDIA-GPUs mit Unsloth feinabstimmt](https://blogs.nvidia.com/blog/rtx-ai-garage-fine-tuning-unsloth-dgx-spark/)

{% endhint %}

{% embed url="<https://blogs.nvidia.com/blog/rtx-ai-garage-fine-tuning-unsloth-dgx-spark/>" %}

### 🦙Llama-Server-Bereitstellung & Deployment

Um Nemotron 3 produktiv bereitzustellen, verwenden wir `llama-server` In einem neuen Terminal, z. B. über tmux, stellen Sie das Modell bereit mit:

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-server \\
    --model unsloth/Nemotron-3-Nano-30B-A3B-GGUF/Nemotron-3-Nano-30B-A3B-UD-Q4_K_XL.gguf \\
    --alias "unsloth/Nemotron-3-Nano-30B-A3B" \\
    --prio 3 \\
    --min_p 0.01 \\
    --temp 0.6 \\
    --top-p 0.95 \\
    --ctx-size 16384 \\
    --port 8001
```

{% endcode %}

Wenn Sie das Obige ausführen, erhalten Sie:

<figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2F93hcq5qYJi4BNnkOqgC4%2Fimage.png?alt=media&#x26;token=901aa339-4b1f-4e43-9793-f224edcdb024" alt="" width="563"><figcaption></figcaption></figure>

Dann in einem neuen Terminal, nachdem Sie `pip install openai`ausgeführt haben, tun Sie Folgendes:

{% code overflow="wrap" %}

```python
from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/Nemotron-3-Nano-30B-A3B",
    messages = [{"role": "user", "content": "Was ist 2+2?"},],
)
print(completion.choices[0].message.content)
```

{% endcode %}

Was Folgendes ausgibt

{% code overflow="wrap" %}

```
Der Benutzer stellt eine einfache Frage: "Was ist 2+2?" Die Antwort ist 4. Geben Sie die Antwort aus.

2 + 2 = 4.
```

{% endcode %}

### Benchmarks

Nemotron-3-Nano-4B ist das leistungsstärkste Modell seiner Größe, einschließlich Durchsatz.

<figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FhpmDlCwCrlCw8iMtjTbC%2FCode_Generated_Image(26).png?alt=media&#x26;token=f66979d9-1bf9-47ca-ba65-0a7a04de9a52" alt="" width="375"><figcaption></figcaption></figure>

Nemotron-3-Nano-30B-A3B ist das leistungsstärkste Modell über alle Benchmarks hinweg, einschließlich Durchsatz.

<figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FOVAJmRGUC982jLoOivii%2Faccuracy_chart.png?alt=media&#x26;token=5c090424-087e-46ab-ac03-d3e82d3c2c87" alt=""><figcaption></figcaption></figure>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/de/modelle/nemotron-3.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
