# NVIDIA Nemotron 3 Nano - Wie man ausführt Leitfaden

NVIDIA veröffentlicht **Nemotron-3-Nano-4B**, ein offenes 4B-Hybrid-MoE-Modell, das folgt [Nemotron-3-Super-120B-A12B](/docs/de/modelle/nemotron-3/nemotron-3-super.md) und Nemotron-3-Nano-30B-A3B. Die Nemotron-Familie ist für schnelle, präzise Coding-, Mathematik- und agentische Workloads ausgelegt. Sie verfügen über ein **1M-Token-Kontext** Fenster und sind über Reasoning-, Chat- und Durchsatz-Benchmarks hinweg wettbewerbsfähig.

Nemotron-3-Nano-4B läuft auf **5 GB** RAM, VRAM oder Unified Memory. Nemotron-3-Nano-30A3B läuft auf **24 GB** RAM. Nemotron 3 kann jetzt lokal über [Unsloth](https://github.com/unslothai/unsloth)feinabgestimmt werden. Danke an NVIDIA dafür, dass Unsloth Day-Zero-Support erhalten hat.

<a href="/pages/5b44e9e3a6e7afb8361cf47dd0a061fbfa0ed3ef#run-nemotron-3-nano-4b" class="button primary">Nemotron-3-Nano-4B</a><a href="/pages/5b44e9e3a6e7afb8361cf47dd0a061fbfa0ed3ef#run-nemotron-3-nano-30b-a3b" class="button primary">Nemotron-3-Nano-30B-A3B</a><a href="https://docs.unsloth.ai/models/nemotron-3#fine-tuning-nemotron-3-nano-and-rl" class="button secondary">Feinabstimmung von Nemotron 3</a>

| [Nemotron-3-Nano-**4B**-GGUF](https://huggingface.co/unsloth/NVIDIA-Nemotron-3-Nano-4B-GGUF) | [Nemotron-3-**Nano-30B-A3B**-GGUF](https://huggingface.co/unsloth/Nemotron-3-Nano-30B-A3B-GGUF) |
| -------------------------------------------------------------------------------------------- | ----------------------------------------------------------------------------------------------- |

### ⚙️ Nutzungsanleitung

NVIDIA empfiehlt für die Inferenz diese Einstellungen:

{% columns %}
{% column %}
**Allgemeiner Chat-/Instruktionsmodus (Standard):**

* `temperature = 1.0`
* `top_p = 1.0`
  {% endcolumn %}

{% column %}
**Anwendungsfälle für Tool-Calling:**

* `temperature = 0.6`
* `top_p = 0.95`
  {% endcolumn %}
  {% endcolumns %}

**Für die meiste lokale Nutzung setzen Sie:**

* `max_new_tokens` = `32,768` zu `262,144` für Standard-Prompts mit einem Maximum von 1 Mio. Tokens
* Erhöhen Sie den Wert für tiefes Reasoning oder lange Generierung, soweit Ihr RAM/VRAM es zulässt.

Das Chat-Template-Format findet man, wenn man die folgende Verwendung nutzt:

{% code overflow="wrap" %}

```python
tokenizer.apply_chat_template([
    {"role" : "user", "content" : "Was ist 1+1?"},
    {"role" : "assistant", "content" : "2"},
    {"role" : "user", "content" : "Was ist 2+2?"}
    ], add_generation_prompt = True, tokenize = False,
)
```

{% endcode %}

{% hint style="success" %}
Da das Modell mit NoPE trainiert wurde, müssen Sie nur `max_position_embeddings`ändern. Das Modell verwendet keine expliziten Positions-Embeddings, daher wird YaRN nicht benötigt.
{% endhint %}

#### Nemotron 3 Chat-Template-Format:

{% hint style="info" %}
Nemotron 3 verwendet `<think>` mit Token-ID 12 und `</think>` mit Token-ID 13 für Reasoning. Verwenden Sie `--special` um die Token für llama.cpp zu sehen. Möglicherweise benötigen Sie auch `--verbose-prompt` um `<think>` zu sehen, da es vorangestellt wird.
{% endhint %}

{% code overflow="wrap" lineNumbers="true" %}

```
<|im_start|>system\n<|im_end|>\n<|im_start|>user\nWas ist 1+1?<|im_end|>\n<|im_start|>assistant\n<think></think>2<|im_end|>\n<|im_start|>user\nWas ist 2+2?<|im_end|>\n<|im_start|>assistant\n<think>\n
```

{% endcode %}

## 🖥️ Nemotron-3-Nano-4B ausführen

Je nach Anwendungsfall müssen Sie unterschiedliche Einstellungen verwenden. Einige GGUFs landen in ähnlicher Größe, weil die Modellarchitektur (wie [gpt-oss](/docs/de/modelle/gpt-oss-how-to-run-and-fine-tune.md)) Dimensionen hat, die nicht durch 128 teilbar sind, sodass Teile nicht auf niedrigere Bits quantisiert werden können.

Die 4-Bit-Versionen des Modells benötigen ca. 3 GB RAM. 8-Bit benötigt 5 GB.

### 🦥 Unsloth Studio-Anleitung

Nemotron 3 kann ausgeführt und feinabgestimmt werden in [Unsloth Studio](/docs/de/neu/studio.md), unserer neuen Open-Source-Web-UI für lokale KI. Mit Unsloth Studio können Sie Modelle lokal ausführen auf **MacOS, Windows**, Linux und:

{% columns %}
{% column %}

* Suchen, herunterladen, [GGUFs ausführen](/docs/de/neu/studio.md#run-models-locally) und Safetensor-Modelle
* [**Selbstheilendes** Tool-Calling](/docs/de/neu/studio.md#execute-code--heal-tool-calling) + **Websuche**
* [**Code-Ausführung**](/docs/de/neu/studio.md#run-models-locally) (Python, Bash)
* [Automatische Inferenz](/docs/de/neu/studio.md#model-arena) Parameter-Tuning (Temp, Top-p usw.)
* Schnelle CPU-+GPU-Inferenz via llama.cpp
* [LLMs trainieren](/docs/de/neu/studio.md#no-code-training) 2x schneller mit 70% weniger VRAM
  {% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/89ac45c1d5144736e3036cb7225d0c867534603a" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% stepper %}
{% step %}

#### Unsloth installieren

Führen Sie es in Ihrem Terminal aus:

**MacOS, Linux, WSL:**

```bash
curl -fsSL https://unsloth.ai/install.sh | sh
```

**Windows PowerShell:**

```bash
irm https://unsloth.ai/install.ps1 | iex
```

{% endstep %}

{% step %}

#### Unsloth starten

**MacOS, Linux, WSL, Windows:**

```bash
unsloth studio -H 0.0.0.0 -p 8888
```

<div data-with-frame="true"><figure><img src="/files/311a34fac8923d2f80dd8c143a1d9c68dff96db5" alt="" width="375"><figcaption></figcaption></figure></div>

**Dann öffnen Sie `http://localhost:8888` in Ihrem Browser.**
{% endstep %}

{% step %}

#### Nemotron-3-Nano-4B suchen und herunterladen

Beim ersten Start müssen Sie ein Passwort erstellen, um Ihr Konto zu sichern, und sich später erneut anmelden. Anschließend sehen Sie einen kurzen Einrichtungsassistenten, in dem Sie ein Modell, einen Datensatz und grundlegende Einstellungen auswählen. Sie können ihn jederzeit überspringen.

Gehen Sie dann zur [Studio Chat](/docs/de/neu/studio/chat.md) Registerkarte und suchen Sie in der Suchleiste nach Nemotron-3-Nano-4B und laden Sie Ihr gewünschtes Modell und Ihre gewünschte Quantisierung herunter.

<div data-with-frame="true"><figure><img src="/files/7d3fec21ff5e94c367d438eb4371b7441d7bbdd2" alt="" width="375"><figcaption></figcaption></figure></div>
{% endstep %}

{% step %}

#### Nemotron-3-Nano-4B ausführen

Inferenzparameter sollten bei der Verwendung von Unsloth Studio automatisch gesetzt werden; Sie können sie jedoch weiterhin manuell ändern. Sie können auch die Kontextlänge, die Chat-Vorlage und andere Einstellungen bearbeiten.

Weitere Informationen finden Sie in unserer [Unsloth Studio-Inferenzanleitung](/docs/de/neu/studio/chat.md).

<div data-with-frame="true"><figure><img src="/files/72e444ba2ee0f824709d0f03d5c3ca108bd5936f" alt="" width="563"><figcaption></figcaption></figure></div>
{% endstep %}
{% endstepper %}

### Llama.cpp-Tutorial:

Anweisungen zum Ausführen in llama.cpp (wir verwenden 8-Bit für nahezu volle Genauigkeit):

{% stepper %}
{% step %}
Hole dir die neueste `llama.cpp` auf [GitHub hier](https://github.com/ggml-org/llama.cpp). Du kannst auch den untenstehenden Build-Anweisungen folgen. Ändere `-DGGML_CUDA=ON` zu `-DGGML_CUDA=OFF` wenn du keine GPU hast oder nur CPU-Inferenz möchtest.

{% code overflow="wrap" %}

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

{% endcode %}
{% endstep %}

{% step %}
Sie können direkt von Hugging Face herunterladen. Sie können den Kontext auf 1 Mio. erhöhen, soweit Ihr RAM/VRAM es zulässt.

Befolgen Sie dies für **allgemeine Instruktions-** Anwendungsfälle:

```bash
./llama.cpp/llama-cli \
    -hf unsloth/NVIDIA-Nemotron-3-Nano-4B-GGUF:Q8_0 \
    --ctx-size 16384 \
    --temp 1.0 --top-p 1.0
```

Befolgen Sie dies für **tool-calling** Anwendungsfälle:

```bash
./llama.cpp/llama-cli \
    -hf unsloth/NVIDIA-Nemotron-3-Nano-4B-GGUF:Q8_0 \
    --ctx-size 32768 \\
    --temp 0.6 --top-p 0.95
```

{% endstep %}

{% step %}
Lade das Modell herunter über (nach der Installation von `pip install huggingface_hub hf_transfer` ). Du kannst `Q8_0` oder andere quantisierte Versionen auswählen.

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/NVIDIA-Nemotron-3-Nano-4B-GGUF",
    local_dir = "unsloth/NVIDIA-Nemotron-3-Nano-4B-GGUF",
    allow_patterns = ["*Q8_0*"],
)
```

{% endstep %}

{% step %}
Führen Sie das Modell dann im Konversationsmodus aus:

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \
    --model unsloth/NVIDIA-Nemotron-3-Nano-4B-GGUF/NVIDIA-Nemotron-3-Nano-4B-Q8_0.gguf \
    --ctx-size 16384 \
    --seed 3407 \\
    --prio 2 \\
    --temp 0.6 \\
    --top-p 0.95
```

{% endcode %}

Passen Sie außerdem **das Kontextfenster** nach Bedarf an. Stellen Sie sicher, dass Ihre Hardware ein Kontextfenster von mehr als 256K bewältigen kann. Wenn Sie es auf 1 Mio. setzen, kann CUDA OOM auslösen und abstürzen, weshalb der Standardwert 262.144 ist.
{% endstep %}
{% endstepper %}

## 🖥️ Nemotron-3-Nano-30B-A3B ausführen

Je nach Anwendungsfall müssen Sie unterschiedliche Einstellungen verwenden. Einige GGUFs landen in ähnlicher Größe, weil die Modellarchitektur (wie [gpt-oss](/docs/de/modelle/gpt-oss-how-to-run-and-fine-tune.md)) Dimensionen hat, die nicht durch 128 teilbar sind, sodass Teile nicht auf niedrigere Bits quantisiert werden können.

Die 4-Bit-Versionen des Modells benötigen ca. 24 GB RAM. 8-Bit benötigt 36 GB.

### 🦥 Unsloth Studio-Anleitung

Für dieses Tutorial verwenden wir [Unsloth Studio](/docs/de/neu/studio.md), unsere neue Web-UI zum Ausführen und Trainieren von LLMs. Mit Unsloth Studio können Sie Modelle lokal ausführen auf **Mac, Windows**und Linux eingeben und:

{% columns %}
{% column %}

* Suchen, herunterladen, [GGUFs ausführen](/docs/de/neu/studio.md#run-models-locally) und Safetensor-Modelle
* **Modelle** vergleichen **nebeneinander**
* [**Selbstheilendes** Tool-Calling](/docs/de/neu/studio.md#execute-code--heal-tool-calling) + **Websuche**
* [**Code-Ausführung**](/docs/de/neu/studio.md#run-models-locally) (Python, Bash)
* [Automatische Inferenz](/docs/de/neu/studio.md#model-arena) Parameter-Tuning (Temp, Top-p usw.)
* [LLMs trainieren](/docs/de/neu/studio.md#no-code-training) 2x schneller mit 70% weniger VRAM
  {% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/89ac45c1d5144736e3036cb7225d0c867534603a" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% stepper %}
{% step %}

#### Unsloth installieren

**MacOS, Linux, WSL:**

```bash
curl -fsSL https://unsloth.ai/install.sh | sh
```

**Windows PowerShell:**

```bash
irm https://unsloth.ai/install.ps1 | iex
```

{% endstep %}

{% step %}

#### Unsloth Studio einrichten (einmalig)

Die Einrichtung installiert automatisch Node.js (über nvm), baut das Frontend, installiert alle Python-Abhängigkeiten und baut llama.cpp mit CUDA-Unterstützung.

{% hint style="info" %}
**WSL-Benutzer:** Sie werden aufgefordert, Ihr `sudo` Passwort einzugeben, um Build-Abhängigkeiten zu installieren (`cmake`, `git`, `libcurl4-openssl-dev`).
{% endhint %}
{% endstep %}

{% step %}

#### Unsloth starten

**MacOS, Linux, WSL:**

```bash
source unsloth_studio/bin/activate
unsloth studio -H 0.0.0.0 -p 8888
```

**Windows PowerShell:**

```bash
& .\unsloth_studio\Scripts\unsloth.exe studio -H 0.0.0.0 -p 8888
```

<div data-with-frame="true"><figure><img src="/files/311a34fac8923d2f80dd8c143a1d9c68dff96db5" alt="" width="375"><figcaption></figcaption></figure></div>

**Dann öffnen Sie `http://localhost:8888` in Ihrem Browser.**
{% endstep %}

{% step %}

#### Nemotron-3-Nano-30B-A3B suchen und herunterladen

Beim ersten Start müssen Sie ein Passwort erstellen, um Ihr Konto zu sichern, und sich später erneut anmelden. Anschließend sehen Sie einen kurzen Einrichtungsassistenten, in dem Sie ein Modell, einen Datensatz und grundlegende Einstellungen auswählen. Sie können ihn jederzeit überspringen.

Gehen Sie dann zur [Studio Chat](/docs/de/neu/studio/chat.md) Registerkarte und suchen Sie in der Suchleiste nach Nemotron-3-Nano-4B und laden Sie Ihr gewünschtes Modell und Ihre gewünschte Quantisierung herunter.

<div data-with-frame="true"><figure><img src="/files/aab5a6be270a4290afde8f64b4852fb18326e2d1" alt="" width="375"><figcaption></figcaption></figure></div>
{% endstep %}

{% step %}

#### Nemotron-3-Nano-30B-A3B ausführen

Inferenzparameter sollten bei der Verwendung von Unsloth Studio automatisch gesetzt werden; Sie können sie jedoch weiterhin manuell ändern. Sie können auch die Kontextlänge, die Chat-Vorlage und andere Einstellungen bearbeiten.

Weitere Informationen finden Sie in unserer [Unsloth Studio-Inferenzanleitung](/docs/de/neu/studio/chat.md).

<div data-with-frame="true"><figure><img src="/files/72e444ba2ee0f824709d0f03d5c3ca108bd5936f" alt="" width="563"><figcaption></figcaption></figure></div>
{% endstep %}
{% endstepper %}

### Llama.cpp-Tutorial:

Anweisungen zum Ausführen in llama.cpp (beachten Sie, dass wir 4-Bit verwenden werden, damit es auf die meisten Geräte passt):

{% stepper %}
{% step %}
Hole dir die neueste `llama.cpp` auf [GitHub hier](https://github.com/ggml-org/llama.cpp). Du kannst auch den untenstehenden Build-Anweisungen folgen. Ändere `-DGGML_CUDA=ON` zu `-DGGML_CUDA=OFF` wenn du keine GPU hast oder nur CPU-Inferenz möchtest. **Für Apple Mac / Metal-Geräte**, setze `-DGGML_CUDA=OFF` und fahre dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

{% code overflow="wrap" %}

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

{% endcode %}
{% endstep %}

{% step %}
Sie können direkt von Hugging Face herunterladen. Sie können den Kontext auf 1 Mio. erhöhen, soweit Ihr RAM/VRAM es zulässt.

Befolgen Sie dies für **allgemeine Instruktions-** Anwendungsfälle:

```bash
./llama.cpp/llama-cli \
    -hf unsloth/Nemotron-3-Nano-30B-A3B-GGUF:UD-Q4_K_XL \
    --ctx-size 32768 \\
    --temp 1.0 --top-p 1.0
```

Befolgen Sie dies für **tool-calling** Anwendungsfälle:

```bash
./llama.cpp/llama-cli \
    -hf unsloth/Nemotron-3-Nano-30B-A3B-GGUF:UD-Q4_K_XL \
    --ctx-size 32768 \\
    --temp 0.6 --top-p 0.95
```

{% endstep %}

{% step %}
Lade das Modell herunter über (nach der Installation von `pip install huggingface_hub hf_transfer` ). Du kannst `UD-Q4_K_XL` oder andere quantisierte Versionen auswählen.

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Nemotron-3-Nano-30B-A3B-GGUF",
    local_dir = "unsloth/Nemotron-3-Nano-30B-A3B-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)
```

{% endstep %}

{% step %}
Führen Sie das Modell dann im Konversationsmodus aus:

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \
    --model unsloth/Nemotron-3-Nano-30B-A3B-GGUF/Nemotron-3-Nano-30B-A3B-UD-Q4_K_XL.gguf \
    --ctx-size 16384 \
    --seed 3407 \\
    --prio 2 \\
    --temp 0.6 \\
    --top-p 0.95
```

{% endcode %}

Passen Sie außerdem **das Kontextfenster** nach Bedarf an. Stellen Sie sicher, dass Ihre Hardware ein Kontextfenster von mehr als 256K bewältigen kann. Wenn Sie es auf 1 Mio. setzen, kann CUDA OOM auslösen und abstürzen, weshalb der Standardwert 262.144 ist.

{% hint style="info" %}
Nemotron 3 verwendet `<think>` mit Token-ID 12 und `</think>` mit Token-ID 13 für Reasoning. Verwenden Sie `--special` um die Token für llama.cpp zu sehen. Möglicherweise benötigen Sie auch `--verbose-prompt` um `<think>` zu sehen, da es vorangestellt wird.
{% endhint %}
{% endstep %}
{% endstepper %}

### 🦥 Nemotron 3 und RL feinabstimmen

Unsloth unterstützt jetzt die Feinabstimmung aller Nemotron-Modelle, einschließlich Nemotron 3 Super und Nano.&#x20;

Das 4B-Modell passt auf eine kostenlose Colab-GPU, das 30B-Modell jedoch nicht. Wir haben trotzdem ein 80-GB-A100-Colab-Notebook für Sie erstellt, mit dem Sie feinabstimmen können. Eine 16-Bit-LoRA-Feinabstimmung von Nemotron 3 Nano wird etwa **60 GB VRAM**:

* [Nemotron-3-Nano-30B-A3B SFT-LoRA-Notebook](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Nemotron-3-Nano-30B-A3B_A100.ipynb)

{% embed url="<https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Nemotron-3-Nano-30B-A3B_A100.ipynb>" %}

Bei der Feinabstimmung von MoEs ist es wahrscheinlich keine gute Idee, die Router-Schicht feinabzustimmen, daher haben wir sie standardmäßig deaktiviert. Wenn Sie seine Reasoning-Fähigkeiten beibehalten möchten (optional), können Sie eine Mischung aus Direktantworten und Chain-of-Thought-Beispielen verwenden. Verwenden Sie mindestens <mark style="background-color:green;">75 % Reasoning</mark> und <mark style="background-color:green;">25 % nicht-Reasoning</mark> in Ihrem Datensatz, damit das Modell seine Reasoning-Fähigkeiten beibehält.

#### :sparkles:Reinforcement Learning + NeMo Gym

Wir haben mit dem Open-Source-NVIDIA [NeMo Gym](https://github.com/NVIDIA-NeMo/Gym/pull/492) Team zusammengearbeitet, um die Demokratisierung von RL-Umgebungen zu ermöglichen. Unsere Zusammenarbeit erlaubt Single-Turn-Rollout-RL-Training für viele interessante Bereiche, darunter Mathematik, Coding, Tool-Nutzung usw., unter Verwendung von Trainingsumgebungen und Datensätzen aus NeMo Gym:

{% columns %}
{% column %}
[NeMo Gym Sudoku Reinforcement Learning Notebook](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/nemo_gym_sudoku.ipynb)

{% embed url="<https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/NeMo-Gym-Sudoku.ipynb>" %}
{% endcolumn %}

{% column %}
[NeMo Gym Multi-Umgebungen für Reinforcement-Learning-Notebook](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/NeMo-Gym-Multi-Environment.ipynb)

{% embed url="<https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/NeMo-Gym-Multi-Environment.ipynb>" %}
{% endcolumn %}
{% endcolumns %}

{% hint style="success" %}
**Schauen Sie sich auch unseren neuesten Kollaborationsleitfaden an, der im offiziellen Developer-Blog von NVIDIA veröffentlicht wurde:**

#### [So Feinabstimmen Sie ein LLM auf NVIDIA-GPUs mit Unsloth](https://blogs.nvidia.com/blog/rtx-ai-garage-fine-tuning-unsloth-dgx-spark/)

{% endhint %}

{% embed url="<https://blogs.nvidia.com/blog/rtx-ai-garage-fine-tuning-unsloth-dgx-spark/>" %}

### 🦙Llama-Server Serving & Deployment

Um Nemotron 3 für die Produktion bereitzustellen, verwenden wir `llama-server` In einem neuen Terminal, z. B. via tmux, stelle das Modell bereit mit:

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-server \
    --model unsloth/Nemotron-3-Nano-30B-A3B-GGUF/Nemotron-3-Nano-30B-A3B-UD-Q4_K_XL.gguf \
    --alias "unsloth/Nemotron-3-Nano-30B-A3B" \
    --prio 3 \
    --min-p 0,01 \
    --temp 0.6 \\
    --top-p 0.95 \
    --ctx-size 16384 \
    --port 8001
```

{% endcode %}

Wenn du das Obige ausführst, erhältst du:

<figure><img src="/files/0afd7f8fcec0477b00326afbf2285cb2765cbbbe" alt="" width="563"><figcaption></figcaption></figure>

Dann in einem neuen Terminal, nachdem du `pip install openai`ausgeführt hast, mache:

{% code overflow="wrap" %}

```python
from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/Nemotron-3-Nano-30B-A3B",
    messages = [{"role": "user", "content": "Was ist 2+2?"},],
)
print(completion.choices[0].message.content)
```

{% endcode %}

Das wird ausgeben

{% code overflow="wrap" %}

```
Der Benutzer stellt eine einfache Frage: "Was ist 2+2?" Die Antwort ist 4. Geben Sie die Antwort an.

2 + 2 = 4.
```

{% endcode %}

### Benchmarks

Nemotron-3-Nano-4B ist das Modell mit der besten Leistung seiner Größe, einschließlich Durchsatz.

<figure><img src="/files/0f3992264de31d3e05f5c63a9c72b37d3b1405b8" alt="" width="375"><figcaption></figcaption></figure>

Nemotron-3-Nano-30B-A3B ist das Modell mit der besten Leistung über alle Benchmarks hinweg, einschließlich Durchsatz.

<figure><img src="/files/ac04d6273ad8b321fc4821b9c195d5f9b7814565" alt=""><figcaption></figcaption></figure>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/de/modelle/nemotron-3.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
