# NVIDIA Nemotron 3 Nano Omni - Wie man lokal ausführt

NVIDIA Nemotron-3-Nano-Omni-30B-A3B ist ein offenes Hybrid-Reasoning-MoE-Modell mit 30 Mrd. Parametern, davon 3 Mrd. aktiv, entwickelt für multimodale agentische Workloads, einschließlich **Audio**, **Video**, Text, Bilder und Dokumente als Eingabe, mit Textausgabe. Das Modell läuft auf **25 GB RAM** für 4-Bit und 36 GB für 8-Bit.

Mit einem **256K-Kontext**, ist Nemotron 3 Nano Omni das **stärkste Omni-** Modell seiner Größe und das offen verfügbare multimodale Modell mit der höchsten Effizienz. Wir haben mit NVIDIA für Support ab Tag null zusammengearbeitet!\
**GGUF:** [Nemotron-3-Nano-Omni-30B-A3B-Reasoning](https://huggingface.co/unsloth/Nemotron-3-Nano-30B-A3B-GGUF)

### ⚙️ Nutzungsanleitung

NVIDIA empfiehlt für die Inferenz diese Einstellungen:

{% columns %}
{% column %}
**Allgemeiner Chat-/Instruktionsmodus (Standard):**

* `temperature = 1.0`
* `top_p = 1.0`
  {% endcolumn %}

{% column %}
**Anwendungsfälle für Tool-Calling:**

* `temperature = 0.6`
* `top_p = 0.95`
  {% endcolumn %}
  {% endcolumns %}

{% hint style="warning" %}
Verwenden Sie NICHT CUDA 13.2, da Sie sonst möglicherweise unleserliche Ausgaben erhalten. NVIDIA arbeitet an einer Lösung.
{% endhint %}

### Nemotron-3-Nano-Omni ausführen

Je nach Anwendungsfall müssen Sie [verschiedene Einstellungen](#usage-guide)verwenden. Einige GGUFs landen in ähnlicher Größe, weil die Modellarchitektur (wie [gpt-oss](/docs/de/modelle/gpt-oss-how-to-run-and-fine-tune.md)) Dimensionen hat, die nicht durch 128 teilbar sind, sodass Teile nicht auf niedrigere Bits quantisiert werden können. **GGUF:** [Nemotron-3-Nano-Omni-30B-A3B-Reasoning](https://huggingface.co/unsloth/Nemotron-3-Nano-30B-A3B-GGUF)

Die 4-Bit-Versionen des Modells benötigen ca. 25 GB RAM. 8-Bit benötigt 36 GB. Für diese Anleitungen verwenden wir `UD-Q4-K-XL` was einen guten Kompromiss zwischen Größe und Genauigkeit darstellt.

<a href="/pages/78057bfde350b3d5e5b61e20e35b56d077a87d6e#unsloth-studio-guide" class="button primary">In Unsloth Studio ausführen</a><a href="/pages/78057bfde350b3d5e5b61e20e35b56d077a87d6e#llama.cpp-tutorial" class="button secondary">In llama.cpp ausführen</a>

{% hint style="warning" %}
Derzeit funktioniert kein multimodales/Vision-GGUF in **Ollama** aufgrund separater `mmproj` Vision-Dateien. Verwenden Sie mit llama.cpp kompatible Backends.

Verwenden Sie NICHT **CUDA 13.2** da Sie sonst unverständliche Ausgaben erhalten könnten. NVIDIA arbeitet an einem Fix.
{% endhint %}

### 🦥 Unsloth Studio-Anleitung

Für dieses Tutorial verwenden wir [Unsloth Studio](/docs/de/neu/studio.md), unsere neue Web-UI zum Ausführen und Trainieren von LLMs. Mit Unsloth Studio können Sie Modelle ausführen und **Audio**, Bild und Text lokal auf **Mac, Windows**und Linux eingeben und:

{% columns %}
{% column %}

* Suchen, herunterladen, [GGUFs ausführen](/docs/de/neu/studio.md#run-models-locally) und Safetensor-Modelle
* **Modelle** vergleichen **nebeneinander**
* [**Selbstheilendes** Tool-Calling](/docs/de/neu/studio.md#execute-code--heal-tool-calling) + **Websuche**
* [**Code-Ausführung**](/docs/de/neu/studio.md#run-models-locally) (Python, Bash)
* [Automatische Inferenz](/docs/de/neu/studio.md#model-arena) Parameter-Tuning (Temp, Top-p usw.)
* [LLMs trainieren](/docs/de/neu/studio.md#no-code-training) 2x schneller mit 70% weniger VRAM
  {% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/89ac45c1d5144736e3036cb7225d0c867534603a" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% stepper %}
{% step %}

#### Unsloth installieren

**MacOS, Linux, WSL:**

```bash
curl -fsSL https://unsloth.ai/install.sh | sh
```

**Windows PowerShell:**

```bash
irm https://unsloth.ai/install.ps1 | iex
```

{% endstep %}

{% step %}

#### Unsloth Studio einrichten (einmalig)

Die Einrichtung installiert automatisch Node.js (über nvm), baut das Frontend, installiert alle Python-Abhängigkeiten und baut llama.cpp mit CUDA-Unterstützung.

{% hint style="info" %}
**WSL-Benutzer:** Sie werden aufgefordert, Ihr `sudo` Passwort einzugeben, um Build-Abhängigkeiten zu installieren (`cmake`, `git`, `libcurl4-openssl-dev`).
{% endhint %}
{% endstep %}

{% step %}

#### Unsloth starten

**MacOS, Linux, WSL:**

```bash
source unsloth_studio/bin/activate
unsloth studio -H 0.0.0.0 -p 8888
```

**Windows PowerShell:**

```bash
& .\unsloth_studio\Scripts\unsloth.exe studio -H 0.0.0.0 -p 8888
```

<div data-with-frame="true"><figure><img src="/files/311a34fac8923d2f80dd8c143a1d9c68dff96db5" alt="" width="375"><figcaption></figcaption></figure></div>

Dann öffnen Sie `http://127.0.0.1:8888` in Ihrem Browser.
{% endstep %}

{% step %}

#### NVIDIA-Nemotron-3-Nano-30B-A3B-Omni suchen und herunterladen

Beim ersten Start müssen Sie ein Passwort erstellen, um Ihr Konto zu sichern, und sich später erneut anmelden. Gehen Sie dann zum Tab [Studio Chat](/docs/de/neu/studio/chat.md) Registerkarte und suchen Sie in der Suchleiste nach Nemotron-3-Nano-Omni und laden Sie Ihr gewünschtes Modell und Ihre gewünschte Quantisierung herunter.

<div data-with-frame="true"><figure><img src="/files/aab5a6be270a4290afde8f64b4852fb18326e2d1" alt="" width="375"><figcaption></figcaption></figure></div>
{% endstep %}

{% step %}

#### Nemotron-3-Nano-30B-A3B-Omni ausführen

Inferenzparameter sollten bei der Verwendung von Unsloth Studio automatisch gesetzt werden; Sie können sie jedoch weiterhin manuell ändern. Sie können auch die Kontextlänge, die Chat-Vorlage und andere Einstellungen bearbeiten.

Weitere Informationen finden Sie in unserer [Unsloth Studio-Inferenzanleitung](/docs/de/neu/studio/chat.md).

<div data-with-frame="true"><figure><img src="/files/72e444ba2ee0f824709d0f03d5c3ca108bd5936f" alt="" width="563"><figcaption></figcaption></figure></div>
{% endstep %}
{% endstepper %}

### 🦙 Llama.cpp-Tutorial:

Anweisungen zum Ausführen in llama.cpp (beachten Sie, dass wir 4-Bit verwenden werden, damit es auf die meisten Geräte passt):

{% stepper %}
{% step %}
Hole dir die neueste `llama.cpp` auf [GitHub hier](https://github.com/ggml-org/llama.cpp). Du kannst auch den untenstehenden Build-Anweisungen folgen. Ändere `-DGGML_CUDA=ON` zu `-DGGML_CUDA=OFF` wenn du keine GPU hast oder nur CPU-Inferenz möchtest. **Für Apple Mac / Metal-Geräte**, setze `-DGGML_CUDA=OFF` und fahre dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

{% code overflow="wrap" %}

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

{% endcode %}
{% endstep %}

{% step %}
**Lassen Sie uns zuerst ein Bild holen!** Sie können auch Bilder hochladen. Wir werden <https://raw.githubusercontent.com/unslothai/unsloth/refs/heads/main/images/unsloth%20made%20with%20love.png>verwenden, unser kleines Logo, das zeigt, wie Finetunes mit Unsloth erstellt werden:

{% code overflow="wrap" %}

```bash
wget https://raw.githubusercontent.com/unslothai/unsloth/refs/heads/main/images/unsloth%20made%20with%20love.png -O unsloth.png
```

{% endcode %}

<figure><img src="/files/160964fe46d3d435f00c2ea49f3597248b55aef1" alt="" width="188"><figcaption></figcaption></figure>

Lassen Sie uns das zweite Bild unter <https://files.worldwildlife.org/wwfcmsprod/images/Sloth_Sitting_iStock_3_12_2014/story_full_width/8l7pbjmj29_iStock_000011145477Large_mini__1_.jpg>

{% code overflow="wrap" %}

```bash
wget https://files.worldwildlife.org/wwfcmsprod/images/Sloth_Sitting_iStock_3_12_2014/story_full_width/8l7pbjmj29_iStock_000011145477Large_mini__1_.jpg -O picture.png
```

{% endcode %}

<figure><img src="/files/9348b2f2ccd13a6029ac983226c9dc6671d3bc23" alt="" width="188"><figcaption></figcaption></figure>
{% endstep %}

{% step %}
Laden Sie das Modell über den folgenden Code herunter (nach der Installation von `pip install huggingface_hub`). Sie können Q4\_K\_M oder andere quantisierte Versionen wie `UD-Q4_K_XL` wählen. Wir empfehlen mindestens eine dynamische 2-Bit-Quantisierung `UD-Q2_K_XL` zu verwenden, um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe: [Hugging Face Hub, XET-Debugging](/docs/de/grundlagen/troubleshooting-and-faqs/hugging-face-hub-xet-debugging.md)

{% code overflow="wrap" %}

```bash
pip install huggingface_hub
hf download unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning-GGUF \
    --local-dir unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning-GGUF \
    --include "*mmproj-BF16*" \
    --include "*UD-Q4_K_XL*" # Verwenden Sie "*UD-Q2_K_XL*" für dynamisches 2-Bit
```

{% endcode %}
{% endstep %}

{% step %}
Führen Sie das Modell dann im Konversationsmodus aus:

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \
    --model unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning-GGUF/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning-UD-Q4_K_XL.gguf \
    --mmproj unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning-GGUF/mmproj-BF16.gguf \
    --temp 1.0 \
    --top-p 1.0 \\
    --min-p 0.01
```

{% endcode %}
{% endstep %}

{% step %}
Danach sehen Sie Folgendes:

<figure><img src="/files/b058030e6dca63b396a16426ded0b59bf7201de7" alt="" width="563"><figcaption></figcaption></figure>
{% endstep %}

{% step %}
Dann verwenden Sie `/image` um beide Bilder zu laden und zu fragen: „Was ist dieses Bild?“

<figure><img src="/files/455a819dc795f6c7fa4ec25f53eae0b5ca83ea50" alt="" width="563"><figcaption></figcaption></figure>

<figure><img src="/files/ca8dc653fc7ef6df0895560eb29f1b1b2e9bb07f" alt="" width="563"><figcaption></figcaption></figure>
{% endstep %}

{% step %}
Und für das Faultierbild:

<figure><img src="/files/0736f2c1210f5e351477f98eb9f71fc6fbe444ba" alt="" width="563"><figcaption></figcaption></figure>
{% endstep %}
{% endstepper %}

#### Llama-Server-Bereitstellung und Deployment

Um Nemotron 3 Nano Omni lokal bereitzustellen, verwenden Sie `llama-server`. In einem neuen Terminal, zum Beispiel über `tmux`, stellen Sie das Modell bereit:

```bash
./llama.cpp/llama-server \
    -hf unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning-GGUF:UD-Q4_K_XL \
    --alias "unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning" \
    --prio 3 \
    --temp 1.0 \
    --top-p 1.0 \\
    --port 8001
```

Wenn Sie das Modell manuell heruntergeladen haben, verwenden Sie:

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-server \
    --model unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning-GGUF/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning-UD-Q4_K_XL.gguf \
    --mmproj unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning-GGUF/mmproj-BF16.gguf \
    --alias "unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning" \
    --prio 3 \
    --temp 1.0 \
    --top-p 1.0 \\
    --port 8001
```

{% endcode %}

Dann in einem neuen Terminal, nach der Installation des OpenAI-Clients mit `pip install openai`:

```python
from openai import OpenAI
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning",
    messages = [
        {"role": "user", "content": "Was ist 2+2?"},
    ],
)
print(completion.choices[0].message.reasoning_content)
print(completion.choices[0].message.content)
```

Das wird etwa Folgendes anzeigen:

<figure><img src="/files/c89f37c87f0d44f269b5714886394c755be8b20f" alt="" width="563"><figcaption></figcaption></figure>

#### Bildeingabe über den OpenAI-kompatiblen Server

Lassen Sie uns `picture.png` verwenden, also das Faultierbild wie in [#llama.cpp-tutorial](#llama.cpp-tutorial "mention")

{% code expandable="true" %}

```python
from openai import OpenAI
import base64
import mimetypes
image_link = "picture.png"

def file_to_data_url(path: str) -> str:
    mime = mimetypes.guess_type(path)[0] or "application/octet-stream"
    with open(path, "rb") as f:
        data = base64.b64encode(f.read()).decode("utf-8")
    return f"data:{mime};base64,{data}"

openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)

completion = openai_client.chat.completions.create(
    model = "unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning",
    messages = [ {
        "role": "user",
        "content": [
            { "type": "text", "text": "Was ist dieses Bild?", },
            {
                "type": "image_url",
                "image_url": { "url": file_to_data_url(image_link), },
            },
        ],
    } ],
)
print(completion.choices[0].message.reasoning_content)
print(completion.choices[0].message.content)
```

{% endcode %}

Das wird etwa Folgendes anzeigen:

<figure><img src="/files/e8752f6647e1f56b945be8d09be854c54f2a1006" alt=""><figcaption></figcaption></figure>

### 🦥 Nemotron 3 Nano Omni feinabstimmen

Unsloth unterstützt die gesamte [Nemotron](/docs/de/modelle/nemotron-3.md) Modellfamilie. Nemotron 3 Nano Omni ist nützlich für multimodale Agenten-Datensätze. Sie können mit Unsloth auf Audio, Vision oder Text trainieren. **Videoeingabe** Fine-Tuning wird derzeit nicht unterstützt.

Für nur Text und Notebooks können Sie vom vorhandenen [Nemotron 3 Nano Fine-Tuning-Flow](/docs/de/modelle/nemotron-3.md#fine-tuning-nemotron-3-and-rl)ausgehen. Für multimodale Adapter stellen Sie sicher, dass Ihr Datensatz die Modalität enthält, die Ihr Agent tatsächlich benötigt:

* **Computernutzung:** Screenshots, UI-Zustand, Cursor/Kontext, erwartete nächste Aktion
* **Dokumentenintelligenz:** PDFs, Screenshots, Diagramme, Tabellen, strukturierte Extraktionsziele
* **Audioverständnis:** Audioclips, abgetastete Frames, Zusammenfassungen, Zeitstempel, Ereignisse und Folgefragen
* **Agenten-Schleifen:** Beobachtung → Schlussfolgerung → Aktion → Validierungsbeispiele

Verwenden Sie für Omni nicht blind die VRAM-Werte nur für Text. Multimodale Encoder, Projektor-Gewichte, Bild-Tokens, Audio-Blöcke und langer Kontext erhöhen alle den Speicherverbrauch. Beginnen Sie mit kürzeren Kontexten und kleineren Batchgrößen und skalieren Sie dann hoch.

### Benchmarks

Nemotron 3 Nano Omni ist das stärkste Omni-Modell seiner Größe. Es ist außerdem das offen verfügbare multimodale Modell mit der höchsten Effizienz und führender Genauigkeit. Das Modell übertrifft Qwen3-Omni-30B-A3B in jedem Benchmark.

<div data-with-frame="true"><figure><img src="/files/83075926539719d041c93b1280b22a4aadb8390d" alt="" width="563"><figcaption></figcaption></figure></div>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/de/modelle/nemotron-3-nano-omni.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
