> For the complete documentation index, see [llms.txt](https://unsloth.ai/docs/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://unsloth.ai/docs/de/modelle/nemotron-3-nano-omni.md).

# NVIDIA Nemotron 3 Nano Omni - So wird es lokal ausgeführt

NVIDIA Nemotron-3-Nano-Omni-30B-A3B ist ein offenes Hybrid-Reasoning-MoE-Modell mit 30B Parametern und 3B aktiven Parametern, das für multimodale agentische Workloads gebaut wurde, einschließlich **Audio**, **Video**, Text, Bildern und Dokumenten als Eingabe, mit Textausgabe. Das Modell läuft auf **25 GB RAM** für 4-Bit und 36 GB für 8-Bit.

Mit einem **256K-Kontext**ist Nemotron 3 Nano Omni das **stärkste Omni** Modell seiner Größe und das effizienteste offene multimodale Modell. Wir haben mit NVIDIA für Day-Zero-Support zusammengearbeitet!\
**GGUF:** [Nemotron-3-Nano-Omni-30B-A3B-Reasoning](https://huggingface.co/unsloth/Nemotron-3-Nano-30B-A3B-GGUF)

### ⚙️ Nutzungshandbuch

NVIDIA empfiehlt diese Einstellungen für die Inferenz:

{% columns %}
{% column %}
**Denken-Modus:**

* `temperature = 0.6`
* `top_p = 0.95`
  {% endcolumn %}

{% column %}
**Instruct-Modus:**

* `temperature = 0.2`
  {% endcolumn %}
  {% endcolumns %}

### Nemotron-3-Nano-Omni ausführen

Je nach Anwendungsfall müssen Sie [unterschiedliche Einstellungen](#usage-guide). Einige GGUFs landen in etwa gleich groß, weil die Modellarchitektur (wie [gpt-oss](/docs/de/modelle/gpt-oss-how-to-run-and-fine-tune.md)) Dimensionen hat, die nicht durch 128 teilbar sind, sodass Teile nicht auf niedrigere Bits quantisiert werden können. **GGUF:** [Nemotron-3-Nano-Omni-30B-A3B-Reasoning](https://huggingface.co/unsloth/Nemotron-3-Nano-30B-A3B-GGUF)

Die 4-Bit-Versionen des Modells benötigen etwa 25 GB RAM. 8-Bit benötigt 36 GB. Für diese Anleitungen verwenden wir `UD-Q4-K-XL` was ein guter Kompromiss zwischen Größe und Genauigkeit ist.

<a href="/pages/78057bfde350b3d5e5b61e20e35b56d077a87d6e#unsloth-studio-guide" class="button primary">In Unsloth Studio ausführen</a><a href="/pages/78057bfde350b3d5e5b61e20e35b56d077a87d6e#llama.cpp-tutorial" class="button secondary">In llama.cpp ausführen</a>

{% hint style="warning" %}
Derzeit funktioniert kein multimodales/Vision-GGUF in **Ollama** wegen separater `mmproj` Vision-Dateien. Verwenden Sie mit llama.cpp kompatible Backends.

Verwenden Sie NICHT **CUDA 13.2** da sonst möglicherweise Kauderwelsch-Ausgaben entstehen. NVIDIA arbeitet an einer Lösung.
{% endhint %}

### 🦥 Unsloth Studio-Anleitung

Für dieses Tutorial verwenden wir [Unsloth Studio](/docs/de/neu/studio.md), unser neues Web-UI zum Ausführen und Trainieren von LLMs. Mit Unsloth Studio können Sie Modelle ausführen und **Audio**, Bild und Text lokal auf **Mac, Windows**und Linux und:

{% columns %}
{% column %}

* Suchen, herunterladen, [GGUFs ausführen](/docs/de/neu/studio.md#run-models-locally) und Safetensor-Modelle
* **Modelle** vergleichen **nebeneinander**
* [**Selbstheilendes** Tool-Calling](/docs/de/neu/studio.md#execute-code--heal-tool-calling) + **Websuche**
* [**Code-Ausführung**](/docs/de/neu/studio.md#run-models-locally) (Python, Bash)
* [Automatische Inferenz](/docs/de/neu/studio.md#model-arena) Parameterabstimmung (temp, top-p usw.)
* [LLMs trainieren](/docs/de/neu/studio.md#no-code-training) 2x schneller mit 70 % weniger VRAM
  {% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/89ac45c1d5144736e3036cb7225d0c867534603a" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% stepper %}
{% step %}

#### Unsloth installieren

**MacOS, Linux, WSL:**

```bash
curl -fsSL https://unsloth.ai/install.sh | sh
```

**Windows PowerShell:**

```bash
irm https://unsloth.ai/install.ps1 | iex
```

{% endstep %}

{% step %}

#### Unsloth Studio einrichten (einmalig)

Das Setup installiert automatisch Node.js (über nvm), baut das Frontend, installiert alle Python-Abhängigkeiten und baut llama.cpp mit CUDA-Unterstützung.

{% hint style="info" %}
**WSL-Benutzer:** Sie werden zur Eingabe Ihres `sudo` Passworts aufgefordert, um Build-Abhängigkeiten zu installieren (`cmake`, `git`, `libcurl4-openssl-dev`).
{% endhint %}
{% endstep %}

{% step %}

#### Unsloth starten

**MacOS, Linux, WSL:**

```bash
source unsloth_studio/bin/activate
unsloth studio -H 0.0.0.0 -p 8888
```

**Windows PowerShell:**

```bash
unsloth studio -H 0.0.0.0 -p 8888
```

<div data-with-frame="true"><figure><img src="/files/311a34fac8923d2f80dd8c143a1d9c68dff96db5" alt="" width="375"><figcaption></figcaption></figure></div>

Dann öffnen Sie `http://127.0.0.1:8888` in Ihrem Browser.
{% endstep %}

{% step %}

#### NVIDIA-Nemotron-3-Nano-30B-A3B-Omni suchen und herunterladen

Beim ersten Start müssen Sie ein Passwort erstellen, um Ihr Konto zu sichern, und sich später erneut anmelden. Gehen Sie dann zum [Studio-Chat](/docs/de/neu/studio/chat.md) Tab und suchen Sie in der Suchleiste nach Nemotron-3-Nano-Omni und laden Sie Ihr gewünschtes Modell und Quant herunter.

<div data-with-frame="true"><figure><img src="/files/aab5a6be270a4290afde8f64b4852fb18326e2d1" alt="" width="375"><figcaption></figcaption></figure></div>
{% endstep %}

{% step %}

#### Nemotron-3-Nano-30B-A3B-Omni ausführen

Die Inferenzparameter sollten bei Verwendung von Unsloth Studio automatisch gesetzt werden, Sie können sie jedoch weiterhin manuell ändern. Sie können auch die Kontextlänge, die Chat-Vorlage und andere Einstellungen bearbeiten.

Weitere Informationen finden Sie in unserem [Unsloth Studio-Inferenzleitfaden](/docs/de/neu/studio/chat.md).

<div data-with-frame="true"><figure><img src="/files/72e444ba2ee0f824709d0f03d5c3ca108bd5936f" alt="" width="563"><figcaption></figcaption></figure></div>
{% endstep %}
{% endstepper %}

### 🦙 Llama.cpp-Tutorial:

Anweisungen zum Ausführen in llama.cpp (beachten Sie, dass wir 4-Bit verwenden, um auf die meisten Geräte zu passen):

{% stepper %}
{% step %}
Holen Sie sich die neueste `llama.cpp` auf [GitHub hier](https://github.com/ggml-org/llama.cpp). Sie können auch den Build-Anweisungen unten folgen. Ändern Sie `-DGGML_CUDA=ON` zu `-DGGML_CUDA=OFF` wenn Sie keine GPU haben oder nur CPU-Inferenz möchten. **Für Apple Mac / Metal-Geräte**, setzen Sie `-DGGML_CUDA=OFF` und fahren Sie dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

{% code overflow="wrap" %}

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

{% endcode %}
{% endstep %}

{% step %}
**Lassen Sie uns zuerst ein Bild holen!** Sie können auch Bilder hochladen. Wir werden <https://raw.githubusercontent.com/unslothai/unsloth/refs/heads/main/images/unsloth%20made%20with%20love.png>verwenden, das nur unser Mini-Logo ist und zeigt, wie Finetunes mit Unsloth erstellt werden:

{% code overflow="wrap" %}

```bash
wget https://raw.githubusercontent.com/unslothai/unsloth/refs/heads/main/images/unsloth%20made%20with%20love.png -O unsloth.png
```

{% endcode %}

<figure><img src="/files/160964fe46d3d435f00c2ea49f3597248b55aef1" alt="" width="188"><figcaption></figcaption></figure>

Holen wir uns das zweite Bild unter <https://files.worldwildlife.org/wwfcmsprod/images/Sloth_Sitting_iStock_3_12_2014/story_full_width/8l7pbjmj29_iStock_000011145477Large_mini__1_.jpg>

{% code overflow="wrap" %}

```bash
wget https://files.worldwildlife.org/wwfcmsprod/images/Sloth_Sitting_iStock_3_12_2014/story_full_width/8l7pbjmj29_iStock_000011145477Large_mini__1_.jpg -O picture.png
```

{% endcode %}

<figure><img src="/files/9348b2f2ccd13a6029ac983226c9dc6671d3bc23" alt="" width="188"><figcaption></figcaption></figure>
{% endstep %}

{% step %}
Jetzt laden wir das Modell manuell herunter. Das können wir über den folgenden Code tun (nachdem Sie pip install huggingface\_hub installiert haben). Wenn Downloads hängen bleiben, siehe: [Hugging Face Hub, XET-Debugging](/docs/de/grundlagen/troubleshooting-and-faqs/hugging-face-hub-xet-debugging.md)

{% code overflow="wrap" %}

```bash
pip install huggingface_hub
hf download unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning-GGUF \
    --local-dir unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning-GGUF \
    --include "*mmproj-BF16*" \
    --include "*UD-Q4_K_XL*" # Verwenden Sie "*UD-Q2_K_XL*" für Dynamic 2bit
```

{% endcode %}
{% endstep %}

{% step %}
Dann führen Sie das Modell im Konversationsmodus aus:

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \
    --model unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning-GGUF/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning-UD-Q4_K_XL.gguf \
    --mmproj unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning-GGUF/mmproj-BF16.gguf \
    --temp 0.6 \
    --top-p 0.95 \
    --min-p 0.01
```

{% endcode %}
{% endstep %}

{% step %}
Dann sehen Sie Folgendes unten:

<figure><img src="/files/b058030e6dca63b396a16426ded0b59bf7201de7" alt="" width="563"><figcaption></figcaption></figure>
{% endstep %}

{% step %}
Dann verwenden Sie `/image` um beide Bilder zu laden und zu fragen: "Was ist dieses Bild":

<figure><img src="/files/455a819dc795f6c7fa4ec25f53eae0b5ca83ea50" alt="" width="563"><figcaption></figcaption></figure>

<figure><img src="/files/ca8dc653fc7ef6df0895560eb29f1b1b2e9bb07f" alt="" width="563"><figcaption></figcaption></figure>
{% endstep %}

{% step %}
Und für das Faultierbild:

<figure><img src="/files/0736f2c1210f5e351477f98eb9f71fc6fbe444ba" alt="" width="563"><figcaption></figcaption></figure>
{% endstep %}
{% endstepper %}

#### Llama-server-Bereitstellung und Deployment

Um Nemotron 3 Nano Omni lokal bereitzustellen, verwenden Sie `llama-server`. In einem neuen Terminal, zum Beispiel über `tmux`, stellen Sie das Modell bereit:

```bash
./llama.cpp/llama-server \
    -hf unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning-GGUF:UD-Q4_K_XL \
    --alias "unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning" \
    --prio 3 \
    --temp 0.6 \
    --top-p 0.95 \
    --port 8001
```

Wenn Sie das Modell manuell heruntergeladen haben, verwenden Sie:

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-server \
    --model unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning-GGUF/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning-UD-Q4_K_XL.gguf \
    --mmproj unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning-GGUF/mmproj-BF16.gguf \
    --alias "unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning" \
    --prio 3 \
    --temp 0.6 \
    --top-p 0.95 \
    --port 8001
```

{% endcode %}

Dann in einem neuen Terminal, nachdem Sie den OpenAI-Client installiert haben mit `pip install openai`:

```python
from openai import OpenAI
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning",
    messages = [
        {"role": "user", "content": "What is 2+2?"},
    ],
)
print(completion.choices[0].message.reasoning_content)
print(completion.choices[0].message.content)
```

Was ungefähr Folgendes anzeigen wird:

<figure><img src="/files/c89f37c87f0d44f269b5714886394c755be8b20f" alt="" width="563"><figcaption></figcaption></figure>

#### Bildeingabe über den OpenAI-kompatiblen Server

Lassen Sie uns `picture.png` verwenden, das das Faultierbild war wie in [#llama.cpp-tutorial](#llama.cpp-tutorial "mention")

{% code expandable="true" %}

```python
from openai import OpenAI
import base64
import mimetypes
image_link = "picture.png"

def file_to_data_url(path: str) -> str:
    mime = mimetypes.guess_type(path)[0] or "application/octet-stream"
    with open(path, "rb") as f:
        data = base64.b64encode(f.read()).decode("utf-8")
    return f"data:{mime};base64,{data}"

openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)

completion = openai_client.chat.completions.create(
    model = "unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning",
    messages = [ {
        "role": "user",
        "content": [
            { "type": "text", "text": "What is this image?", },
            {
                "type": "image_url",
                "image_url": { "url": file_to_data_url(image_link), },
            },
        ],
    } ],
)
print(completion.choices[0].message.reasoning_content)
print(completion.choices[0].message.content)
```

{% endcode %}

Was ungefähr Folgendes anzeigen wird:

<figure><img src="/files/e8752f6647e1f56b945be8d09be854c54f2a1006" alt=""><figcaption></figcaption></figure>

### 🦥 Fine-Tuning von Nemotron 3 Nano Omni

Unsloth unterstützt die gesamte [Nemotron](/docs/de/modelle/nemotron-3.md) Modellfamilie. Nemotron 3 Nano Omni ist nützlich für multimodale Agenten-Datensätze. Sie können mit Unsloth auf Audio, Vision oder Text trainieren. **Videoeingabe** Fine-Tuning wird derzeit nicht unterstützt.

Für reine Text- und Notebook-Anwendungen können Sie mit dem vorhandenen [Nemotron 3 Nano Fine-Tuning-Flow](/docs/de/modelle/nemotron-3.md#fine-tuning-nemotron-3-and-rl)beginnen. Für multimodale Adapter stellen Sie sicher, dass Ihr Datensatz die Modalität enthält, die Ihr Agent tatsächlich benötigt:

* **Computer-Nutzung:** Screenshots, UI-Zustand, Cursor/Kontext, erwartete nächste Aktion
* **Dokumentenintelligenz:** PDFs, Screenshots, Diagramme, Tabellen, strukturierte Extraktionsziele
* **Audioverständnis:** Audioclips, gesampelte Frames, Zusammenfassungen, Zeitstempel, Ereignisse und Nachfragen
* **Agenten-Schleifen:** Beobachtung → Schlussfolgerung → Aktion → Validierungsbeispiele

Verwenden Sie für Omni nicht blind die VRAM-Zahlen nur für Text wieder. Multimodale Encoder, Projektor-Gewichte, Bild-Tokens, Audio-Chunks und langer Kontext erhöhen alle den Speicherbedarf. Beginnen Sie mit kürzeren Kontexten und kleineren Batchgrößen und skalieren Sie dann hoch.

### Benchmarks

Nemotron 3 Nano Omni ist das stärkste Omni-Modell für seine Größe. Es ist außerdem das effizienteste offene multimodale Modell mit führender Genauigkeit. Das Modell übertrifft Qwen3-Omni-30B-A3B in jedem Benchmark.

<div data-with-frame="true"><figure><img src="/files/83075926539719d041c93b1280b22a4aadb8390d" alt="" width="563"><figcaption></figcaption></figure></div>


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/de/modelle/nemotron-3-nano-omni.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
