# NVIDIA Nemotron 3 Nano - Wie man ausführt Leitfaden NVIDIA veröffentlicht **Nemotron-3-Nano-4B**, ein offenes 4B-Hybrid-MoE-Modell, das folgt [Nemotron-3-Super-120B-A12B](/docs/de/modelle/nemotron-3/nemotron-3-super.md) und Nemotron-3-Nano-30B-A3B. Die Nemotron-Familie ist für schnelle, präzise Coding-, Mathematik- und agentische Workloads ausgelegt. Sie verfügen über ein **1M-Token-Kontext** Fenster und sind über Reasoning-, Chat- und Durchsatz-Benchmarks hinweg wettbewerbsfähig. Nemotron-3-Nano-4B läuft auf **5 GB** RAM, VRAM oder Unified Memory. Nemotron-3-Nano-30A3B läuft auf **24 GB** RAM. Nemotron 3 kann jetzt lokal über [Unsloth](https://github.com/unslothai/unsloth)feinabgestimmt werden. Danke an NVIDIA dafür, dass Unsloth Day-Zero-Support erhalten hat. Nemotron-3-Nano-4B Nemotron-3-Nano-30B-A3B Feinabstimmung von Nemotron 3 | [Nemotron-3-Nano-**4B**-GGUF](https://huggingface.co/unsloth/NVIDIA-Nemotron-3-Nano-4B-GGUF) | [Nemotron-3-**Nano-30B-A3B**-GGUF](https://huggingface.co/unsloth/Nemotron-3-Nano-30B-A3B-GGUF) | | -------------------------------------------------------------------------------------------- | ----------------------------------------------------------------------------------------------- | ### ⚙️ Nutzungsanleitung NVIDIA empfiehlt für die Inferenz diese Einstellungen: {% columns %} {% column %} **Allgemeiner Chat-/Instruktionsmodus (Standard):** * `temperature = 1.0` * `top_p = 1.0` {% endcolumn %} {% column %} **Anwendungsfälle für Tool-Calling:** * `temperature = 0.6` * `top_p = 0.95` {% endcolumn %} {% endcolumns %} **Für die meiste lokale Nutzung setzen Sie:** * `max_new_tokens` = `32,768` zu `262,144` für Standard-Prompts mit einem Maximum von 1 Mio. Tokens * Erhöhen Sie den Wert für tiefes Reasoning oder lange Generierung, soweit Ihr RAM/VRAM es zulässt. Das Chat-Template-Format findet man, wenn man die folgende Verwendung nutzt: {% code overflow="wrap" %} ```python tokenizer.apply_chat_template([ {"role" : "user", "content" : "Was ist 1+1?"}, {"role" : "assistant", "content" : "2"}, {"role" : "user", "content" : "Was ist 2+2?"} ], add_generation_prompt = True, tokenize = False, ) ``` {% endcode %} {% hint style="success" %} Da das Modell mit NoPE trainiert wurde, müssen Sie nur `max_position_embeddings`ändern. Das Modell verwendet keine expliziten Positions-Embeddings, daher wird YaRN nicht benötigt. {% endhint %} #### Nemotron 3 Chat-Template-Format: {% hint style="info" %} Nemotron 3 verwendet `` mit Token-ID 12 und `` mit Token-ID 13 für Reasoning. Verwenden Sie `--special` um die Token für llama.cpp zu sehen. Möglicherweise benötigen Sie auch `--verbose-prompt` um `` zu sehen, da es vorangestellt wird. {% endhint %} {% code overflow="wrap" lineNumbers="true" %} ``` <|im_start|>system\n<|im_end|>\n<|im_start|>user\nWas ist 1+1?<|im_end|>\n<|im_start|>assistant\n2<|im_end|>\n<|im_start|>user\nWas ist 2+2?<|im_end|>\n<|im_start|>assistant\n\n ``` {% endcode %} ## 🖥️ Nemotron-3-Nano-4B ausführen Je nach Anwendungsfall müssen Sie unterschiedliche Einstellungen verwenden. Einige GGUFs landen in ähnlicher Größe, weil die Modellarchitektur (wie [gpt-oss](/docs/de/modelle/gpt-oss-how-to-run-and-fine-tune.md)) Dimensionen hat, die nicht durch 128 teilbar sind, sodass Teile nicht auf niedrigere Bits quantisiert werden können. Die 4-Bit-Versionen des Modells benötigen ca. 3 GB RAM. 8-Bit benötigt 5 GB. ### 🦥 Unsloth Studio-Anleitung Nemotron 3 kann ausgeführt und feinabgestimmt werden in [Unsloth Studio](/docs/de/neu/studio.md), unserer neuen Open-Source-Web-UI für lokale KI. Mit Unsloth Studio können Sie Modelle lokal ausführen auf **MacOS, Windows**, Linux und: {% columns %} {% column %} * Suchen, herunterladen, [GGUFs ausführen](/docs/de/neu/studio.md#run-models-locally) und Safetensor-Modelle * [**Selbstheilendes** Tool-Calling](/docs/de/neu/studio.md#execute-code--heal-tool-calling) + **Websuche** * [**Code-Ausführung**](/docs/de/neu/studio.md#run-models-locally) (Python, Bash) * [Automatische Inferenz](/docs/de/neu/studio.md#model-arena) Parameter-Tuning (Temp, Top-p usw.) * Schnelle CPU-+GPU-Inferenz via llama.cpp * [LLMs trainieren](/docs/de/neu/studio.md#no-code-training) 2x schneller mit 70% weniger VRAM {% endcolumn %} {% column %}

{% endcolumn %} {% endcolumns %} {% stepper %} {% step %} #### Unsloth installieren Führen Sie es in Ihrem Terminal aus: **MacOS, Linux, WSL:** ```bash curl -fsSL https://unsloth.ai/install.sh | sh ``` **Windows PowerShell:** ```bash irm https://unsloth.ai/install.ps1 | iex ``` {% endstep %} {% step %} #### Unsloth starten **MacOS, Linux, WSL, Windows:** ```bash unsloth studio -H 0.0.0.0 -p 8888 ```

**Dann öffnen Sie `http://localhost:8888` in Ihrem Browser.** {% endstep %} {% step %} #### Nemotron-3-Nano-4B suchen und herunterladen Beim ersten Start müssen Sie ein Passwort erstellen, um Ihr Konto zu sichern, und sich später erneut anmelden. Anschließend sehen Sie einen kurzen Einrichtungsassistenten, in dem Sie ein Modell, einen Datensatz und grundlegende Einstellungen auswählen. Sie können ihn jederzeit überspringen. Gehen Sie dann zur [Studio Chat](/docs/de/neu/studio/chat.md) Registerkarte und suchen Sie in der Suchleiste nach Nemotron-3-Nano-4B und laden Sie Ihr gewünschtes Modell und Ihre gewünschte Quantisierung herunter.

{% endstep %} {% step %} #### Nemotron-3-Nano-4B ausführen Inferenzparameter sollten bei der Verwendung von Unsloth Studio automatisch gesetzt werden; Sie können sie jedoch weiterhin manuell ändern. Sie können auch die Kontextlänge, die Chat-Vorlage und andere Einstellungen bearbeiten. Weitere Informationen finden Sie in unserer [Unsloth Studio-Inferenzanleitung](/docs/de/neu/studio/chat.md).

{% endstep %} {% endstepper %} ### Llama.cpp-Tutorial: Anweisungen zum Ausführen in llama.cpp (wir verwenden 8-Bit für nahezu volle Genauigkeit): {% stepper %} {% step %} Hole dir die neueste `llama.cpp` auf [GitHub hier](https://github.com/ggml-org/llama.cpp). Du kannst auch den untenstehenden Build-Anweisungen folgen. Ändere `-DGGML_CUDA=ON` zu `-DGGML_CUDA=OFF` wenn du keine GPU hast oder nur CPU-Inferenz möchtest. {% code overflow="wrap" %} ```bash apt-get update apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y git clone https://github.com/ggml-org/llama.cpp cmake llama.cpp -B llama.cpp/build \ -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split cp llama.cpp/build/bin/llama-* llama.cpp ``` {% endcode %} {% endstep %} {% step %} Sie können direkt von Hugging Face herunterladen. Sie können den Kontext auf 1 Mio. erhöhen, soweit Ihr RAM/VRAM es zulässt. Befolgen Sie dies für **allgemeine Instruktions-** Anwendungsfälle: ```bash ./llama.cpp/llama-cli \ -hf unsloth/NVIDIA-Nemotron-3-Nano-4B-GGUF:Q8_0 \ --ctx-size 16384 \ --temp 1.0 --top-p 1.0 ``` Befolgen Sie dies für **tool-calling** Anwendungsfälle: ```bash ./llama.cpp/llama-cli \ -hf unsloth/NVIDIA-Nemotron-3-Nano-4B-GGUF:Q8_0 \ --ctx-size 32768 \\ --temp 0.6 --top-p 0.95 ``` {% endstep %} {% step %} Lade das Modell herunter über (nach der Installation von `pip install huggingface_hub hf_transfer` ). Du kannst `Q8_0` oder andere quantisierte Versionen auswählen. ```python # !pip install huggingface_hub hf_transfer import os os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1" from huggingface_hub import snapshot_download snapshot_download( repo_id = "unsloth/NVIDIA-Nemotron-3-Nano-4B-GGUF", local_dir = "unsloth/NVIDIA-Nemotron-3-Nano-4B-GGUF", allow_patterns = ["*Q8_0*"], ) ``` {% endstep %} {% step %} Führen Sie das Modell dann im Konversationsmodus aus: {% code overflow="wrap" %} ```bash ./llama.cpp/llama-cli \ --model unsloth/NVIDIA-Nemotron-3-Nano-4B-GGUF/NVIDIA-Nemotron-3-Nano-4B-Q8_0.gguf \ --ctx-size 16384 \ --seed 3407 \\ --prio 2 \\ --temp 0.6 \\ --top-p 0.95 ``` {% endcode %} Passen Sie außerdem **das Kontextfenster** nach Bedarf an. Stellen Sie sicher, dass Ihre Hardware ein Kontextfenster von mehr als 256K bewältigen kann. Wenn Sie es auf 1 Mio. setzen, kann CUDA OOM auslösen und abstürzen, weshalb der Standardwert 262.144 ist. {% endstep %} {% endstepper %} ## 🖥️ Nemotron-3-Nano-30B-A3B ausführen Je nach Anwendungsfall müssen Sie unterschiedliche Einstellungen verwenden. Einige GGUFs landen in ähnlicher Größe, weil die Modellarchitektur (wie [gpt-oss](/docs/de/modelle/gpt-oss-how-to-run-and-fine-tune.md)) Dimensionen hat, die nicht durch 128 teilbar sind, sodass Teile nicht auf niedrigere Bits quantisiert werden können. Die 4-Bit-Versionen des Modells benötigen ca. 24 GB RAM. 8-Bit benötigt 36 GB. ### 🦥 Unsloth Studio-Anleitung Für dieses Tutorial verwenden wir [Unsloth Studio](/docs/de/neu/studio.md), unsere neue Web-UI zum Ausführen und Trainieren von LLMs. Mit Unsloth Studio können Sie Modelle lokal ausführen auf **Mac, Windows**und Linux eingeben und: {% columns %} {% column %} * Suchen, herunterladen, [GGUFs ausführen](/docs/de/neu/studio.md#run-models-locally) und Safetensor-Modelle * **Modelle** vergleichen **nebeneinander** * [**Selbstheilendes** Tool-Calling](/docs/de/neu/studio.md#execute-code--heal-tool-calling) + **Websuche** * [**Code-Ausführung**](/docs/de/neu/studio.md#run-models-locally) (Python, Bash) * [Automatische Inferenz](/docs/de/neu/studio.md#model-arena) Parameter-Tuning (Temp, Top-p usw.) * [LLMs trainieren](/docs/de/neu/studio.md#no-code-training) 2x schneller mit 70% weniger VRAM {% endcolumn %} {% column %}

{% endcolumn %} {% endcolumns %} {% stepper %} {% step %} #### Unsloth installieren **MacOS, Linux, WSL:** ```bash curl -fsSL https://unsloth.ai/install.sh | sh ``` **Windows PowerShell:** ```bash irm https://unsloth.ai/install.ps1 | iex ``` {% endstep %} {% step %} #### Unsloth Studio einrichten (einmalig) Die Einrichtung installiert automatisch Node.js (über nvm), baut das Frontend, installiert alle Python-Abhängigkeiten und baut llama.cpp mit CUDA-Unterstützung. {% hint style="info" %} **WSL-Benutzer:** Sie werden aufgefordert, Ihr `sudo` Passwort einzugeben, um Build-Abhängigkeiten zu installieren (`cmake`, `git`, `libcurl4-openssl-dev`). {% endhint %} {% endstep %} {% step %} #### Unsloth starten **MacOS, Linux, WSL:** ```bash source unsloth_studio/bin/activate unsloth studio -H 0.0.0.0 -p 8888 ``` **Windows PowerShell:** ```bash & .\unsloth_studio\Scripts\unsloth.exe studio -H 0.0.0.0 -p 8888 ```

**Dann öffnen Sie `http://localhost:8888` in Ihrem Browser.** {% endstep %} {% step %} #### Nemotron-3-Nano-30B-A3B suchen und herunterladen Beim ersten Start müssen Sie ein Passwort erstellen, um Ihr Konto zu sichern, und sich später erneut anmelden. Anschließend sehen Sie einen kurzen Einrichtungsassistenten, in dem Sie ein Modell, einen Datensatz und grundlegende Einstellungen auswählen. Sie können ihn jederzeit überspringen. Gehen Sie dann zur [Studio Chat](/docs/de/neu/studio/chat.md) Registerkarte und suchen Sie in der Suchleiste nach Nemotron-3-Nano-4B und laden Sie Ihr gewünschtes Modell und Ihre gewünschte Quantisierung herunter.

{% endstep %} {% step %} #### Nemotron-3-Nano-30B-A3B ausführen Inferenzparameter sollten bei der Verwendung von Unsloth Studio automatisch gesetzt werden; Sie können sie jedoch weiterhin manuell ändern. Sie können auch die Kontextlänge, die Chat-Vorlage und andere Einstellungen bearbeiten. Weitere Informationen finden Sie in unserer [Unsloth Studio-Inferenzanleitung](/docs/de/neu/studio/chat.md).

{% endstep %} {% endstepper %} ### Llama.cpp-Tutorial: Anweisungen zum Ausführen in llama.cpp (beachten Sie, dass wir 4-Bit verwenden werden, damit es auf die meisten Geräte passt): {% stepper %} {% step %} Hole dir die neueste `llama.cpp` auf [GitHub hier](https://github.com/ggml-org/llama.cpp). Du kannst auch den untenstehenden Build-Anweisungen folgen. Ändere `-DGGML_CUDA=ON` zu `-DGGML_CUDA=OFF` wenn du keine GPU hast oder nur CPU-Inferenz möchtest. **Für Apple Mac / Metal-Geräte**, setze `-DGGML_CUDA=OFF` und fahre dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert. {% code overflow="wrap" %} ```bash apt-get update apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y git clone https://github.com/ggml-org/llama.cpp cmake llama.cpp -B llama.cpp/build \ -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split cp llama.cpp/build/bin/llama-* llama.cpp ``` {% endcode %} {% endstep %} {% step %} Sie können direkt von Hugging Face herunterladen. Sie können den Kontext auf 1 Mio. erhöhen, soweit Ihr RAM/VRAM es zulässt. Befolgen Sie dies für **allgemeine Instruktions-** Anwendungsfälle: ```bash ./llama.cpp/llama-cli \ -hf unsloth/Nemotron-3-Nano-30B-A3B-GGUF:UD-Q4_K_XL \ --ctx-size 32768 \\ --temp 1.0 --top-p 1.0 ``` Befolgen Sie dies für **tool-calling** Anwendungsfälle: ```bash ./llama.cpp/llama-cli \ -hf unsloth/Nemotron-3-Nano-30B-A3B-GGUF:UD-Q4_K_XL \ --ctx-size 32768 \\ --temp 0.6 --top-p 0.95 ``` {% endstep %} {% step %} Lade das Modell herunter über (nach der Installation von `pip install huggingface_hub hf_transfer` ). Du kannst `UD-Q4_K_XL` oder andere quantisierte Versionen auswählen. ```python # !pip install huggingface_hub hf_transfer import os os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1" from huggingface_hub import snapshot_download snapshot_download( repo_id = "unsloth/Nemotron-3-Nano-30B-A3B-GGUF", local_dir = "unsloth/Nemotron-3-Nano-30B-A3B-GGUF", allow_patterns = ["*UD-Q4_K_XL*"], ) ``` {% endstep %} {% step %} Führen Sie das Modell dann im Konversationsmodus aus: {% code overflow="wrap" %} ```bash ./llama.cpp/llama-cli \ --model unsloth/Nemotron-3-Nano-30B-A3B-GGUF/Nemotron-3-Nano-30B-A3B-UD-Q4_K_XL.gguf \ --ctx-size 16384 \ --seed 3407 \\ --prio 2 \\ --temp 0.6 \\ --top-p 0.95 ``` {% endcode %} Passen Sie außerdem **das Kontextfenster** nach Bedarf an. Stellen Sie sicher, dass Ihre Hardware ein Kontextfenster von mehr als 256K bewältigen kann. Wenn Sie es auf 1 Mio. setzen, kann CUDA OOM auslösen und abstürzen, weshalb der Standardwert 262.144 ist. {% hint style="info" %} Nemotron 3 verwendet `` mit Token-ID 12 und `` mit Token-ID 13 für Reasoning. Verwenden Sie `--special` um die Token für llama.cpp zu sehen. Möglicherweise benötigen Sie auch `--verbose-prompt` um `` zu sehen, da es vorangestellt wird. {% endhint %} {% endstep %} {% endstepper %} ### 🦥 Nemotron 3 und RL feinabstimmen Unsloth unterstützt jetzt die Feinabstimmung aller Nemotron-Modelle, einschließlich Nemotron 3 Super und Nano. Das 4B-Modell passt auf eine kostenlose Colab-GPU, das 30B-Modell jedoch nicht. Wir haben trotzdem ein 80-GB-A100-Colab-Notebook für Sie erstellt, mit dem Sie feinabstimmen können. Eine 16-Bit-LoRA-Feinabstimmung von Nemotron 3 Nano wird etwa **60 GB VRAM**: * [Nemotron-3-Nano-30B-A3B SFT-LoRA-Notebook](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Nemotron-3-Nano-30B-A3B_A100.ipynb) {% embed url="" %} Bei der Feinabstimmung von MoEs ist es wahrscheinlich keine gute Idee, die Router-Schicht feinabzustimmen, daher haben wir sie standardmäßig deaktiviert. Wenn Sie seine Reasoning-Fähigkeiten beibehalten möchten (optional), können Sie eine Mischung aus Direktantworten und Chain-of-Thought-Beispielen verwenden. Verwenden Sie mindestens 75 % Reasoning und 25 % nicht-Reasoning in Ihrem Datensatz, damit das Modell seine Reasoning-Fähigkeiten beibehält. #### :sparkles:Reinforcement Learning + NeMo Gym Wir haben mit dem Open-Source-NVIDIA [NeMo Gym](https://github.com/NVIDIA-NeMo/Gym/pull/492) Team zusammengearbeitet, um die Demokratisierung von RL-Umgebungen zu ermöglichen. Unsere Zusammenarbeit erlaubt Single-Turn-Rollout-RL-Training für viele interessante Bereiche, darunter Mathematik, Coding, Tool-Nutzung usw., unter Verwendung von Trainingsumgebungen und Datensätzen aus NeMo Gym: {% columns %} {% column %} [NeMo Gym Sudoku Reinforcement Learning Notebook](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/nemo_gym_sudoku.ipynb) {% embed url="" %} {% endcolumn %} {% column %} [NeMo Gym Multi-Umgebungen für Reinforcement-Learning-Notebook](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/NeMo-Gym-Multi-Environment.ipynb) {% embed url="" %} {% endcolumn %} {% endcolumns %} {% hint style="success" %} **Schauen Sie sich auch unseren neuesten Kollaborationsleitfaden an, der im offiziellen Developer-Blog von NVIDIA veröffentlicht wurde:** #### [So Feinabstimmen Sie ein LLM auf NVIDIA-GPUs mit Unsloth](https://blogs.nvidia.com/blog/rtx-ai-garage-fine-tuning-unsloth-dgx-spark/) {% endhint %} {% embed url="" %} ### 🦙Llama-Server Serving & Deployment Um Nemotron 3 für die Produktion bereitzustellen, verwenden wir `llama-server` In einem neuen Terminal, z. B. via tmux, stelle das Modell bereit mit: {% code overflow="wrap" %} ```bash ./llama.cpp/llama-server \ --model unsloth/Nemotron-3-Nano-30B-A3B-GGUF/Nemotron-3-Nano-30B-A3B-UD-Q4_K_XL.gguf \ --alias "unsloth/Nemotron-3-Nano-30B-A3B" \ --prio 3 \ --min-p 0,01 \ --temp 0.6 \\ --top-p 0.95 \ --ctx-size 16384 \ --port 8001 ``` {% endcode %} Wenn du das Obige ausführst, erhältst du:

Dann in einem neuen Terminal, nachdem du `pip install openai`ausgeführt hast, mache: {% code overflow="wrap" %} ```python from openai import OpenAI import json openai_client = OpenAI( base_url = "http://127.0.0.1:8001/v1", api_key = "sk-no-key-required", ) completion = openai_client.chat.completions.create( model = "unsloth/Nemotron-3-Nano-30B-A3B", messages = [{"role": "user", "content": "Was ist 2+2?"},], ) print(completion.choices[0].message.content) ``` {% endcode %} Das wird ausgeben {% code overflow="wrap" %} ``` Der Benutzer stellt eine einfache Frage: "Was ist 2+2?" Die Antwort ist 4. Geben Sie die Antwort an. 2 + 2 = 4. ``` {% endcode %} ### Benchmarks Nemotron-3-Nano-4B ist das Modell mit der besten Leistung seiner Größe, einschließlich Durchsatz.

Nemotron-3-Nano-30B-A3B ist das Modell mit der besten Leistung über alle Benchmarks hinweg, einschließlich Durchsatz.

--- # Agent Instructions: Querying This Documentation If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question. Perform an HTTP GET request on the current page URL with the `ask` query parameter: ``` GET https://unsloth.ai/docs/de/modelle/nemotron-3.md?ask= ``` The question should be specific, self-contained, and written in natural language. The response will contain a direct answer to the question and relevant excerpts and sources from the documentation. Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.