🧩NVIDIA Nemotron 3 Nano Omni - Wie man lokal ausführt
Führe und feinabstimme Nemotron-3-Nano-Omni-30B-A3B lokal auf deinem Gerät!
NVIDIA Nemotron-3-Nano-Omni-30B-A3B ist ein offenes 30B-Parameter-, 3B-aktives hybrides Reasoning-MoE-Modell, das für multimodale agentische Workloads entwickelt wurde, einschließlich Audio, Video, Text, Bilder und Dokumente als Eingabe, mit Textausgabe. Das Modell läuft auf 25 GB RAM für 4-Bit und 36 GB für 8-Bit.
Mit einem 256K-Kontextist Nemotron 3 Nano Omni das stärkste Omni Modell seiner Größe und das Open-Multimodal-Modell mit der höchsten Effizienz. Wir haben für Day-Zero-Support mit NVIDIA zusammengearbeitet! GGUF: Nemotron-3-Nano-Omni-30B-A3B-Reasoning
⚙️ Verwendungsleitfaden
NVIDIA empfiehlt diese Einstellungen für die Inferenz:
Denkmodus:
Temperatur = 0.6top_p = 0.95
Instruct-Modus:
Temperatur = 0.2
Nemotron-3-Nano-Omni ausführen
Je nach Anwendungsfall müssen Sie unterschiedliche Einstellungenverwenden. Einige GGUFs landen in ähnlicher Größe, weil die Modellarchitektur (wie gpt-oss) Dimensionen hat, die nicht durch 128 teilbar sind, sodass Teile nicht auf niedrigere Bits quantisiert werden können. GGUF: Nemotron-3-Nano-Omni-30B-A3B-Reasoning
Die 4-Bit-Versionen des Modells benötigen ~25 GB RAM. 8-Bit benötigt 36 GB. Für diese Anleitungen verwenden wir UD-Q4-K-XL was ein guter Kompromiss zwischen Größe und Genauigkeit ist.
In Unsloth Studio ausführenIn llama.cpp ausführen
Derzeit funktioniert kein multimodales/visuelles GGUF in Ollama aufgrund getrennter mmproj Visionsdateien. Verwenden Sie mit llama.cpp kompatible Backends.
Verwenden Sie NICHT CUDA 13.2 da Sie sonst wirre Ausgaben erhalten können. NVIDIA arbeitet an einer Lösung.
🦥 Unsloth Studio-Leitfaden
Für dieses Tutorial werden wir Unsloth Studioverwenden, unsere neue Web-UI zum Ausführen und Trainieren von LLMs. Mit Unsloth Studio können Sie Modelle ausführen und AudioBild und Text lokal auf Mac, Windowsund Linux eingeben und:
Suchen, herunterladen, GGUFs ausführen und Safetensor-Modelle
Modelle nebeneinander vergleichen
Selbstheilendes Tool-Calling + Websuche
Codeausführung (Python, Bash)
Automatische Inferenz Parameterabstimmung (Temp, Top-p usw.)
LLMs trainieren 2x schneller mit 70 % weniger VRAM

Unsloth Studio einrichten (einmalig)
Das Setup installiert automatisch Node.js (über nvm), baut das Frontend, installiert alle Python-Abhängigkeiten und baut llama.cpp mit CUDA-Unterstützung.
WSL-Benutzer: Sie werden zur Eingabe Ihres sudo -Passworts aufgefordert, um Build-Abhängigkeiten zu installieren (cmake, git, libcurl4-openssl-dev).
NVIDIA-Nemotron-3-Nano-30B-A3B-Omni suchen und herunterladen
Beim ersten Start müssen Sie ein Passwort erstellen, um Ihr Konto zu sichern, und sich später erneut anmelden. Gehen Sie dann zum Studio Chat Reiter und suchen Sie in der Suchleiste nach Nemotron-3-Nano-Omni und laden Sie Ihr gewünschtes Modell und Ihre gewünschte Quantisierung herunter.

Nemotron-3-Nano-30B-A3B-Omni ausführen
Die Inferenzparameter sollten bei der Verwendung von Unsloth Studio automatisch gesetzt werden; Sie können sie jedoch weiterhin manuell ändern. Sie können auch die Kontextlänge, die Chat-Vorlage und andere Einstellungen bearbeiten.
Weitere Informationen finden Sie in unserem Unsloth-Studio-Inferenzleitfaden.

🦙 Llama.cpp-Tutorial:
Anweisungen zur Ausführung in llama.cpp (beachten Sie, dass wir 4-Bit verwenden, um auf die meisten Geräte zu passen):
Holen Sie sich die neueste llama.cpp auf GitHub hier. Sie können auch den untenstehenden Build-Anweisungen folgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz möchten. Für Apple-Mac-/Metal-Geräte, setzen Sie -DGGML_CUDA=OFF und fahren Sie dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.
Holen wir uns zuerst ein Bild! Sie können auch Bilder hochladen. Wir werden https://raw.githubusercontent.com/unslothai/unsloth/refs/heads/main/images/unsloth%20made%20with%20love.pngverwenden, das ist einfach unser Mini-Logo, das zeigt, wie Finetunes mit Unsloth erstellt werden:

Holen wir uns das zweite Bild unter https://files.worldwildlife.org/wwfcmsprod/images/Sloth_Sitting_iStock_3_12_2014/story_full_width/8l7pbjmj29_iStock_000011145477Large_mini__1_.jpg

Laden Sie das Modell mit dem Code unten herunter (nach der Installation von pip install huggingface_hub). Sie können Q4_K_M oder andere quantisierte Versionen wie wählen UD-Q4_K_XL . Wir empfehlen, mindestens 2-Bit-Dynamic-Quant zu verwenden UD-Q2_K_XL um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe: Hugging Face Hub, XET-Debugging
Führen Sie dann das Modell im Konversationsmodus aus:
Dann sehen Sie Folgendes:

Verwenden Sie dann /image um beide Bilder zu laden und zu fragen „Was ist dieses Bild?“:


Und für das Faultierbild:

Llama-Server-Bereitstellung und Deployment
Um Nemotron 3 Nano Omni lokal bereitzustellen, verwenden Sie llama-server. In einem neuen Terminal, zum Beispiel über tmux, stellen Sie das Modell bereit:
Wenn Sie das Modell manuell heruntergeladen haben, verwenden Sie:
Dann in einem neuen Terminal, nachdem Sie den OpenAI-Client mit installiert haben pip install openai:
Was etwa Folgendes anzeigen wird:

Bildeingabe über den OpenAI-kompatiblen Server
Verwenden wir picture.png das das Faultierbild war, wie in 🦙 Llama.cpp-Tutorial:
Was etwa Folgendes anzeigen wird:

🦥 Feinabstimmung von Nemotron 3 Nano Omni
Unsloth unterstützt die gesamte Nemotron Modellfamilie. Nemotron 3 Nano Omni ist nützlich für multimodale Agentendatensätze. Sie können mit Audio, Vision oder Text über Unsloth trainieren. Videoeingabe Feinabstimmung wird derzeit nicht unterstützt.
Für reine Textanwendungen und Notebooks können Sie mit dem vorhandenen Feinabstimmungs-Workflow für Nemotron 3 Nanobeginnen. Für multimodale Adapter stellen Sie sicher, dass Ihr Datensatz die Modalität enthält, die Ihr Agent tatsächlich benötigt:
Computernutzung: Screenshots, UI-Zustand, Cursor/Kontext, erwartete nächste Aktion
Dokumentenintelligenz: PDFs, Screenshots, Diagramme, Tabellen, strukturierte Extraktionsziele
Audioverständnis: Audioclips, abgetastete Frames, Zusammenfassungen, Zeitstempel, Ereignisse und Folgefragen
Agentenschleifen: Beobachtung → Schlussfolgerung → Aktion → Validierungsbeispiele
Für Omni sollten Sie die VRAM-Zahlen für rein textbasierte Modelle nicht blind übernehmen. Multimodale Encoder, Projektor-Gewichte, Bild-Token, Audio-Chunks und langer Kontext erhöhen alle den Speicherverbrauch. Beginnen Sie mit kürzeren Kontexten und kleineren Batchgrößen und skalieren Sie dann hoch.
Benchmarks
Nemotron 3 Nano Omni ist das stärkste Omni-Modell seiner Größe. Es ist außerdem das Open-Multimodal-Modell mit der höchsten Effizienz und führender Genauigkeit. Das Modell übertrifft Qwen3-Omni-30B-A3B in jedem Benchmark.

Zuletzt aktualisiert
War das hilfreich?


