Wie man Modelle mit Unsloth Studio ausführt
Führe KI-Modelle, LLMs und GGUFs lokal mit Unsloth Studio aus.
Unsloth Studio lässt dich KI-Modelle zu 100 % offline auf deinem Computer ausführen. Führe Modellformate wie GGUF und safetensors von Hugging Face oder von deinen lokalen Dateien aus.
Funktioniert auf allen macOS-, CPU-, Windows-, Linux- und WSL-Konfigurationen! Keine GPU erforderlich
Suchen + Herunterladen + Ausführen beliebige Modelle wie GGUFs, LoRA-Adapter, safetensors usw.
Vergleichen zwei verschiedene Modellausgaben nebeneinander
Selbstheilender Tool-Aufruf / Websuche, Codeausführung und Aufrufe von OpenAI-kompatiblen APIs
Automatische Inferenzparameter- feinabstimmung (Temp, top-p usw.) und Bearbeitung von Chat-Vorlagen
Lade Bilder, Audio, PDFs, Code, DOCX und weitere Dateitypen hoch, um im Chat damit zu interagieren.

Verwendung von Unsloth Studio Chat
Modelle suchen und ausführen
Du kannst jedes Modell über Hugging Face suchen und herunterladen oder lokale Dateien verwenden.
Studio unterstützt eine breite Palette von Modelltypen, einschließlich GGUF, Vision-Sprach- und Text-zu-Sprache-Modelle. Führe die neuesten Modelle wie Qwen3.5 oder NVIDIA Nemotron 3.
Lade Bilder, Audio, PDFs, Code, DOCX und weitere Dateitypen hoch, um im Chat damit zu interagieren.

Unsloth Studio Chat funktioniert automatisch auf Multi-GPU-Setups für Inferenz.
Codeausführung
Verwandle Unsloth Studio in deinen eigenen aktiven Assistenten. Studio erlaubt es einem LLM, Code und Programme in einer Sandbox auszuführen, damit es Berechnungen durchführen, Daten analysieren, Code testen, Dateien generieren oder eine Antwort mit tatsächlicher Berechnung verifizieren kann.
Das macht Antworten von Modellen zuverlässiger und genauer.


Automatische Parameterabstimmung
Inferenzparameter wie Temperatur, top-p, top-k werden für neue Modelle wie Qwen3.5 automatisch voreingestellt, damit du die besten Ausgaben erhältst, ohne dich um Einstellungen kümmern zu müssen.
Du kannst die Parameter auch manuell anpassen und die System-Prompt bearbeiten, um das Verhalten des Modells zu steuern.


Model Arena
Studio Chat ermöglicht es dir, zwei beliebige Modelle nebeneinander mit demselben Prompt zu vergleichen. Z. B. vergleiche das Basismodell und einen LoRa-Adapter. Die Inferenz wird zuerst für ein Modell geladen, dann für das zweite (parallele Inferenz wird derzeit entwickelt).

Nach dem Training kannst du das Basis- und das feinabgestimmte Modell mit demselben Prompt nebeneinander vergleichen, um zu sehen, was sich geändert hat und ob die Ergebnisse verbessert wurden.
Dieser Workflow macht es einfach zu erkennen, wie deine Feinabstimmung die Antworten des Modells verändert hat und ob sie die Ergebnisse für deinen Anwendungsfall verbessert hat.

Dateien als Kontext hinzufügen
Studio Chat unterstützt multimodale Eingaben direkt in der Unterhaltung. Du kannst Dokumente, Bilder oder Audio als zusätzlichen Kontext für einen Prompt anhängen.

Das macht es einfach zu testen, wie ein Modell mit realen Eingaben wie PDFs, Screenshots oder Referenzmaterial umgeht. Dateien werden lokal verarbeitet und als Kontext für das Modell einbezogen.
Verwendung von GGUF-Modellen mit llama.cpp
Nach dem Feinabstimmen eines Modells oder Adapters in Studio kannst du es als GGUF exportieren und lokale Inferenz mit llama.cpp direkt in Studio Chat ausführen. Unsloth Studio wird von llama.cpp und Hugging Face unterstützt.
Lokale GGUF-Inferenz
GGUF Modelle laufen in Studio Chat genauso wie jedes andere Modell, unter Verwendung derselben Oberfläche und Generierungseinstellungen.
Verschiedene Quantisierungsvarianten können je nach Speicheranforderungen deines Systems ausgewählt werden.
Unsloth Studio Chat funktioniert automatisch auf Multi-GPU-Setups für Inferenz.

Zuletzt aktualisiert
War das hilfreich?

