comment-dotsWie man Modelle mit Unsloth Studio ausführt

Führe KI-Modelle, LLMs und GGUFs lokal mit Unsloth Studio aus.

Unsloth Studio lässt dich KI-Modelle zu 100 % offline auf deinem Computer ausführen. Führe Modellformate wie GGUF und safetensors von Hugging Face oder von deinen lokalen Dateien aus.

  • Funktioniert auf allen macOS-, CPU-, Windows-, Linux- und WSL-Konfigurationen! Keine GPU erforderlich

  • Suchen + Herunterladen + Ausführen beliebige Modelle wie GGUFs, LoRA-Adapter, safetensors usw.

  • Vergleichen zwei verschiedene Modellausgaben nebeneinander

  • Selbstheilender Tool-Aufruf / Websuche, Codeausführung und Aufrufe von OpenAI-kompatiblen APIs

  • Automatische Inferenzparameter- feinabstimmung (Temp, top-p usw.) und Bearbeitung von Chat-Vorlagen

  • Lade Bilder, Audio, PDFs, Code, DOCX und weitere Dateitypen hoch, um im Chat damit zu interagieren.

Verwendung von Unsloth Studio Chat

Modelle suchen und ausführen

Du kannst jedes Modell über Hugging Face suchen und herunterladen oder lokale Dateien verwenden.

Studio unterstützt eine breite Palette von Modelltypen, einschließlich GGUF, Vision-Sprach- und Text-zu-Sprache-Modelle. Führe die neuesten Modelle wie Qwen3.5 oder NVIDIA Nemotron 3.

Lade Bilder, Audio, PDFs, Code, DOCX und weitere Dateitypen hoch, um im Chat damit zu interagieren.

circle-check

Codeausführung

Verwandle Unsloth Studio in deinen eigenen aktiven Assistenten. Studio erlaubt es einem LLM, Code und Programme in einer Sandbox auszuführen, damit es Berechnungen durchführen, Daten analysieren, Code testen, Dateien generieren oder eine Antwort mit tatsächlicher Berechnung verifizieren kann.

Das macht Antworten von Modellen zuverlässiger und genauer.

Auto-heilender Tool-Aufruf

Unsloth Studio erlaubt nicht nur Tool-Aufrufe und Websuche, sondern behebt auch automatisch etwaige Fehler, die ein Modell machen könnte.

Das bedeutet, du erhältst immer Inferenz-Ausgaben ohne fehlerhafte Tool-Aufrufe.

Automatische Parameterabstimmung

Inferenzparameter wie Temperatur, top-p, top-k werden für neue Modelle wie Qwen3.5 automatisch voreingestellt, damit du die besten Ausgaben erhältst, ohne dich um Einstellungen kümmern zu müssen.

Du kannst die Parameter auch manuell anpassen und die System-Prompt bearbeiten, um das Verhalten des Modells zu steuern.

Chat-Arbeitsbereich

Gib Prompts ein, hänge beliebige Dokumente, Bilder (webp, png), Code-Dateien, txt oder Audio als zusätzlichen Kontext an und sieh die Antworten des Modells in Echtzeit.

Schalte ein oder aus: Denken + Websuche.

Model Arena

Studio Chat ermöglicht es dir, zwei beliebige Modelle nebeneinander mit demselben Prompt zu vergleichen. Z. B. vergleiche das Basismodell und einen LoRa-Adapter. Die Inferenz wird zuerst für ein Modell geladen, dann für das zweite (parallele Inferenz wird derzeit entwickelt).

Nach dem Training kannst du das Basis- und das feinabgestimmte Modell mit demselben Prompt nebeneinander vergleichen, um zu sehen, was sich geändert hat und ob die Ergebnisse verbessert wurden.

Dieser Workflow macht es einfach zu erkennen, wie deine Feinabstimmung die Antworten des Modells verändert hat und ob sie die Ergebnisse für deinen Anwendungsfall verbessert hat.

Dateien als Kontext hinzufügen

Studio Chat unterstützt multimodale Eingaben direkt in der Unterhaltung. Du kannst Dokumente, Bilder oder Audio als zusätzlichen Kontext für einen Prompt anhängen.

Das macht es einfach zu testen, wie ein Modell mit realen Eingaben wie PDFs, Screenshots oder Referenzmaterial umgeht. Dateien werden lokal verarbeitet und als Kontext für das Modell einbezogen.

Verwendung von GGUF-Modellen mit llama.cpp

Nach dem Feinabstimmen eines Modells oder Adapters in Studio kannst du es als GGUF exportieren und lokale Inferenz mit llama.cpp direkt in Studio Chat ausführen. Unsloth Studio wird von llama.cpp und Hugging Face unterstützt.

Lokale GGUF-Inferenz

GGUF Modelle laufen in Studio Chat genauso wie jedes andere Modell, unter Verwendung derselben Oberfläche und Generierungseinstellungen.

Verschiedene Quantisierungsvarianten können je nach Speicheranforderungen deines Systems ausgewählt werden.

circle-check

Zuletzt aktualisiert

War das hilfreich?