# Wie man Modelle mit Unsloth Studio ausführt

[Unsloth Studio](https://unsloth.ai/docs/de/neu/studio) ermöglicht es dir, KI-Modelle zu 100 % offline auf deinem Computer auszuführen. Führe Modellformate wie GGUF und safetensors von Hugging Face oder aus deinen lokalen Dateien aus.

* **Funktioniert auf allen MacOS-, CPU-, Windows-, Linux- und WSL-Setups! Keine GPU erforderlich**
* **Suchen + Herunterladen + Ausführen** jedes Modell wie GGUFs, LoRA-Adapter, safetensors usw.
* [**Vergleichen**](#model-arena) zwei verschiedene Modell-Ausgaben nebeneinander
* [**Selbstheilende Tool-Aufrufe**](#auto-healing-tool-calling) / Websuche, [**Codeausführung**](#code-execution) und OpenAI-kompatible APIs aufrufen
* [**Automatischer Inferenzparameter**](#auto-parameter-tuning) Optimierung (Temp, Top-p usw.) und Chat-Vorlagen bearbeiten
* Bilder, Audio, PDFs, Code, DOCX und weitere Dateitypen hochladen, um mit ihnen zu chatten.

<div data-with-frame="true"><figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Ft1WkYzHmOVMXumiz71N0%2Ftoolcalling%20chat%20preview.png?alt=media&#x26;token=a1741a6c-bf24-4df8-9f27-ce21b868dbdf" alt="" width="563"><figcaption></figcaption></figure></div>

### Nutzung von Unsloth Studio Chat

{% columns %}
{% column %}

#### Modelle suchen und ausführen

Du kannst über Hugging Face nach jedem Modell suchen und es herunterladen oder lokale Dateien verwenden.

Studio unterstützt eine breite Palette von Modelltypen, darunter **GGUF**, Vision-Language- und Text-to-Speech-Modelle. Führe die neuesten Modelle wie [Qwen3.5](https://unsloth.ai/docs/de/modelle/qwen3.5) oder NVIDIA [Nemotron 3](https://unsloth.ai/docs/de/modelle/nemotron-3).

Bilder, Audio, PDFs, Code, DOCX und weitere Dateitypen hochladen, um mit ihnen zu chatten.
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FBf3UDywdNSlvCBhUuVsp%2FScreenshot%202026-03-17%20at%2012.34.23%E2%80%AFAM.png?alt=media&#x26;token=b6127cbf-76f7-48da-b869-3760ed5e9b42" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% hint style="success" %}
Unsloth Studio Chat funktioniert automatisch auf **Multi-GPU-Setups** für Inferenz.
{% endhint %}

{% columns %}
{% column %}

#### Codeausführung

Unsloth Studio ermöglicht es LLMs, Bash und Python auszuführen, nicht nur JavaScript. Es sandboxt außerdem Programme wie Claude Artifacts, sodass Modelle Code testen, Dateien generieren und Antworten mit echter Berechnung verifizieren können.

Dadurch werden Antworten von Modellen zuverlässiger und genauer.
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fel6jjv4rUTRCRwcRpIr7%2Flong%20code%20exec.png?alt=media&#x26;token=9d3d5930-0fdc-4d97-941c-983e5629296d" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% columns %}
{% column %}

#### Selbstheilende Tool-Aufrufe

Unsloth Studio erlaubt nicht nur Tool-Aufrufe und Websuche, sondern behebt auch automatisch alle Fehler, die auftreten können.

Das bedeutet, du erhältst immer Inferenz-Ausgaben **ohne** fehlerhafte Tool-Aufrufe.&#x20;

Z. B. durchsuchte Qwen3.5-4B über 20 Websites und zitierte Quellen, wobei die Websuche innerhalb seiner Gedankenspur stattfand.
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FXPQGEEr1YoKofrTatAKK%2Ftoolcallingif.gif?alt=media&#x26;token=25d68698-fb13-4c46-99b2-d39fb025df08" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% columns %}
{% column %}

#### Automatische Parameteroptimierung

Inferenzparameter wie **Temperatur**, **Top-p**, **Top-k** werden für neue Modelle wie Qwen3.5 automatisch voreingestellt, damit du die besten Ausgaben erhältst, ohne dich um Einstellungen kümmern zu müssen. Du kannst die Parameter auch manuell anpassen und den System-Prompt bearbeiten.

Die Anpassung der Kontextlänge ist mit dem intelligenten Auto-Kontext von llama.cpp nicht mehr notwendig, da nur der benötigte Kontext verwendet wird, ohne etwas Zusätzliches zu laden.
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FAQKsjtynvCXKtadvKhq1%2FRecording%202026-03-13%20114257.gif?alt=media&#x26;token=b5bfff0c-8189-4358-9344-08d0ae17782a" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% columns %}
{% column %}

#### Chat-Arbeitsbereich

Gib Prompts ein, hänge beliebige Dokumente, Bilder (webp, png), Code-Dateien, txt oder Audio als zusätzlichen Kontext an und sieh die Antworten des Modells in Echtzeit.

Ein- oder ausschalten: Denken + Websuche.
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FHlOKWnSB6slhE1EXgAeZ%2Fimage.png?alt=media&#x26;token=b5bdfe4e-fe0e-4a2a-9eba-b04b15a79018" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

### Modell-Arena

Studio Chat ermöglicht es dir, zwei beliebige Modelle mit demselben Prompt nebeneinander zu vergleichen. Z. B. das Basismodell und den LoRA-Adapter vergleichen. Die Inferenz lädt zuerst ein Modell, dann das zweite (parallele Inferenz wird noch entwickelt).

<div data-with-frame="true"><figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FC3xjqlunbpUr7nx6sQ4j%2Fimage.png?alt=media&#x26;token=65501d63-1346-4a1e-b055-c94294a24305" alt="" width="563"><figcaption></figcaption></figure></div>

{% columns %}
{% column %}
Nach dem Training kannst du das Basis- und das feinabgestimmte Modell mit demselben Prompt nebeneinander vergleichen, um zu sehen, was sich geändert hat und ob die Ergebnisse besser geworden sind.

Dieser Arbeitsablauf macht es einfach zu sehen, wie dein Fine-Tuning die Antworten des Modells verändert hat und ob es die Ergebnisse für deinen Anwendungsfall verbessert hat.
{% endcolumn %}

{% column %}

<div align="center" data-with-frame="true"><figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FVgnE7eMPQk2vaFboJ4BU%2Fmodel%20arena%20closeup.png?alt=media&#x26;token=8b0a910b-440c-4859-a846-0060e61e157b" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% hint style="success" %}
Unsloth Studio Chat funktioniert automatisch auf **Multi-GPU-Setups** für Inferenz.
{% endhint %}

### Verwendung alter / bestehender GGUF-Modelle

{% columns %}
{% column %}
**Update vom 1. April:** Du kannst jetzt einen vorhandenen Ordner auswählen, aus dem Unsloth erkennen soll.

**Update vom 27. März:** Unsloth Studio erkennt jetzt **automatisch ältere / bereits vorhandene Modelle** heruntergeladen von Hugging Face, LM Studio usw.
{% endcolumn %}

{% column %}

<figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FBn3Fs1cchFchl328wSOs%2FScreenshot%202026-04-05%20at%205.43.57%E2%80%AFAM.png?alt=media&#x26;token=cc57ec6e-653a-4824-8e8d-a6bfbcd27493" alt=""><figcaption></figcaption></figure>
{% endcolumn %}
{% endcolumns %}

**Manuelle Anleitung:** Unsloth Studio erkennt Modelle, die in deinem Hugging-Face-Hub-Cache heruntergeladen wurden `(C:\Users{your_username}.cache\huggingface\hub)`. Wenn du GGUF-Modelle über LM Studio heruntergeladen hast, beachte, dass diese gespeichert werden in `C:\Users\{your_username}.cache\lm-studio\models` ***ODER*** `C:\Users{your_username}\lm-studio\models` und standardmäßig für llama.cpp nicht sichtbar sind - du musst diese .gguf-Dateien in dein Hugging-Face-Hub-Cache-Verzeichnis (oder einen anderen für llama.cpp zugänglichen Pfad) verschieben oder kopieren, damit Unsloth Studio sie laden kann.

Nachdem du ein Modell oder einen Adapter in Studio feinabgestimmt hast, kannst du es nach GGUF exportieren und lokale Inferenz mit **llama.cpp** direkt in Studio Chat ausführen. Unsloth Studio wird von llama.cpp und Hugging Face unterstützt.

### Dateien als Kontext hinzufügen

Studio Chat unterstützt multimodale Eingaben direkt in der Unterhaltung. Du kannst Dokumente, Bilder oder Audio als zusätzlichen Kontext für einen Prompt anhängen.

<div data-with-frame="true"><figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FSitddQpGkOwUvirMem5P%2Fimage.png?alt=media&#x26;token=43b7af91-ea86-4279-a787-b4b444640d82" alt="" width="563"><figcaption></figcaption></figure></div>

Das macht es einfach zu testen, wie ein Modell mit realen Eingaben wie PDFs, Screenshots oder Referenzmaterial umgeht. Dateien werden lokal verarbeitet und als Kontext für das Modell einbezogen.

### **Modelldateien löschen**

Du kannst alte Modelldateien entweder über das Papierkorb-Symbol in der Modellsuche löschen oder den entsprechenden zwischengespeicherten Modellordner aus dem standardmäßigen Hugging-Face-Cache-Verzeichnis entfernen. Standardmäßig verwendet Hugging Face `~/.cache/huggingface/hub/` unter macOS/Linux/WSL und `C:\Users\<username>\.cache\huggingface\hub\` unter Windows.

* **MacOS, Linux, WSL:** `~/.cache/huggingface/hub/`
* **Windows:** `%USERPROFILE%\.cache\huggingface\hub\`

Wenn `HF_HUB_CACHE` oder `HF_HOME` gesetzt ist, verwende stattdessen diesen Speicherort. Unter Linux und WSL kann `XDG_CACHE_HOME` auch den standardmäßigen Cache-Stamm ändern.

### **Unsloth erkennt oder verwendet meine GPU nicht**

Wenn das Modell deine GPU speziell in Docker nicht verwendet, versuche Folgendes:

Das neueste Image manuell herunterladen:

```bash
 docker pull unsloth/unsloth:latest
```

* Container mit GPU-Zugriff starten:
  * `docker run`: `--gpus all`
  * Docker Compose: `capabilities: [gpu]`
* Unter Linux stelle sicher, dass das NVIDIA Container Toolkit installiert ist.
* Unter Windows:
  * Prüfe, ob `nvcc --version` mit der in `nvidia-smi`
  * angezeigten CUDA-Version übereinstimmt. [Folge:](https://docs.docker.com/desktop/features/gpu/)
