# Wie man Modelle mit Unsloth Studio ausführt

[Unsloth Studio](/docs/de/neu/studio.md) ermöglicht es dir, KI-Modelle zu 100 % offline auf deinem Computer auszuführen. Führe Modellformate wie GGUF und safetensors von Hugging Face oder aus deinen lokalen Dateien aus.

* **Funktioniert auf allen MacOS-, CPU-, Windows-, Linux- und WSL-Setups! Keine GPU erforderlich**
* [**Selbstheilende Tool-Aufrufe**](#auto-healing-tool-calling)**,** erweitert [**Websuche**](#advanced-web-search), [**Codeausführung**](#code-execution)
* Verwende Unsloth als OpenAI-kompatible Inferenz [**API-Endpunkt**](/docs/de/grundlagen/api.md)
* Suchen + Herunterladen + Ausführen + [Vergleichen](#model-arena) jedes Modell wie GGUFs, LoRA-Adapter, safetensors usw.
* [**Automatische Inferenzparameter**](#auto-parameter-tuning) Tuning (Temp, Top-p usw.) und Chat-Vorlagen bearbeiten
* Bilder, Audio, PDFs, Code, DOCX und weitere Dateitypen hochladen, um damit zu chatten.

<div data-with-frame="true"><figure><img src="/files/487af505f1af13e0e0f30a25c1a5287836f987f4" alt="" width="563"><figcaption></figcaption></figure></div>

### Verwendung von Unsloth Studio Chat

{% hint style="success" %}
Unsloth Studio Chat funktioniert automatisch auf **Multi-GPU-Setups** für Inferenz.
{% endhint %}

{% columns %}
{% column %}

#### Codeausführung

Unsloth Studio ermöglicht es LLMs, Bash und Python auszuführen, nicht nur JavaScript. Es sandboxt außerdem Programme wie Claude Artifacts, damit Modelle Code testen, Dateien erzeugen und Antworten mit echter Berechnung verifizieren können.

Dadurch werden Antworten von Modellen zuverlässiger und genauer.
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/5363ebe10ce81d1a17df83ba37b3806349759fb5" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% columns %}
{% column %}

#### Selbstheilende Tool-Aufrufe

Unsloth Studio ermöglicht nicht nur [Tool-Aufrufe](#id-50-tool-calling-accuracy), sondern korrigiert auch fehlerhafte oder kaputte Tool-Aufrufe automatisch um 50 %.

Das bedeutet, dass du immer Inferenz-Ausgaben erhältst **ohne** kaputte Tool-Aufrufe.&#x20;

Z. B. durchsuchte Qwen3.5-4B über 20 Websites und zitierte Quellen, wobei die Websuche innerhalb seines Denkprozesses stattfand.
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/72e444ba2ee0f824709d0f03d5c3ca108bd5936f" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% columns %}
{% column %}

#### Erweiterte Websuche

Unsloths Websuche besucht Seiten tatsächlich direkt, um relevante Informationen und Daten zu sammeln, und scannt nicht nur Website-Zusammenfassungen. Dadurch werden Ausgaben mit deutlich genaueren/tiefergehenden Informationen und Kontext geliefert.
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/487af505f1af13e0e0f30a25c1a5287836f987f4" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% columns %}
{% column %}

#### Unsloth als API-Endpunkt verwenden

Du kannst lokale LLMs jetzt über Tools wie [Claude Code](/docs/de/grundlagen/claude-code.md) und [Codex](/docs/de/grundlagen/codex.md) nutzen, indem du sie mit Unsloths API-Endpunkt verbindest. Das bedeutet, dass du Qwen- und Gemma-Modelle in diesen Tools direkt mit Unsloths Inferenz ausführen kannst, einschließlich Funktionen wie selbstheilenden Tool-Aufrufen, Websuche usw.
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/67a8c8b8df05a09f74fb22b504d79bc62f7b6236" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% columns %}
{% column %}

#### Modelle suchen und ausführen

Du kannst jedes Modell über Hugging Face suchen und herunterladen oder lokale Dateien verwenden.

Studio unterstützt eine breite Palette von Modelltypen, einschließlich **GGUF**, Vision-Language- und Text-to-Speech-Modelle. Führe die neuesten Modelle wie [Qwen3.5](/docs/de/modelle/qwen3.5.md) oder NVIDIA [Nemotron 3](/docs/de/modelle/nemotron-3.md).

Bilder, Audio, PDFs, Code, DOCX und weitere Dateitypen hochladen, um damit zu chatten.
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/969f06e1a29ca4b61df474403b61dd220364a9ff" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% columns %}
{% column %}

#### Automatische Inferenz-Einstellungen

Inferenzparameter wie **Temperatur**, **Top-p**, **Top-k** werden für neue Modelle wie Qwen3.5 automatisch voreingestellt, damit du die besten Ausgaben erhältst, ohne dir um Einstellungen Gedanken machen zu müssen. Du kannst Parameter auch manuell anpassen und den System-Prompt bearbeiten.

Eine Anpassung der Kontextlänge ist nicht mehr erforderlich mit llama.cpps intelligentem Auto-Kontext, der nur den Kontext verwendet, den du brauchst, ohne zusätzlich etwas zu laden.
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/8f6e95acb5edfc9f0107b5d6b5f134645bfe6b9e" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% columns %}
{% column %}

#### Chat-Arbeitsbereich

Gib Prompts ein, hänge beliebige Dokumente, Bilder (webp, png), Code-Dateien, txt oder Audio als zusätzlichen Kontext an und sieh die Antworten des Modells in Echtzeit.

Ein- oder ausschalten: Denken + Websuche.
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/8ac16e79b6962b31826fa6e0299158207997923b" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

### **+50 % Genauigkeit bei Tool-Aufrufen**

Unsloth bietet mehrere einzigartige Funktionen, die Tool-Aufrufe verbessern, darunter:

* Tool-Aufrufe über alle Modelle in Unsloth sind **um 30 % bis 80 % genauer**.
* Die Websuche ruft tatsächliche Webinhalte ab statt nur Zusammenfassungen.
* Die maximale Anzahl erlaubter Tool-Aufrufe beträgt **mehr als 25.**
* Tool-Aufrufe enden zuverlässiger, wodurch Schleifen und wiederholte Aufrufe reduziert werden.
* Verbesserte Heilungs- und Deduplizierungslogik für Tool-Aufrufe hilft zu verhindern, dass XML in Ausgaben gelangt.

Sieh dir Testergebnisse an mit `unsloth/Qwen3.5-4B-GGUF (UD-Q4_K_XL)` mit aktivierter Websuche, Codeausführung und Denken:

| Metrik                        | Normales Tool-Calling | Unsloth Tool-Calling |
| ----------------------------- | --------------------- | -------------------- |
| XML-Leaks in der Antwort      | 10/10                 | 0/10                 |
| Verwendete URL-Abrufe         | 0                     | 4/10 Läufe           |
| Läufe mit korrekten Songnamen | 0/10                  | 2/10                 |
| Durchschn. Tool-Aufrufe       | 5.5                   | 3.8                  |
| Durchschn. Antwortzeit        | 12,3 s                | 9,8 s                |

### Modell-Arena

Studio Chat ermöglicht es dir, beliebige zwei Modelle mit demselben Prompt Seite an Seite zu vergleichen. Z. B. das Basismodell und den LoRa-Adapter vergleichen. Die Inferenz lädt zuerst für ein Modell, dann für das zweite (parallele Inferenz wird derzeit entwickelt).

<div data-with-frame="true"><figure><img src="/files/e4fb56f14a51ce7663839b4f83309d2c63e84b05" alt="" width="563"><figcaption></figcaption></figure></div>

{% columns %}
{% column %}
Nach dem Training kannst du das Basis- und das feinabgestimmte Modell mit demselben Prompt Seite an Seite vergleichen, um zu sehen, was sich geändert hat und ob sich die Ergebnisse verbessert haben.

Dieser Workflow macht es einfach zu sehen, wie dein Fine-Tuning die Antworten des Modells verändert hat und ob es die Ergebnisse für deinen Anwendungsfall verbessert hat.
{% endcolumn %}

{% column %}

<div align="center" data-with-frame="true"><figure><img src="/files/57327435a296ac04b674537dd10bf9ddc85a6464" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% hint style="success" %}
Unsloth Studio Chat funktioniert automatisch auf **Multi-GPU-Setups** für Inferenz.
{% endhint %}

### Verwendung alter/vorhandener GGUF-Modelle

{% columns %}
{% column %}
**Update vom 1. Apr.:** Du kannst jetzt einen vorhandenen Ordner auswählen, aus dem Unsloth erkennen soll.

**Update vom 27. Mär.:** Unsloth Studio erkennt jetzt **ältere / bereits vorhandene Modelle automatisch** die von Hugging Face, LM Studio usw. heruntergeladen wurden.
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/6d118e4bf4a5fc18305137e0f3c5f956d8aba5a0" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

**Manuelle Anweisungen:** Unsloth Studio erkennt Modelle, die in deinem Hugging-Face-Hub-Cache heruntergeladen wurden `(C:\Users{your_username}.cache\huggingface\hub)`. Wenn du GGUF-Modelle hast, die über LM Studio heruntergeladen wurden, beachte bitte, dass diese gespeichert sind in `C:\Users\{your_username}.cache\lm-studio\models` ***ODER*** `C:\Users{your_username}\lm-studio\models` und standardmäßig für llama.cpp nicht sichtbar sind - du musst diese .gguf-Dateien in dein Hugging-Face-Hub-Cache-Verzeichnis (oder einen anderen für llama.cpp zugänglichen Pfad) verschieben oder kopieren, damit Unsloth Studio sie laden kann.

Nachdem du in Studio ein Modell oder einen Adapter feinabgestimmt hast, kannst du es nach GGUF exportieren und lokale Inferenz mit **llama.cpp** direkt in Studio Chat ausführen. Unsloth Studio basiert auf llama.cpp und Hugging Face.

### Dateien als Kontext hinzufügen

Studio Chat unterstützt multimodale Eingaben direkt in der Unterhaltung. Du kannst Dokumente, Bilder oder Audio als zusätzlichen Kontext für einen Prompt anhängen.

<div data-with-frame="true"><figure><img src="/files/1484e2a651ae5a68bc7d37af9c0d7bc2b62f6d7a" alt="" width="563"><figcaption></figcaption></figure></div>

Das macht es einfach zu testen, wie ein Modell mit realen Eingaben wie PDFs, Screenshots oder Referenzmaterial umgeht. Dateien werden lokal verarbeitet und als Kontext für das Modell einbezogen.

### **Modelldateien löschen**

Du kannst alte Modelldateien entweder über das Papierkorb-Symbol in der Modellsuche löschen oder den entsprechenden zwischengespeicherten Modellordner aus dem standardmäßigen Hugging-Face-Cache-Verzeichnis entfernen. Standardmäßig verwendet Hugging Face `~/.cache/huggingface/hub/` unter macOS/Linux/WSL und `C:\Users\<username>\.cache\huggingface\hub\` unter Windows.

* **MacOS, Linux, WSL:** `~/.cache/huggingface/hub/`
* **Windows:** `%USERPROFILE%\.cache\huggingface\hub\`

Wenn `HF_HUB_CACHE` oder `HF_HOME` gesetzt ist, verwende stattdessen diesen Speicherort. Unter Linux und WSL kann `XDG_CACHE_HOME` auch den standardmäßigen Cache-Stamm ändern.

### **Unsloth erkennt oder verwendet meine GPU nicht**

Wenn das Modell deine GPU speziell für Docker nicht verwendet, versuche Folgendes:

Das neueste Image manuell abrufen:

```bash
 docker pull unsloth/unsloth:latest
```

* Den Container mit GPU-Zugriff starten:
  * `docker run`: `--gpus all`
  * Docker Compose: `capabilities: [gpu]`
* Unter Linux sicherstellen, dass das NVIDIA Container Toolkit installiert ist.
* Unter Windows:
  * Überprüfe, dass `nvcc --version` mit der CUDA-Version übereinstimmt, die in `nvidia-smi`
  * angezeigt wird: <https://docs.docker.com/desktop/features/gpu/>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/de/neu/studio/chat.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
