> For the complete documentation index, see [llms.txt](https://unsloth.ai/docs/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://unsloth.ai/docs/de/neu/studio/chat.md).

# Wie man Modelle mit Unsloth Studio ausführt

[Unsloth Studio](/docs/de/neu/studio.md) ermöglicht es dir, KI-Modelle 100 % offline auf deinem Computer auszuführen. Führe Modellformate wie GGUF und safetensors von Hugging Face oder von deinen lokalen Dateien aus.

* **Funktioniert auf allen MacOS-, CPU-, Windows-, Linux- und WSL-Setups! Keine GPU erforderlich**
* [**Selbstheilende Tool-Aufrufe**](#auto-healing-tool-calling)**,** erweitert [**Websuche**](#advanced-web-search), [**Codeausführung**](#code-execution)
* Nutze Unsloth als OpenAI-kompatible Inferenz [**API-Endpunkt**](/docs/de/grundlagen/api.md) oder verbinde einen [Anbieter](broken://pages/0f8e9568d5c07455e71a53b9fbadf4f2dfaf00ef)
* Suchen + Herunterladen + Ausführen + [Vergleichen](#model-arena) jedes Modell wie GGUFs, LoRA-Adapter, safetensors usw.
* [**Automatische Inferenzparameter**](#auto-parameter-tuning) Tuning (Temp, Top-p usw.) und Bearbeiten von Chat-Vorlagen
* Lade Bilder, Audio, PDFs, Code, DOCX und weitere Dateitypen hoch, um damit zu chatten.

<div data-with-frame="true"><figure><img src="/files/487af505f1af13e0e0f30a25c1a5287836f987f4" alt="" width="563"><figcaption></figcaption></figure></div>

### Verwendung des Unsloth Studio Chats

{% hint style="success" %}
Unsloth Studio Chat funktioniert automatisch auf **Multi-GPU-Setups** für Inferenz.
{% endhint %}

{% columns %}
{% column %}

#### Codeausführung

Unsloth Studio ermöglicht es LLMs, Bash und Python auszuführen, nicht nur JavaScript. Außerdem sandboxt es Programme wie Claude Artifacts, damit Modelle Code testen, Dateien erzeugen und Antworten mit echter Berechnung überprüfen können.

Dadurch werden Antworten von Modellen zuverlässiger und genauer.
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/5363ebe10ce81d1a17df83ba37b3806349759fb5" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% columns %}
{% column %}

#### Selbstheilende Tool-Aufrufe

Unsloth Studio ermöglicht nicht nur [Tool-Aufrufe](#id-50-tool-calling-accuracy), sondern korrigiert fehlerhafte oder defekte Tool-Aufrufe auch automatisch um 50 %.

Das bedeutet, dass du immer Inferenz-Ausgaben erhältst **ohne** fehlerhafte Tool-Aufrufe.&#x20;

Z. B. suchte Qwen3.5-4B auf über 20 Websites und zitierte Quellen, wobei die Websuche innerhalb seines Denkprotokolls stattfand.
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/72e444ba2ee0f824709d0f03d5c3ca108bd5936f" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% columns %}
{% column %}

#### Erweiterte Websuche

Die Websuche von Unsloth besucht Seiten direkt, um relevante Informationen und Daten zu sammeln, und scannt nicht nur Website-Zusammenfassungen. Dadurch erhält man viel genauere/tiefere Informationen und mehr Kontext.
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/487af505f1af13e0e0f30a25c1a5287836f987f4" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% columns %}
{% column %}

#### Unsloth als API-Endpunkt verwenden

Du kannst lokale LLMs jetzt über Tools wie [Claude Code](/docs/de/grundlagen/claude-code.md) und [Codex](/docs/de/grundlagen/codex.md) nutzen, indem du sie mit Unsloths [API-Endpunkt](#use-unsloth-as-an-api-endpoint)verbindest. So kannst du Qwen- und Gemma-Modelle direkt in diesen Tools mit Unsloths Inferenz ausführen, einschließlich Funktionen wie selbstheilenden Tool-Aufrufen, Websuche usw.
{% endcolumn %}

{% column %}

<figure><img src="/files/4d7f67e24fb64209883a9782fb1c8e4d7782a66f" alt=""><figcaption></figcaption></figure>
{% endcolumn %}
{% endcolumns %}

{% columns %}
{% column %}

#### Automatische Inferenz-Einstellungen

Inferenzparameter wie **Temperatur**, **Top-p**, **Top-k**, [**MTP**](/docs/de/modelle/qwen3.6.md#mtp-guide) werden für neue Modelle wie Qwen3.5 automatisch voreingestellt, damit du ohne Gedanken an Einstellungen die besten Ergebnisse erhältst. Du kannst Parameter auch manuell anpassen und den Systemprompt bearbeiten.

Die Anpassung der Kontextlänge ist mit dem intelligenten Auto-Kontext von llama.cpp nicht mehr notwendig; er verwendet nur den Kontext, den du brauchst, ohne etwas zusätzlich zu laden.
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/8f6e95acb5edfc9f0107b5d6b5f134645bfe6b9e" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% columns %}
{% column %}

#### Anbieter verbinden

[Unsloth verbindet](broken://pages/0f8e9568d5c07455e71a53b9fbadf4f2dfaf00ef) mit OpenAI, Anthropic, Ollama, llama.cpp, vLLM und anderen.

Füge API-Schlüssel oder Modellserver-URLs hinzu und nutze dann externe Modelle in derselben Chat-Oberfläche wie lokale und Cloud-Modelle. Ausführen mit [Prompt-Caching](broken://pages/0f8e9568d5c07455e71a53b9fbadf4f2dfaf00ef#prompt-caching), Tool-Aufrufen, Thinking und anbieternativen Funktionen wie OpenAIs [Websuche](#web-search-and-thinking) und [Codeausführung](#code-execution).
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/8f6e95acb5edfc9f0107b5d6b5f134645bfe6b9e" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% columns %}
{% column %}

#### Modelle suchen und ausführen

Du kannst über Hugging Face jedes Modell suchen und herunterladen oder lokale Dateien verwenden.

Studio unterstützt eine breite Palette von Modelltypen, darunter **GGUF**, Vision-Language- und Text-to-Speech-Modelle. Führe die neuesten Modelle wie [Qwen3.5](/docs/de/modelle/qwen3.5.md) oder NVIDIA [Nemotron 3](/docs/de/modelle/nemotron-3.md).

Lade Bilder, Audio, PDFs, Code, DOCX und weitere Dateitypen hoch, um damit zu chatten.
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/969f06e1a29ca4b61df474403b61dd220364a9ff" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% columns %}
{% column %}

#### Chat-Arbeitsbereich

Gib Prompts ein, füge beliebige Dokumente, Bilder (webp, png), Code-Dateien, txt oder Audio als zusätzlichen Kontext hinzu und sieh die Antworten des Modells in Echtzeit.

Ein- oder ausschalten: Thinking + Websuche.
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/8ac16e79b6962b31826fa6e0299158207997923b" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

### **+50 % Genauigkeit bei Tool-Aufrufen**

Unsloth bietet mehrere einzigartige Funktionen, die Tool-Aufrufe verbessern, darunter:

* Tool-Aufrufe über alle Modelle in Unsloth sind **30 % bis 80 % genauer**.
* Websuche ruft tatsächliche Webinhalte ab statt nur Zusammenfassungen.
* Die maximale Anzahl erlaubter Tool-Aufrufe beträgt **mehr als 25.**
* Tool-Aufrufe beenden sich zuverlässiger, wodurch Schleifen und wiederholte Aufrufe reduziert werden.
* Verbesserte Logik zum Heilen und Deduplizieren von Tool-Aufrufen hilft, zu verhindern, dass XML in Ausgaben gelangt.

Sieh dir Testergebnisse an mit `unsloth/Qwen3.5-4B-GGUF (UD-Q4_K_XL)` mit aktivierter Websuche, Codeausführung und Thinking:

| Metrik                        | Normale Tool-Aufrufe | Unsloth Tool-Aufrufe |
| ----------------------------- | -------------------- | -------------------- |
| XML-Leaks in der Antwort      | 10/10                | 0/10                 |
| Verwendete URL-Abrufe         | 0                    | 4/10 Läufe           |
| Läufe mit korrekten Songnamen | 0/10                 | 2/10                 |
| Durchschn. Tool-Aufrufe       | 5.5                  | 3.8                  |
| Durchschn. Antwortzeit        | 12,3 s               | 9,8 s                |

### Modell-Arena

Studio Chat ermöglicht dir, beliebige zwei Modelle nebeneinander mit demselben Prompt zu vergleichen. Z. B. vergleiche das Basismodell und den LoRa-Adapter. Die Inferenz wird zuerst für ein Modell geladen, dann für das zweite (parallele Inferenz wird derzeit entwickelt).

<div data-with-frame="true"><figure><img src="/files/e4fb56f14a51ce7663839b4f83309d2c63e84b05" alt="" width="563"><figcaption></figcaption></figure></div>

{% columns %}
{% column %}
Nach dem Training kannst du das Basis- und das feinabgestimmte Modell nebeneinander mit demselben Prompt vergleichen, um zu sehen, was sich geändert hat und ob die Ergebnisse besser geworden sind.

Dieser Workflow macht es einfach zu sehen, wie dein Fine-Tuning die Antworten des Modells verändert hat und ob es die Ergebnisse für deinen Anwendungsfall verbessert hat.
{% endcolumn %}

{% column %}

<div align="center" data-with-frame="true"><figure><img src="/files/57327435a296ac04b674537dd10bf9ddc85a6464" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% hint style="success" %}
Unsloth Studio Chat funktioniert automatisch auf **Multi-GPU-Setups** für Inferenz.
{% endhint %}

### Verwendung alter / bestehender GGUF-Modelle

{% columns %}
{% column %}
**Update vom 1. Apr.:** Du kannst jetzt einen vorhandenen Ordner auswählen, aus dem Unsloth erkennen soll.

**Update vom 27. März:** Unsloth Studio erkennt jetzt **automatisch ältere / bereits vorhandene Modelle** heruntergeladen von Hugging Face, LM Studio usw.
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/6d118e4bf4a5fc18305137e0f3c5f956d8aba5a0" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

**Manuelle Anweisungen:** Unsloth Studio erkennt Modelle, die in deinem Hugging-Face-Hub-Cache heruntergeladen wurden `(C:\Users{dein_benutzername}.cache\huggingface\hub)`. Wenn du GGUF-Modelle über LM Studio heruntergeladen hast, beachte, dass diese gespeichert werden in `C:\Users\{dein_benutzername}.cache\lm-studio\models` ***ODER*** `C:\Users{dein_benutzername}\lm-studio\models` und sind für llama.cpp standardmäßig nicht sichtbar - du musst diese .gguf-Dateien in dein Hugging-Face-Hub-Cache-Verzeichnis (oder einen anderen für llama.cpp zugänglichen Pfad) verschieben oder kopieren, damit Unsloth Studio sie laden kann.

Nachdem du ein Modell oder einen Adapter in Studio feinabgestimmt hast, kannst du es nach GGUF exportieren und lokale Inferenz mit **llama.cpp** direkt in Studio Chat ausführen. Unsloth Studio basiert auf llama.cpp und Hugging Face.

### Dateien als Kontext hinzufügen

Studio Chat unterstützt multimodale Eingaben direkt im Gespräch. Du kannst Dokumente, Bilder oder Audio als zusätzlichen Kontext für einen Prompt anhängen.

<div data-with-frame="true"><figure><img src="/files/1484e2a651ae5a68bc7d37af9c0d7bc2b62f6d7a" alt="" width="563"><figcaption></figcaption></figure></div>

So kannst du leicht testen, wie ein Modell mit realen Eingaben wie PDFs, Screenshots oder Referenzmaterial umgeht. Dateien werden lokal verarbeitet und als Kontext für das Modell eingebunden.

### **Modelldateien löschen**

Du kannst alte Modelldateien entweder über das Papierkorb-Symbol in der Modellsuche löschen oder den entsprechenden zwischengespeicherten Modellordner aus dem Standard-Hugging-Face-Cache-Verzeichnis entfernen. Standardmäßig verwendet Hugging Face `~/.cache/huggingface/hub/` unter macOS/Linux/WSL und `C:\Users\<username>\.cache\huggingface\hub\` unter Windows.

* **MacOS, Linux, WSL:** `~/.cache/huggingface/hub/`
* **Windows:** `%USERPROFILE%\.cache\huggingface\hub\`

Wenn `HF_HUB_CACHE` oder `HF_HOME` gesetzt ist, verwende stattdessen diesen Speicherort. Unter Linux und WSL kann `XDG_CACHE_HOME` auch das standardmäßige Cache-Root ändern.

### **Unsloth erkennt meine GPU nicht oder verwendet sie nicht**

Wenn das Modell deine GPU insbesondere für Docker nicht verwendet, versuche Folgendes:

Das neueste Image manuell abrufen:

```bash
 docker pull unsloth/unsloth:latest
```

* Container mit GPU-Zugriff starten:
  * `docker run`: `--gpus all`
  * Docker Compose: `capabilities: [gpu]`
* Unter Linux sicherstellen, dass das NVIDIA Container Toolkit installiert ist.
* Unter Windows:
  * Überprüfe, dass `nvcc --version` mit der in `nvidia-smi`
  * angezeigten CUDA-Version übereinstimmt [Folge: https://docs.docker.com/desktop/features/gpu/](https://docs.docker.com/desktop/features/gpu/)


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/de/neu/studio/chat.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
