> For the complete documentation index, see [llms.txt](https://unsloth.ai/docs/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://unsloth.ai/docs/de/grundlagen/claude-code.md).

# Wie man lokale LLMs mit Claude Code ausführt

Diese Schritt-für-Schritt-Anleitung zeigt dir, wie du offene LLMs und APIs vollständig lokal mit Claude Code verbindest – inklusive Screenshots. Verwende dafür beliebige offene Modelle wie Qwen3.6, DeepSeek und Gemma.

Für dieses Tutorial verwenden wir die offenen Modelle: [Gemma 4](/docs/de/modelle/gemma-4.md) und [Qwen3.5](/docs/de/modelle/qwen3.5.md) die starke agentische und Coding-Modelle sind (funktioniert auf einem Gerät mit 24 GB RAM/Unified Memory). Für die Inferenz verwenden wir [Unsloth Studio](https://github.com/unslothai/unsloth) und [`llama.cpp`](https://github.com/ggml-org/llama.cpp) ermöglicht es dir, LLMs unter macOS, Linux und Windows auszuführen/zu betreiben. Du kannst stattdessen [jedes andere Modell](/docs/de/modelle/tutorials.md), musst du nur die Modellnamen in deinen Skripten aktualisieren.

<a href="/pages/d12c953ceacbd6c3e44f3aa911056928e0488f5b#claude-code-setup" class="button primary" data-icon="claude">Claude Code-Einrichtung</a><a href="/pages/d12c953ceacbd6c3e44f3aa911056928e0488f5b#quickstart-tutorials" class="button primary">📖 Tutorial zur Einrichtung eines lokalen Modells</a>

Für Modell-Quants verwenden wir Unsloth [Dynamische GGUFs](/docs/de/grundlagen/unsloth-dynamic-2.0-ggufs.md) um jedes quantisierte LLM auszuführen und dabei so viel Genauigkeit wie möglich zu erhalten.

## <i class="fa-claude">:claude:</i> Claude Code-Einrichtung

Bevor wir unser lokales LLM einrichten, müssen wir Claude Code installieren. Claude Code ist ein terminalbasierter Coding-Agent, der deine Codebasis versteht und komplexe Git-Workflows per natürlicher Sprache handhabt.

{% tabs %}
{% tab title="macOS, Linux, WSL" %}

#### **Claude Code installieren:**

Füge dies in dein Terminal ein, um Claude Code zu installieren:

```bash
curl -fsSL https://claude.ai/install.sh | bash
```

Nach der Installation wechsle in deinen Projektordner. Tippe dann `claude` in die `Shell` um zu beginnen.

```bash
cd ~/projects/my-project 
claude
```

{% endtab %}

{% tab title="Windows" %}

#### **Claude Code installieren:**

Gib Folgendes ein, um `PowerShell` Claude Code zu installieren:

```powershell
irm https://claude.ai/install.ps1 | iex
```

Nach der Installation wechsle in deinen Projektordner. Tippe dann `claude` in die `PowerShell` um zu beginnen.

<pre class="language-powershell"><code class="lang-powershell"><strong>cd /path/to/your/project
</strong>claude
</code></pre>

<div data-with-frame="true"><figure><img src="/files/dc60e37e6bd78543c5dcf44efe33f0dedd4500e7" alt="" width="563"><figcaption></figcaption></figure></div>
{% endtab %}
{% endtabs %}

### :detective:Behebung einer um 90 % langsameren Inferenz in Claude Code

{% hint style="warning" %}
Claude Code fügt kürzlich ein Claude Code Attribution-Header-Präfix hinzu und setzt es davor, was **den KV-Cache ungültig macht und die Inferenz mit lokalen Modellen um 90 % verlangsamt**.
{% endhint %}

Die Attribution ist eine Zeile, die dem **Anfang des System-Prompts vorangestellt wird** (`x-anthropic-billing-header: cc_version=...; cch=...;`) dessen Wert sich bei jeder Anfrage ändert, sodass das gesamte Prompt-Präfix bei jedem Durchlauf den KV-Cache verfehlt.

Die einfachste Lösung besteht darin, ihn direkt beim Start von Claude Code zu deaktivieren, sodass keine Datei bearbeitet werden muss:

{% code overflow="wrap" %}

```bash
claude --settings '{\"env\":{\"CLAUDE_CODE_ATTRIBUTION_HEADER\":\"0\",\"CLAUDE_CODE_ENABLE_TELEMETRY\":\"0\"}}' --model unsloth/gemma-4-26B-A4B-it-GGUF
```

{% endcode %}

{% hint style="info" %}
Aktuelle Claude Code-Versionen berücksichtigen auch `export CLAUDE_CODE_ATTRIBUTION_HEADER=0`; ältere Builds ignorierten die Shell-Variable, daher ist die `--settings` Variante oben (oder die untenstehende Konfigurationsdatei) die zuverlässige Wahl.
{% endhint %}

Um das dauerhaft zu machen, füge `CLAUDE_CODE_ATTRIBUTION_HEADER` mit 0 in `"env"` in `~/.claude/settings.json`. Zum Beispiel: `cat > ~/.claude/settings.json` und füge dann den untenstehenden Inhalt hinzu (nach dem Einfügen ENTER und dann STRG+D drücken, um zu speichern). Wenn du bereits eine `~/.claude/settings.json` Datei hast, füge einfach `"CLAUDE_CODE_ATTRIBUTION_HEADER" : "0"` in den Abschnitt "env" ein und lasse den Rest der Konfigurationsdatei unverändert.

<pre class="language-json"><code class="lang-json">{
  "promptSuggestionEnabled": false,
  "env": {
    "CLAUDE_CODE_ENABLE_TELEMETRY": "0",
    "CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1",
    <a data-footnote-ref href="#user-content-fn-1">"CLAUDE_CODE_ATTRIBUTION_HEADER" : "0"</a>
  },
  "attribution": {
    "commit": "",
    "pr": ""
  },
  "plansDirectory" : "./plans",
  "prefersReducedMotion" : true,
  "terminalProgressBarEnabled" : false,
  "effortLevel" : "high"
}
</code></pre>

## 📖 Schnellstart-Tutorials

{% columns %}
{% column %}
Bevor wir beginnen, müssen wir zunächst die Einrichtung für das spezifische Modell abschließen, das Sie verwenden werden. Wir verwenden [Unsloth](/docs/de/neu/studio.md) (eine Web-UI) und llama.cpp, die Open-Source-Frameworks zum Ausführen und Bereitstellen von LLMs auf Ihren Mac-, Linux- und Windows-Geräten sind.

Unsloth verfügt außerdem über einzigartige selbstheilende [Tool-Aufrufe](/docs/de/neu/studio/chat.md#auto-healing-tool-calling) und [Websuche](/docs/de/neu/studio/chat.md#code-execution) Fähigkeiten. Rechts sehen Sie Claude Code, verbunden mit Unsloth:
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/4d7f67e24fb64209883a9782fb1c8e4d7782a66f" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

<a href="/pages/d12c953ceacbd6c3e44f3aa911056928e0488f5b#connect-claude-code" class="button primary" data-icon="claude">Claude Code verbinden</a><a href="/pages/d12c953ceacbd6c3e44f3aa911056928e0488f5b#unsloth-tutorial" class="button primary">🦥 Unsloth-Tutorial</a><a href="/pages/d12c953ceacbd6c3e44f3aa911056928e0488f5b#llama.cpp-tutorial" class="button primary"> llama.cpp-Tutorial</a>

## 🦥 Unsloth-Tutorial

Für dieses Tutorial werden wir lokale Modelle über eine UI mit Claude Code bereitstellen/verbinden, indem wir [Unsloth](https://github.com/unslothai/unsloth)Unsloth funktioniert unter Windows, WSL, Linux und macOS.&#x20;

{% columns %}
{% column %}

* Suchen, herunterladen, [GGUFs ausführen](/docs/de/neu/studio.md#run-models-locally) und Safetensor-Modelle
* [**Selbstheilendes** Tool-Calling](/docs/de/neu/studio.md#execute-code--heal-tool-calling) + **Websuche**
* [**Codeausführung**](/docs/de/neu/studio.md#run-models-locally) (Python, Bash)
* [Automatische Inferenz](/docs/de/neu/studio.md#model-arena) Parameterauswahl (temp, top-p usw.)
* Schnelle CPU- + GPU-Inferenz über llama.cpp
* [LLMs trainieren](/docs/de/neu/studio.md#no-code-training) 2x schneller mit 70 % weniger VRAM

Installationsanweisungen siehe unten:
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/16c0b18ba770d26abf1c3a92209b60c094a825a0" alt=""><figcaption><p>Beispiel für Qwen3.6 mit 2 Bit, ausgeführt in Unsloth.</p></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% tabs %}
{% tab title="macOS" %}

#### Schritt 1: Unsloth einrichten

Starten Sie das `Terminal` auf dem Mac und installieren Sie dann Unsloth, indem Sie den folgenden Befehl eingeben.

```bash
curl -fsSL https://unsloth.ai/install.sh | sh
```

Unsloth beginnt wie unten gezeigt mit der Einrichtung der Umgebung und der Installation der erforderlichen Pakete. Geben Sie **Y** und drücken Sie `Enter` wenn Sie gefragt werden, ob Sie Studio jetzt starten möchten. Dadurch wird Unsloth auf Ihrem lokalen **8888** Port gestartet.

<figure><img src="/files/6337582368e5e994ddb66c8a622177d6c41fc7de" alt="" width="375"><figcaption></figcaption></figure>

{% hint style="info" %}
Wenn Sie sich entschieden haben, Unsloth während der Installation nicht zu starten, können Sie die Unsloth-App jederzeit mit `unsloth studio -p 8888` . Wenn Sie möchten, dass Ihre Unsloth-Instanz für Clients außerhalb Ihres PCs/Computers erreichbar ist, fügen Sie `-H 0.0.0.0` zum `unsloth studio` Befehl hinzu.
{% endhint %}

#### Schritt 2: Unsloth starten

Öffnen Sie Ihren bevorzugten Browser und geben Sie `http://127.0.0.1:8888`  in das URL-Feld ein. Wenn Sie Unsloth zum ersten Mal installieren, werden Sie zur Kennwortseite weitergeleitet, wo Sie ein neues Passwort erstellen müssen. Danach sollte Unsloth nun auf der Chat-Seite geöffnet werden, wie unten gezeigt.

<figure><img src="/files/3c82d946a8c4f751f5b7fbd693e1efe2cf2a63af" alt="" width="375"><figcaption></figcaption></figure>
{% endtab %}

{% tab title="Windows" %}

#### Schritt 1: Unsloth einrichten

Öffnen Sie das Startmenü, suchen Sie nach `PowerShell`und starten Sie es. Kopieren Sie den Installationsbefehl und geben Sie ihn ein:

```powershell
irm https://unsloth.ai/install.ps1 | iex
```

die Installation beginnt automatisch. Nach Abschluss der Installation fragt PowerShell, ob Sie Unsloth Studio starten möchte&#x6E;**.**

<figure><img src="/files/6337582368e5e994ddb66c8a622177d6c41fc7de" alt="" width="375"><figcaption></figcaption></figure>

Sie können es auch mit dem folgenden Befehl starten:

```bash
unsloth studio -H 0.0.0.0 -p 8888
```

{% hint style="info" %}
Wenn Sie möchten, dass Ihre Instanz für Clients außerhalb Ihres PCs/Computers erreichbar ist.\
Fügen Sie `-H 0.0.0.0` zum `unsloth studio` Befehl hinzu.
{% endhint %}

#### Schritt 2: Unsloth starten

Öffnen Sie `http://127.0.0.1:8888` in Ihrem Browser. Erstellen Sie beim ersten Start ein neues Passwort, um zur Chat-Seite fortzufahren. **Unsloth Studio** ist jetzt installiert und einsatzbereit.

<figure><img src="/files/3c82d946a8c4f751f5b7fbd693e1efe2cf2a63af" alt="" width="375"><figcaption></figcaption></figure>
{% endtab %}

{% tab title="Linux, WSL" %}

#### Schritt 1: Unsloth einrichten

{% tabs %}
{% tab title="Linux" %}
Öffnen Sie Ihre Terminal-Anwendung. Sie können sie starten, indem Sie `Ctrl + Alt + T`oder indem Sie nach `Terminal` im Anwendungsmenü Ihres Systems suchen.
{% endtab %}

{% tab title="WSL" %}
Klicken Sie auf das Windows-Startmenü, geben Sie den Namen Ihrer installierten Distribution ein (z. B. `Ubuntu`), und öffnen Sie sie dann.

{% hint style="warning" %}
Bei **WSL**stellen Sie sicher, dass Ihre **NVIDIA-Treiber** auf **Windows** (nicht in WSL) installiert sind und dass das **CUDA-Toolkit** in Ihrer WSL-Distribution installiert ist. Weitere Details finden Sie unten unter den Systemanforderungen.
{% endhint %}
{% endtab %}
{% endtabs %}

Zum Installieren kopieren und führen Sie den Installationsbefehl aus:

```bash
curl -fsSL https://unsloth.ai/install.sh | sh
```

Dann:

1. Klicken Sie in das Terminalfenster
2. Fügen Sie den Befehl mit `Ctrl + Shift + V`
3. Drücken Sie `Enter`

Unsloth beginnt wie unten gezeigt mit der Einrichtung der Umgebung und der Installation der erforderlichen Pakete. Geben Sie **Y** und drücken Sie `Enter` wenn Sie gefragt werden, ob Sie Studio jetzt starten möchten. Dadurch wird Unsloth auf Ihrem lokalen **8888** Port gestartet.

<figure><img src="/files/60186603d4e3143e8206b08cac871169665f0eb5" alt=""><figcaption></figcaption></figure>

{% hint style="info" %}
Wenn Sie sich entschieden haben, Unsloth während der Installation nicht zu starten, können Sie die Unsloth-App jederzeit mit `unsloth studio -p 8888` . Wenn Sie möchten, dass Ihre Unsloth-Instanz für Clients außerhalb Ihres PCs/Computers erreichbar ist, fügen Sie `-H 0.0.0.0` zum `unsloth studio` Befehl hinzu.
{% endhint %}

#### Schritt 2: Unsloth starten

Öffnen Sie Ihren bevorzugten Browser und geben Sie `http://127.0.0.1:8888`  in das URL-Feld ein. Wenn Sie Unsloth zum ersten Mal installieren, werden Sie zur Kennwortseite weitergeleitet, wo Sie ein neues Passwort erstellen müssen. Danach sollte Unsloth nun auf der Chat-Seite geöffnet werden, wie unten gezeigt.

<figure><img src="/files/fab3a64e6e14bb8ee47919b963bf11d7da3202ee" alt="" width="375"><figcaption></figcaption></figure>
{% endtab %}
{% endtabs %}

### Leitfaden zum Laden von Modellen + API

{% stepper %}
{% step %}

#### Modell auswählen

Bevor Sie die API verwenden, laden Sie ein Modell aus dem **Modell auswählen** Dropdown-Menü in der oberen linken Ecke der Chat-Seite.

<figure><img src="/files/35a6966ece42497bdc299b98050269c7636c7c98" alt=""><figcaption></figcaption></figure>

In diesem Leitfaden verwenden wir: `unsloth/gemma-4-26B-A4B-it-GGUF` mit der empfohlenen `UD-Q4_K_XL` Quantisierung.
{% endstep %}

{% step %}

#### Modell testen

Bevor Sie den Client verwenden, senden Sie eine kurze Nachricht:

<div data-with-frame="true"><figure><img src="/files/245fe14776c68639a801acfab0d58e75d6cf1ce4" alt="" width="563"><figcaption></figcaption></figure></div>

{% hint style="info" %}
Dies bestätigt, dass das Modell korrekt geladen wurde und bereit ist zu antworten.
{% endhint %}
{% endstep %}

{% step %}

#### **Unsloth-API-Schlüssel**

Öffnen Sie in Studio **Einstellungen → API** um deinen API-Schlüssel anzuzeigen oder zu erstellen.

<figure><img src="/files/96dbb4b6e52ce8bc33d050cacf1e90d03b66c1ae" alt=""><figcaption></figcaption></figure>

Behandeln Sie Ihren API-Schlüssel wie ein Passwort und vermeiden Sie, ihn in Screenshots oder Repositories offenzulegen.
{% endstep %}
{% endstepper %}

## ⚙️ Claude Code verbinden

Jetzt, da wir das lokale LLM für Claude Code eingerichtet haben, konfigurieren wir Claude Code so, dass es mit Unsloth oder llama.cpp funktioniert. Wir beginnen damit, die folgenden Umgebungsvariablen zu setzen. Diese Variablen bleiben standardmäßig nicht über Sitzungen hinweg erhalten.&#x20;

{% tabs %}
{% tab title="macOS, Linux, WSL" %}
**Konfiguration:** Setze die lokale API-URL:

```bash
export ANTHROPIC_BASE_URL="http://localhost:8888"
```

Kopiere deinen Schlüssel aus Unsloth Studio → Einstellungen → API (oder aus der Konsole, wenn du es mit `unsloth run`, wo er als `sk-unsloth-...`) angezeigt wird, und setze ihn dann. Setze außerdem ein leeres `ANTHROPIC_API_KEY` damit Claude Code nicht nach einem Cloud-Schlüssel fragt:

```bash
export ANTHROPIC_API_KEY=""
```

Optional: Verwende den Namen des aktuell in Unsloth geladenen Modells als Standard.

```bash
export ANTHROPIC_MODEL="unsloth/gemma-4-26B-A4B-it-GGUF"
```

Verwende die vollständige Modell-ID genau so, wie sie in `GET http://localhost:8888/v1/models` (denselben String, den du an `claude --model`).
{% endtab %}

{% tab title="Windows" %}
**Konfiguration:** Setze die lokale API-URL in PowerShell:

```powershell
$env:ANTHROPIC_BASE_URL = "http://localhost:8888"
```

Kopiere deinen Schlüssel aus **Unsloth Studio → Einstellungen → API**, dann setze ihn:

```powershell
$env:ANTHROPIC_AUTH_TOKEN = "sk-unsloth-xxxxxxxxxxxx"
```

**Optional:** Verwende den Namen des aktuell in Unsloth geladenen Modells, um ihn als Standard zu setzen.

```powershell
$env:ANTHROPIC_MODEL = "gemma-4-26B-A4B-it-GGUF"
```

{% hint style="info" %}
Der Modellname sollte das Modell sein, das derzeit in Unsloth Studio geladen ist.&#x20;
{% endhint %}
{% endtab %}
{% endtabs %}

### Claude Code starten

Starte Claude Code mit dem derzeit in Unsloth geladenen Modell.

Wir verwenden `gemma-4-26B-A4B-it-GGUF`, aber du kannst jedes mit Unsloth kompatible Modell verwenden.&#x20;

```shellscript
claude --model unsloth/gemma-4-26B-A4B-it-GGUF
```

{% hint style="info" %}
Für einen zusätzlichen Geschwindigkeits-Boost bei lokalen Modellen kannst du auch mit `--bare --exclude-dynamic-system-prompt-sections`. Siehe unten Optional: System-Prompt verkleinern.
{% endhint %}

Claude Code sollte das ausgewählte Modell öffnen und anzeigen.

<figure><img src="/files/754efbbba589910e6ca1eed3af043812cac256e9" alt=""><figcaption></figcaption></figure>

{% hint style="warning" %}
Siehe [#fixing-90-slower-inference-in-claude-code](#fixing-90-slower-inference-in-claude-code "mention") zuerst, um offene Modelle zu beheben, die aufgrund der KV-Cache-Invalidierung 90 % langsamer sind.
{% endhint %}

Probiere diesen Prompt aus, um hochwertige SFT-Datensätze zu recherchieren und zu ranken.

{% code overflow="wrap" %}

```
Du darfst nur in project/ arbeiten. Suche nicht nach CLAUDE.md — das ist es. Verwende die Websuche, um 10 echte Instruktions-/Chat-/SFT-Datensätze auf Hugging Face zu finden, fasse deine Ergebnisse kurz zusammen und erkläre bei der Recherche, warum jeder Datensatz für SFT relevant ist; erstelle dann sft_report.md als einen ausgefeilten Markdown-Bericht mit dem Rang, dem Datensatznamen, dem Ersteller, 3–5 relevanten Tags, einer kurzen Zusammenfassung in einfachem Englisch und warum er für SFT nützlich ist. Halte alles knapp und gut lesbar, ohne riesige Metadaten-Dumps, eingefügte Rohbeschreibungen, übergroße Tag-Listen oder irrelevante Datensätze. Die Aufgabe ist abgeschlossen, sobald sft_report.md 10 saubere, gut geschriebene Datensatzeinträge enthält, und beende mit: „Erfolgreich ein Modell mit Unsloth feinabgestimmt!“
```

{% endcode %}

Nachdem du den Prompt abgesendet hast, wird der Agent das Web durchsuchen, die Ergebnisse bewerten und den endgültigen Bericht schreiben. Das kann ein paar Minuten dauern.

Einige Workflows erfordern möglicherweise, dass du Aktionen genehmigst oder Anschlussfragen beantwortest.

<figure><img src="/files/d7273f89484e689eba23f584ac8357b9958e556b" alt="" width="563"><figcaption></figcaption></figure>

{% hint style="info" %}
Einige Workflows erfordern möglicherweise, dass du Aktionen genehmigst oder Anschlussfragen beantwortest.
{% endhint %}

Sobald abgeschlossen, wird die generierte `sft_report.md` ähnlich aussehen.

<figure><img src="/files/53c1eee2d5dd765686fe47c37e14eaecde8352ab" alt="" width="375"><figcaption></figcaption></figure>

{% hint style="warning" %}
Wenn du `Verbindung zur API nicht möglich (ConnectionRefused)` , denke daran, `ANTHROPIC_BASE_URL`  via `unset ANTHROPIC_BASE_URL`

Wenn du feststellst, dass offene Modelle 90 % langsamer sind, [sieh dir zuerst hier](#fixing-90-slower-inference-in-claude-code) an, um die Ungültigmachung des KV-Caches zu beheben.
{% endhint %}

### Optional: System-Prompt verkleinern

Claude Code wurde für die von Anthropic gehosteten Modelle entwickelt, daher ist sein Standard-System-Prompt groß. Bei lokalen Modellen kannst du ihn verkürzen, um schnellere Antworten und eine bessere KV-Cache-Wiederverwendung zu erhalten, indem du beim Starten zwei Flags hinzufügst:

{% code overflow="wrap" %}

```shellscript
claude --model unsloth/gemma-4-26B-A4B-it-GGUF --bare --exclude-dynamic-system-prompt-sections
```

{% endcode %}

{% hint style="info" %}
`--bare` überspringt die automatische Erkennung von Hooks, Skills, Plugins, MCP-Servern und CLAUDE.md (Claude behält Bash sowie Datei-Lesen/-Bearbeiten), und `--exclude-dynamic-system-prompt-sections` verschiebt maschinenspezifische Abschnitte aus dem Prompt-Präfix. Beides verkleinert den Prompt und verbessert die KV-Cache-Wiederverwendung, was lokale Modelle spürbar schneller macht. Sie sind optional und ändern die oben genannte Verbindungseinrichtung nicht.
{% endhint %}

### Optional: den Unsloth-Server anpassen

Claude Code verwendet das in Unsloth laufende Modell. Du kannst beim Start konfigurieren, wie sich der Server verhält.

```bash
# Für einen Coding-Agenten bereitstellen: --disable-tools reicht die eigenen Tools des Agents durch
unsloth run \
  --model unsloth/gemma-4-26B-A4B-it-GGUF \

  --disable-tools \

  --reasoning off \
  -p 8888
```

{% hint style="warning" %}
Verwende `--disable-tools` wenn du Claude Code (oder einen anderen externen Coding-Agenten) steuerst. Standardmäßig führt Unsloth Studio seine eigenen serverseitigen Tools aus, die die Tool-Aufrufe des Agents verschlucken, sodass Claude Code antwortet, aber nie Dateien bearbeitet. `--disable-tools` wechselt zu Durchreichmodus, sodass die Write/Edit/Bash-Tools von Claude Code selbst verwendet werden.
{% endhint %}

Verwende `--reasoning off` um das Denken auszuschalten, oder `--reasoning on` um es für Modelle einzuschalten, die Reasoning unterstützen.

```bash
# API im lokalen Netzwerk freigeben
unsloth run \
  --model unsloth/gemma-4-26B-A4B-it-GGUF \

  -H 0.0.0.0 \
  -p 8888
```

Dadurch startet der Server auf `0.0.0.0:8888`, sodass andere Geräte in deinem lokalen Netzwerk verbinden können.

Verwende `-p` um zu ändern, auf welchem Port der Server läuft. Verwende `-H 0.0.0.0` wenn du möchtest, dass Telefone, Laptops oder andere Geräte in deinem Netzwerk verbunden werden können.

Weitere erweiterte Laufzeitkonfigurationen findest du im Hauptabschnitt [API-Anpassung](https://unsloth.ai/docs/basics/api#unsloth-run-command) .

## 🦙 Llama.cpp-Tutorial

Bevor wir beginnen, müssen wir zunächst die Einrichtung für das spezifische Modell abschließen, das Sie verwenden werden. Wir verwenden `llama.cpp` das ist ein Open-Source-Framework zum Ausführen von LLMs auf deinen Mac-, Linux-, Windows- usw\.-Geräten. Llama.cpp enthält `llama-server` das es dir ermöglicht, LLMs effizient zu betreiben und bereitzustellen. Das Modell wird auf Port 8001 bereitgestellt, wobei alle Agent-Tools über einen einzigen OpenAI-kompatiblen Endpunkt geleitet werden.

#### Qwen3.5-Tutorial

Wir werden [Qwen3.5](/docs/de/modelle/qwen3.5.md)-35B-A3B und spezifische Einstellungen für schnelle, präzise Coding-Aufgaben verwenden. Wenn du nicht genug VRAM hast und ein **intelligenteres** Modell **Qwen3.5-27B** ist eine großartige Wahl, aber es wird etwa 2x langsamer sein, oder du kannst andere Qwen3.5-Varianten wie 9B, 4B oder 2B verwenden.

{% hint style="info" %}
Verwende Qwen3.5-27B, wenn du ein **intelligenteres** Modell möchtest oder nicht genug VRAM hast. Allerdings ist es etwa 2x langsamer als 35B-A3B. Oder du kannst [**Qwen3-Coder-Next**](/docs/de/modelle/qwen3-coder-next.md) verwenden, was fantastisch ist, wenn du genug VRAM hast.
{% endhint %}

{% stepper %}
{% step %}

#### llama.cpp installieren

Wir müssen installieren `llama.cpp` um lokale LLMs bereitzustellen/zu betreiben, die in Claude Code usw. verwendet werden. Wir folgen den offiziellen Build-Anweisungen für korrekte GPU-Bindings und maximale Leistung. Ändere `-DGGML_CUDA=ON` zu `-DGGML_CUDA=OFF` wenn Sie keine GPU haben oder nur CPU-Inferenz möchten. **Für Apple-Mac-/Metal-Geräte**, setzen Sie `-DGGML_CUDA=OFF` und fahren Sie dann wie gewohnt fort – Metal-Unterstützung ist standardmäßig aktiviert.

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \\
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

<figure><img src="/files/9e02e015e443976792468a0e4d1e61f222e855b1" alt="" width="563"><figcaption></figcaption></figure>
{% endstep %}

{% step %}

#### Modelle lokal herunterladen und verwenden

Lade das Modell herunter über `huggingface_hub` in Python (nach der Installation über `pip install huggingface_hub hf_transfer`). Wir verwenden die **UD-Q4\_K\_XL** Quantisierung für das beste Verhältnis von Größe und Genauigkeit. Alle Unsloth-GGUF-Uploads findest du in unserer [Sammlung hier](/docs/de/loslegen/unsloth-model-catalog.md). Wenn Downloads hängen bleiben, siehe [Hugging Face Hub, XET-Debugging](/docs/de/grundlagen/troubleshooting-and-faqs/hugging-face-hub-xet-debugging.md)

```bash
hf download unsloth/Qwen3.5-35B-A3B-GGUF \\
    --local-dir unsloth/Qwen3.5-35B-A3B-GGUF \\
    --include "*UD-Q4_K_XL*" # Verwenden Sie "*UD-Q2_K_XL*" für dynamisches 2-Bit
```

<figure><img src="/files/b045ea7c36778d9bcfb8acba28dbccaa7ed22de6" alt=""><figcaption></figcaption></figure>

{% hint style="success" %}
Wir haben `unsloth/Qwen3.5-35B-A3B-GGUF` , aber du kannst eine andere Variante wie 27B oder ein anderes Modell wie `unsloth/`[`Qwen3-Coder-Next`](/docs/de/modelle/qwen3-coder-next.md)`-GGUF`.
{% endhint %}

<figure><img src="/files/77c71a7eb85cb947c1602c6558df47b7e4f957eb" alt="" width="563"><figcaption></figcaption></figure>
{% endstep %}

{% step %}

#### Starte den Llama-Server

Um Qwen3.5 für agentische Workloads bereitzustellen, verwenden wir `llama-server`. Wir wenden [Qwens empfohlene Sampling-Parameter](/docs/de/modelle/qwen3.5.md#recommended-settings) für den Denkmodus an: `temp 0.6`, `top_p 0.95` , `top-k 20`. Beachte, dass sich diese Werte ändern, wenn du Nicht-Denkmodus oder andere Aufgaben verwendest.

Führe diesen Befehl in einem neuen Terminal aus (verwende `tmux` oder öffne ein neues Terminal). Das Folgende sollte **passt perfekt in eine 24-GB-GPU (RTX 4090) (verwendet 23 GB)** `--fit auf` wird auch automatisch auslagern, aber wenn du schlechte Leistung bemerkst, reduziere `--ctx-size` .

{% hint style="info" %}
Wir haben `--cache-type-k q8_0 --cache-type-v q8_0` für die KV-Cache-Quantisierung zur Reduzierung des VRAM-Bedarfs. Für volle Präzision verwende `--cache-type-k bf16 --cache-type-v bf16` . Hinweis: Der bf16-KV-Cache kann auf manchen Maschinen etwas langsamer sein.
{% endhint %}

```bash
./llama.cpp/llama-server \\
    --model unsloth/Qwen3.5-35B-A3B-GGUF/Qwen3.5-35B-A3B-UD-Q4_K_XL.gguf \\
    --alias "unsloth/Qwen3.5-35B-A3B" \\
    --temp 0.6 \
    --top-p 0.95 \\
    --top-k 20 \
    --min-p 0.00 \
    --port 8001 \
    --kv-unified \
    --cache-type-k q8_0 --cache-type-v q8_0
```

{% hint style="success" %}
Du kannst das Denken für Qwen3.5 auch deaktivieren, was die Leistung bei agentischen Coding-Aufgaben verbessern kann. Um das Denken mit llama.cpp zu deaktivieren, füge dies zum llama-server-Befehl hinzu:

`--chat-template-kwargs "{\"enable_thinking\": false}"`

<img src="/files/97cefe30500398f36322e3abca6ac84ae206c488" alt="" data-size="original">
{% endhint %}
{% endstep %}
{% endstepper %}

### Claude Code mit llama-server starten

{% hint style="success" %}
Wir haben `unsloth/GLM-4.7-Flash-GGUF` , aber du kannst auch alles verwenden wie `unsloth/Qwen3.6-27B-GGUF`.
{% endhint %}

{% hint style="warning" %}
Siehe [#fixing-90-slower-inference-in-claude-code](#fixing-90-slower-inference-in-claude-code "mention") zuerst, um offene Modelle zu beheben, die aufgrund der KV-Cache-Invalidierung 90 % langsamer sind.
{% endhint %}

Navigiere zu deinem Projektordner (`mkdir project ; cd project`) und führe aus:

```bash
claude --model unsloth/GLM-4.7-Flash
```

Um Qwen3.6-35B-A3B zu verwenden, ändere es einfach zu:

```bash
claude --model unsloth/Qwen3.6-35B-A3B
```

<div data-with-frame="true"><figure><img src="/files/a527b9eda682e762510bcc0ac431ea8092f0e51a" alt="" width="563"><figcaption></figcaption></figure></div>

Um Claude Code so einzustellen, dass Befehle ohne jegliche Genehmigungen ausgeführt werden, tue Folgendes **(VORSICHT: Dadurch führt Claude Code Code aus und erledigt ihn, wie es ihm gefällt, ohne jegliche Genehmigungen!)**

{% code overflow="wrap" %}

```bash
claude --model unsloth/GLM-4.7-Flash --dangerously-skip-permissions
```

{% endcode %}

Probiere diesen Prompt aus, um ein einfaches Unsloth-Finetuning zu installieren und auszuführen:

{% code overflow="wrap" %}

```
Du darfst nur im aktuellen Arbeitsverzeichnis project/ arbeiten. Suche nicht nach CLAUDE.md - das ist es. Installiere Unsloth über eine virtuelle Umgebung mittels uv. Verwende `python -m venv unsloth_env` und dann, falls möglich, `source unsloth_env/bin/activate`. Siehe https://unsloth.ai/docs/get-started/install/pip-install dazu (hole es und lies es). Führe dann einen einfachen Unsloth-Finetuning-Lauf durch, wie in https://github.com/unslothai/unsloth beschrieben. Du hast Zugriff auf 1 GPU.
```

{% endcode %}

<div data-with-frame="true"><figure><img src="/files/e0a425cc7c492be7351cfc77d143adb530640a77" alt="" width="563"><figcaption></figcaption></figure></div>

Nach etwas Wartezeit wird Unsloth über uv in einer venv installiert und geladen:

<div data-with-frame="true"><figure><img src="/files/1872f761f8d387ce7f11b0a4624f30b618c23ed0" alt="" width="563"><figcaption></figcaption></figure></div>

und schließlich wirst du ein erfolgreich mit Unsloth feinabgestimmtes Modell sehen!

<div data-with-frame="true"><figure><img src="/files/b529ad04568468ccc24a43889b11ecace803a97d" alt="" width="563"><figcaption></figcaption></figure></div>

{% hint style="warning" %}
Wenn du `Verbindung zur API nicht möglich (ConnectionRefused)` , denke daran, `ANTHROPIC_BASE_URL`  via `unset ANTHROPIC_BASE_URL`

Wenn du feststellst, dass offene Modelle 90 % langsamer sind, [sieh dir zuerst hier](#fixing-90-slower-inference-in-claude-code) an, um die Ungültigmachung des KV-Caches zu beheben.
{% endhint %}

[^1]: Muss verwendet werden!


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/de/grundlagen/claude-code.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
