# Wie man lokale LLMs mit Claude Code ausführt

Diese Schritt-für-Schritt-Anleitung zeigt dir, wie du offene LLMs und APIs vollständig lokal mit Claude Code verbindest, inklusive Screenshots. Ausführen mit jedem offenen Modell wie Qwen3.6, DeepSeek und Gemma.

Für dieses Tutorial verwenden wir die offenen Modelle: [Gemma 4](/docs/de/modelle/gemma-4.md) und [Qwen3.5](/docs/de/modelle/qwen3.5.md) die starke agentische und Coding-Modelle sind (funktioniert auf Geräten mit 24 GB RAM/Unified Memory). Für die Inferenz verwenden wir [Unsloth Studio](https://github.com/unslothai/unsloth) und [`llama.cpp`](https://github.com/ggml-org/llama.cpp) ermöglicht es dir, LLMs auf macOS, Linux und Windows auszuführen/zu bedienen. Du kannst stattdessen [jedes andere Modell](/docs/de/modelle/tutorials.md), passe einfach die Modellnamen in deinen Skripten an.

<a href="/pages/d12c953ceacbd6c3e44f3aa911056928e0488f5b#claude-code-setup" class="button primary" data-icon="claude">Claude-Code-Einrichtung</a><a href="/pages/d12c953ceacbd6c3e44f3aa911056928e0488f5b#quickstart-tutorials" class="button primary">📖 Tutorial zur Einrichtung eines lokalen Modells</a>

Für Modell-Quants verwenden wir Unsloth [Dynamische GGUFs](/docs/de/grundlagen/unsloth-dynamic-2.0-ggufs.md) um jedes LLM quantisiert auszuführen und dabei so viel Genauigkeit wie möglich zu behalten.

## <i class="fa-claude">:claude:</i> Claude-Code-Einrichtung

Bevor wir unser lokales LLM einrichten, müssen wir Claude Code installieren. Claude Code ist ein terminalbasierter Coding-Agent, der deine Codebasis versteht und komplexe Git-Workflows mithilfe natürlicher Sprache verarbeitet.

{% tabs %}
{% tab title="macOS, Linux, WSL" %}

#### **Claude Code installieren:**

Zum Installieren von Claude Code in dein Terminal einfügen:

```bash
curl -fsSL https://claude.ai/install.sh | bash
```

Nach der Installation in deinen Projektordner navigieren. Dann tippe `claude` in die `Shell` um zu beginnen.

```bash
cd ~/projects/my-project 
claude
```

{% endtab %}

{% tab title="Windows" %}

#### **Claude Code installieren:**

Gib in `PowerShell` ein, um Claude Code zu installieren:

```powershell
irm https://claude.ai/install.ps1 | iex
```

Nach der Installation in deinen Projektordner navigieren. Dann tippe `claude` in die `powershell` um zu beginnen.

<pre class="language-powershell"><code class="lang-powershell"><strong>cd /pfad/zu/deinem/projekt
</strong>claude
</code></pre>

<div data-with-frame="true"><figure><img src="/files/dc60e37e6bd78543c5dcf44efe33f0dedd4500e7" alt="" width="563"><figcaption></figcaption></figure></div>
{% endtab %}
{% endtabs %}

### :detective:90 % langsamere Inferenz in Claude Code beheben

{% hint style="warning" %}
Claude Code fügt kürzlich einen Claude Code Attribution-Header voran und hinzu, was **den KV-Cache ungültig macht und die Inferenz mit lokalen Modellen um 90 % verlangsamt**.
{% endhint %}

Um das zu beheben, bearbeite `~/.claude/settings.json` um `CLAUDE_CODE_ATTRIBUTION_HEADER` zu enthalten und setze es innerhalb von `"env"`

{% hint style="info" %}
Die Verwendung von `export CLAUDE_CODE_ATTRIBUTION_HEADER=0` **FUNKTIONIERT NICHT** !
{% endhint %}

Zum Beispiel so `cat > ~/.claude/settings.json` und dann füge das Folgende hinzu (nach dem Einfügen ENTER und dann CTRL+D drücken, um es zu speichern). Wenn du bereits eine `~/.claude/settings.json` Datei hast, füge einfach `"CLAUDE_CODE_ATTRIBUTION_HEADER" : "0"` zum Abschnitt "env" hinzu und lasse den Rest der Einstellungsdatei unverändert.

<pre class="language-json"><code class="lang-json">{
  "promptSuggestionEnabled": false,
  "env": {
    "CLAUDE_CODE_ENABLE_TELEMETRY": "0",
    "CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1",
    <a data-footnote-ref href="#user-content-fn-1">"CLAUDE_CODE_ATTRIBUTION_HEADER" : "0"</a>
  },
  "attribution": {
    "commit": "",
    "pr": ""
  },
  "plansDirectory" : "./plans",
  "prefersReducedMotion" : true,
  "terminalProgressBarEnabled" : false,
  "effortLevel" : "high"
}
</code></pre>

## 📖 Schnellstart-Tutorials

{% columns %}
{% column %}
Bevor wir beginnen, müssen wir zunächst die Einrichtung für das spezifische Modell abschließen, das du verwenden wirst. Wir verwenden [Unsloth](/docs/de/neu/studio.md) (eine Web-UI) und llama.cpp, beides Open-Source-Frameworks zum Ausführen und Bereitstellen von LLMs auf deinen Mac-, Linux- und Windows-Geräten.

Unsloth verfügt außerdem über einzigartige Selbstheilungs- [Tool-Aufruf](/docs/de/neu/studio/chat.md#auto-healing-tool-calling) und [Websuche](/docs/de/neu/studio/chat.md#code-execution) Funktionen. Sieh rechts Claude Code, verbunden mit Unsloth:
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/4d7f67e24fb64209883a9782fb1c8e4d7782a66f" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

<a href="/pages/d12c953ceacbd6c3e44f3aa911056928e0488f5b#connect-claude-code" class="button primary" data-icon="claude">Claude Code verbinden</a><a href="/pages/d12c953ceacbd6c3e44f3aa911056928e0488f5b#unsloth-tutorial" class="button primary">🦥 Unsloth-Tutorial</a><a href="/pages/d12c953ceacbd6c3e44f3aa911056928e0488f5b#llama.cpp-tutorial" class="button primary"> llama.cpp-Tutorial</a>

## 🦥 Unsloth-Tutorial

Für dieses Tutorial werden wir lokale Modelle über eine UI mit Claude Code bereitstellen/verbinden, indem wir [Unsloth](https://github.com/unslothai/unsloth)verwenden. Unsloth funktioniert auf Windows, WSL, Linux und MacOS.&#x20;

{% columns %}
{% column %}

* Suchen, herunterladen, [GGUFs ausführen](/docs/de/neu/studio.md#run-models-locally) und Safetensor-Modelle
* [**Selbstheilendes** Tool-Calling](/docs/de/neu/studio.md#execute-code--heal-tool-calling) + **Websuche**
* [**Code-Ausführung**](/docs/de/neu/studio.md#run-models-locally) (Python, Bash)
* [Automatische Inferenz](/docs/de/neu/studio.md#model-arena) Parameterauswahl (temp, top-p usw.)
* Schnelle CPU-+GPU-Inferenz via llama.cpp
* [LLMs trainieren](/docs/de/neu/studio.md#no-code-training) 2x schneller mit 70% weniger VRAM

Siehe unten für Installationsanweisungen:
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/16c0b18ba770d26abf1c3a92209b60c094a825a0" alt=""><figcaption><p>Beispiel für Qwen3.6 2-bit, laufend in Unsloth.</p></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% tabs %}
{% tab title="MacOS" %}

#### Schritt 1: Unsloth einrichten

Starte das `Terminal` auf dem Mac und installiere dann Unsloth, indem du den folgenden Befehl eingibst.

```bash
curl -fsSL https://unsloth.ai/install.sh | sh
```

Unsloth beginnt nun wie unten gezeigt mit der Einrichtung der Umgebung und der Installation der erforderlichen Pakete. Tippe **Y** und drücke `Enter` wenn du gefragt wirst, ob Studio jetzt gestartet werden soll. Dadurch wird Unsloth auf deinem lokalen **8888** Port gestartet.

<figure><img src="/files/6337582368e5e994ddb66c8a622177d6c41fc7de" alt="" width="375"><figcaption></figcaption></figure>

{% hint style="info" %}
Wenn du dich während der Installation dagegen entschieden hast, Unsloth zu starten, kannst du die Unsloth-App jederzeit mit `unsloth studio -p 8888` starten. Wenn deine Unsloth-Instanz für Clients außerhalb deines PCs/Computers erreichbar sein soll, füge `-H 0.0.0.0` zum `unsloth studio` Befehl hinzu.
{% endhint %}

#### Schritt 2: Unsloth starten

Öffne deinen bevorzugten Browser und tippe `http://127.0.0.1:8888`  in das URL-Feld. Wenn dies deine erste Installation von Unsloth ist, wirst du zur Passwort-Seite weitergeleitet, wo du ein neues Passwort erstellen musst. Danach sollte Unsloth nun wie unten gezeigt auf der Chat-Seite geöffnet werden.

<figure><img src="/files/3c82d946a8c4f751f5b7fbd693e1efe2cf2a63af" alt="" width="375"><figcaption></figcaption></figure>
{% endtab %}

{% tab title="Windows" %}

#### Schritt 1: Unsloth einrichten

Öffne das Startmenü, suche nach `PowerShell`und starte es. Kopiere und gib den Installationsbefehl ein:

```powershell
irm https://unsloth.ai/install.ps1 | iex
```

die Installation beginnt automatisch. Nach Abschluss der Installation fragt PowerShell, ob du Unsloth Studio starten möchtes&#x74;**.**

<figure><img src="/files/6337582368e5e994ddb66c8a622177d6c41fc7de" alt="" width="375"><figcaption></figcaption></figure>

Du kannst es auch mit dem folgenden Befehl starten:

```bash
unsloth studio -H 0.0.0.0 -p 8888
```

{% hint style="info" %}
Wenn deine Instanz für Clients außerhalb deines PCs/Computers erreichbar sein soll.\
Füge `-H 0.0.0.0` zum `unsloth studio` Befehl hinzu.
{% endhint %}

#### Schritt 2: Unsloth starten

Öffne `http://127.0.0.1:8888` in deinem Browser. Beim ersten Start erstelle ein neues Passwort, um zur Chat-Seite fortzufahren. **Unsloth Studio** ist jetzt installiert und einsatzbereit.

<figure><img src="/files/3c82d946a8c4f751f5b7fbd693e1efe2cf2a63af" alt="" width="375"><figcaption></figcaption></figure>
{% endtab %}

{% tab title="Linux, WSL" %}

#### Schritt 1: Unsloth einrichten

{% tabs %}
{% tab title="Linux" %}
Öffne deine Terminal-Anwendung. Du kannst sie starten, indem du `Strg + Alt + T`drückst oder nach `Terminal` im Anwendungsmenü deines Systems suchst.
{% endtab %}

{% tab title="WSL" %}
Klicke auf das Windows-Startmenü, gib den Namen deiner installierten Distribution ein (z. B. `Ubuntu`) und öffne sie dann.

{% hint style="warning" %}
Auf **WSL**stelle sicher, dass deine **NVIDIA-Treiber** installiert sind auf **Windows** (nicht innerhalb von WSL) und dass das **CUDA-Toolkit** in deiner WSL-Distribution installiert ist. Siehe die Systemanforderungen unten für Details.
{% endhint %}
{% endtab %}
{% endtabs %}

Zum Installieren den Installationsbefehl kopieren und ausführen:

```bash
curl -fsSL https://unsloth.ai/install.sh | sh
```

Dann:

1. Klicke in das Terminalfenster
2. Füge den Befehl mit `Strg + Umschalt + V`
3. ein `Enter`

Unsloth beginnt nun wie unten gezeigt mit der Einrichtung der Umgebung und der Installation der erforderlichen Pakete. Tippe **Y** und drücke `Enter` wenn du gefragt wirst, ob Studio jetzt gestartet werden soll. Dadurch wird Unsloth auf deinem lokalen **8888** Port gestartet.

<figure><img src="/files/ea07e1b505e0d11cc8f39b34d4df520d1d58fe0f" alt=""><figcaption></figcaption></figure>

{% hint style="info" %}
Wenn du dich während der Installation dagegen entschieden hast, Unsloth zu starten, kannst du die Unsloth-App jederzeit mit `unsloth studio -p 8888` starten. Wenn deine Unsloth-Instanz für Clients außerhalb deines PCs/Computers erreichbar sein soll, füge `-H 0.0.0.0` zum `unsloth studio` Befehl hinzu.
{% endhint %}

#### Schritt 2: Unsloth starten

Öffne deinen bevorzugten Browser und tippe `http://127.0.0.1:8888`  in das URL-Feld. Wenn dies deine erste Installation von Unsloth ist, wirst du zur Passwort-Seite weitergeleitet, wo du ein neues Passwort erstellen musst. Danach sollte Unsloth nun wie unten gezeigt auf der Chat-Seite geöffnet werden.

<figure><img src="/files/fab3a64e6e14bb8ee47919b963bf11d7da3202ee" alt="" width="375"><figcaption></figcaption></figure>
{% endtab %}
{% endtabs %}

### Anleitung zum Laden von Modellen + API

{% stepper %}
{% step %}

#### Modell auswählen

Bevor du die API verwendest, lade ein Modell aus dem **Modell auswählen** Dropdown-Menü in der oberen linken Ecke der Chat-Seite.

<figure><img src="/files/35a6966ece42497bdc299b98050269c7636c7c98" alt=""><figcaption></figcaption></figure>

In diesem Leitfaden verwenden wir: `unsloth/gemma-4-26B-A4B-it-GGUF` mit der empfohlenen `UD-Q4_K_XL` Quantisierung.
{% endstep %}

{% step %}

#### Modell testen

Bevor du den Client verwendest, sende eine kurze Nachricht:

<div data-with-frame="true"><figure><img src="/files/245fe14776c68639a801acfab0d58e75d6cf1ce4" alt="" width="563"><figcaption></figcaption></figure></div>

{% hint style="info" %}
Dies bestätigt, dass das Modell korrekt geladen wurde und bereit ist zu antworten.
{% endhint %}
{% endstep %}

{% step %}

#### **Unsloth-API-Schlüssel**

Öffne in Studio **Einstellungen → API** um deinen API-Schlüssel anzuzeigen oder zu erstellen.

<figure><img src="/files/96dbb4b6e52ce8bc33d050cacf1e90d03b66c1ae" alt=""><figcaption></figcaption></figure>

Behandle deinen API-Schlüssel wie ein Passwort und vermeide es, ihn in Screenshots oder Repositories offenzulegen.
{% endstep %}
{% endstepper %}

## ⚙️ Claude Code verbinden

Jetzt, da wir das lokale LLM für Claude Code eingerichtet haben, konfigurieren wir Claude Code so, dass es mit Unsloth oder llama.cpp funktioniert. Wir beginnen damit, die folgenden Umgebungsvariablen zu setzen. Diese Variablen bleiben standardmäßig nicht zwischen Sitzungen erhalten.&#x20;

{% tabs %}
{% tab title="MacOS, Linux, WSL" %}
**Konfiguration:** Setze die lokale API-URL:

```bash
export ANTHROPIC_BASE_URL="http://localhost:8888"
```

Kopiere deinen Schlüssel aus Unsloth Studio → Einstellungen → API und setze ihn dann:

```bash
export ANTHROPIC_AUTH_TOKEN="sk-unsloth-xxxxxxxxxxxx"
```

Optional: Verwende den Namen des aktuell in Unsloth geladenen Modells als Standard.

```bash
export ANTHROPIC_MODEL="gemma-4-26B-A4B-it-GGUF"
```

Der Modellname sollte mit dem aktuell in Unsloth Studio geladenen Modell übereinstimmen.
{% endtab %}

{% tab title="Windows" %}
**Konfiguration:** Setze die lokale API-URL in PowerShell:

```powershell
$env:ANTHROPIC_BASE_URL = "http://localhost:8888"
```

Kopiere deinen Schlüssel aus **Unsloth Studio → Einstellungen → API**, und setze ihn dann:

```powershell
$env:ANTHROPIC_AUTH_TOKEN = "sk-unsloth-xxxxxxxxxxxx"
```

**Optional:** Verwende den Namen des aktuell in Unsloth geladenen Modells, um ihn als Standard festzulegen.

```powershell
$env:ANTHROPIC_MODEL = "gemma-4-26B-A4B-it-GGUF"
```

{% hint style="info" %}
Der Modellname sollte das Modell sein, das derzeit in Unsloth Studio geladen ist.&#x20;
{% endhint %}
{% endtab %}
{% endtabs %}

### Claude Code starten

Starte Claude Code mit dem Modell, das derzeit in Unsloth geladen ist.

Wir werden `gemma-4-26B-A4B-it-GGUF`verwenden, aber du kannst jedes mit Unsloth kompatible Modell verwenden.&#x20;

```shellscript
claude --model unsloth/gemma-4-26B-A4B-it-GGUF
```

Claude Code sollte sich öffnen und das ausgewählte Modell anzeigen.

<figure><img src="/files/754efbbba589910e6ca1eed3af043812cac256e9" alt=""><figcaption></figcaption></figure>

{% hint style="warning" %}
Siehe [#fixing-90-slower-inference-in-claude-code](#fixing-90-slower-inference-in-claude-code "mention") zuerst, um zu beheben, dass offene Modelle aufgrund einer Ungültigmachung des KV-Caches um 90 % langsamer sind.
{% endhint %}

Probiere diesen Prompt aus, um hochwertige SFT-Datensätze zu recherchieren und zu ranken.

{% code overflow="wrap" %}

```
Du darfst nur in project/ arbeiten. Suche nicht nach CLAUDE.md — das ist es. Verwende Websuche, um 10 echte Instruction-/Chat-/SFT-Datensätze auf Hugging Face zu finden, fasse deine Ergebnisse kurz zusammen und erkläre bei der Recherche, warum jeder Datensatz für SFT relevant ist. Erstelle dann sft_report.md als ausgefeilten Markdown-Bericht mit Rang, Datensatzname, Ersteller, 3–5 relevanten Tags, einer kurzen Zusammenfassung in einfacher Sprache und warum er für SFT nützlich ist. Halte alles knapp und lesbar, ohne riesige Metadaten-Dumps, eingefügte Rohbeschreibungen, übergroße Tag-Listen oder irrelevante Datensätze. Die Aufgabe ist abgeschlossen, sobald sft_report.md 10 saubere, gut geschriebene Datensatzeinträge enthält, und beende mit: „Successfully finetuned a model with Unsloth!"
```

{% endcode %}

Nachdem du den Prompt gesendet hast, sucht der Agent im Web, bewertet die Ergebnisse und schreibt den endgültigen Bericht. Dies kann einige Minuten dauern.

Einige Workflows erfordern möglicherweise, dass du Aktionen genehmigst oder Folgeaufforderungen beantwortest.

<figure><img src="/files/d7273f89484e689eba23f584ac8357b9958e556b" alt="" width="563"><figcaption></figcaption></figure>

{% hint style="info" %}
Einige Workflows erfordern möglicherweise, dass du Aktionen genehmigst oder Folgeaufforderungen beantwortest.
{% endhint %}

Nach Abschluss wird die generierte `sft_report.md` ähnlich aussehen.

<figure><img src="/files/53c1eee2d5dd765686fe47c37e14eaecde8352ab" alt="" width="375"><figcaption></figcaption></figure>

{% hint style="warning" %}
Wenn du `Keine Verbindung zur API möglich (ConnectionRefused)` siehst, denke daran, `ANTHROPIC_BASE_URL`  über `unset ANTHROPIC_BASE_URL`

abzusetzen. Wenn du feststellst, dass offene Modelle 90 % langsamer sind, [sieh zuerst hier nach](#fixing-90-slower-inference-in-claude-code) um zu beheben, dass der KV-Cache ungültig gemacht wird.
{% endhint %}

## 🦙 Llama.cpp-Tutorial

Bevor wir beginnen, müssen wir zunächst die Einrichtung für das spezifische Modell abschließen, das du verwenden wirst. Wir verwenden `llama.cpp` das ein Open-Source-Framework zum Ausführen von LLMs auf deinen Geräten mit Mac, Linux, Windows usw. ist. Llama.cpp enthält `llama-server` das es dir ermöglicht, LLMs effizient bereitzustellen und zu deployen. Das Modell wird auf Port 8001 bereitgestellt, wobei alle Agent-Tools über einen einzigen OpenAI-kompatiblen Endpunkt geleitet werden.

#### Qwen3.5-Tutorial

Wir werden [Qwen3.5](/docs/de/modelle/qwen3.5.md)-35B-A3B und bestimmte Einstellungen für schnelle, präzise Coding-Aufgaben verwenden. Wenn du nicht genügend VRAM hast und ein **intelligenteres** model, **Qwen3.5-27B** möchtest, ist dies eine großartige Wahl, aber es wird etwa 2x langsamer sein, oder du kannst andere Qwen3.5-Varianten wie 9B, 4B oder 2B verwenden.

{% hint style="info" %}
Verwende Qwen3.5-27B, wenn du ein **intelligenteres** Modell möchtest oder wenn du nicht genügend VRAM hast. Es wird jedoch etwa 2x langsamer sein als 35B-A3B. Oder du kannst [**Qwen3-Coder-Next**](/docs/de/modelle/qwen3-coder-next.md) verwenden, das fantastisch ist, wenn du genügend VRAM hast.
{% endhint %}

{% stepper %}
{% step %}

#### llama.cpp installieren

Wir müssen `llama.cpp` installieren, um lokale LLMs bereitzustellen/zu bedienen, die in Claude Code usw. verwendet werden. Wir folgen den offiziellen Build-Anweisungen für korrekte GPU-Bindings und maximale Leistung. Ändere `-DGGML_CUDA=ON` zu `-DGGML_CUDA=OFF` wenn du keine GPU hast oder nur CPU-Inferenz möchtest. **Für Apple Mac / Metal-Geräte**, setze `-DGGML_CUDA=OFF` und fahre dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

<figure><img src="/files/9e02e015e443976792468a0e4d1e61f222e855b1" alt="" width="563"><figcaption></figcaption></figure>
{% endstep %}

{% step %}

#### Modelle lokal herunterladen und verwenden

Lade das Modell über `huggingface_hub` in Python herunter (nach der Installation via `pip install huggingface_hub hf_transfer`). Wir verwenden das **UD-Q4\_K\_XL** Quant für die beste Balance zwischen Größe und Genauigkeit. Du findest alle Unsloth-GGUF-Uploads in unserer [Sammlung hier](/docs/de/loslegen/unsloth-model-catalog.md). Wenn Downloads hängen bleiben, siehe [Hugging Face Hub, XET-Debugging](/docs/de/grundlagen/troubleshooting-and-faqs/hugging-face-hub-xet-debugging.md)

```bash
hf download unsloth/Qwen3.5-35B-A3B-GGUF \
    --local-dir unsloth/Qwen3.5-35B-A3B-GGUF \
    --include "*UD-Q4_K_XL*" # Verwende "*UD-Q2_K_XL*" für Dynamic 2bit
```

<figure><img src="/files/b045ea7c36778d9bcfb8acba28dbccaa7ed22de6" alt=""><figcaption></figcaption></figure>

{% hint style="success" %}
Wir haben `unsloth/Qwen3.5-35B-A3B-GGUF` verwendet, aber du kannst eine andere Variante wie 27B oder ein anderes Modell wie `unsloth/`[`Qwen3-Coder-Next`](/docs/de/modelle/qwen3-coder-next.md)`-GGUF`.
{% endhint %}

<figure><img src="/files/77c71a7eb85cb947c1602c6558df47b7e4f957eb" alt="" width="563"><figcaption></figcaption></figure>
{% endstep %}

{% step %}

#### Llama-Server starten

Um Qwen3.5 für agentische Workloads bereitzustellen, verwenden wir `llama-server`. Wir wenden [die von Qwen empfohlenen Sampling-Parameter](/docs/de/modelle/qwen3.5.md#recommended-settings) für den Denkmodus an: `temp 0.6`, `top_p 0.95` , `top-k 20`. Beachte, dass sich diese Werte ändern, wenn du Nicht-Denkmodus oder andere Aufgaben verwendest.

Führe diesen Befehl in einem neuen Terminal aus (verwende `tmux` oder öffne ein neues Terminal). Das Folgende sollte **perfekt in eine 24-GB-GPU (RTX 4090) passen (verwendet 23 GB)** `--fit on` wird ebenfalls automatisch auslagern, aber wenn du schlechte Leistung siehst, reduziere `--ctx-size` .

{% hint style="info" %}
Wir haben `--cache-type-k q8_0 --cache-type-v q8_0` für KV-Cache-Quantisierung zur geringeren VRAM-Nutzung. Für volle Präzision verwende `--cache-type-k bf16 --cache-type-v bf16` . Hinweis: bf16 KV Cache könnte auf einigen Maschinen etwas langsamer sein.
{% endhint %}

```bash
./llama.cpp/llama-server \
    --model unsloth/Qwen3.5-35B-A3B-GGUF/Qwen3.5-35B-A3B-UD-Q4_K_XL.gguf \
    --alias "unsloth/Qwen3.5-35B-A3B" \
    --temp 0.6 \\
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00 \
    --port 8001 \
    --kv-unified \
    --cache-type-k q8_0 --cache-type-v q8_0
```

{% hint style="success" %}
Du kannst bei Qwen3.5 auch das Denken deaktivieren, was die Leistung bei agentischem Coding verbessern kann. Um das Denken mit llama.cpp zu deaktivieren, füge dies dem llama-server-Befehl hinzu:

`--chat-template-kwargs "{\"enable_thinking\": false}"`

<img src="/files/97cefe30500398f36322e3abca6ac84ae206c488" alt="" data-size="original">
{% endhint %}
{% endstep %}
{% endstepper %}

### Claude Code mit llama-server starten

{% hint style="success" %}
Wir haben `unsloth/GLM-4.7-Flash-GGUF` verwenden, aber du kannst alles wie `unsloth/Qwen3.6-27B-GGUF`.
{% endhint %}

{% hint style="warning" %}
Siehe [#fixing-90-slower-inference-in-claude-code](#fixing-90-slower-inference-in-claude-code "mention") zuerst, um zu beheben, dass offene Modelle aufgrund einer Ungültigmachung des KV-Caches um 90 % langsamer sind.
{% endhint %}

Verlasse dich in deinen Projektordner (`mkdir project ; cd project`) und führe aus:

```bash
claude --model unsloth/GLM-4.7-Flash
```

Um Qwen3.6-35B-A3B zu verwenden, ändere es einfach zu:

```bash
claude --model unsloth/Qwen3.6-35B-A3B
```

<div data-with-frame="true"><figure><img src="/files/a527b9eda682e762510bcc0ac431ea8092f0e51a" alt="" width="563"><figcaption></figcaption></figure></div>

Um Claude Code so einzustellen, dass Befehle ohne jegliche Genehmigungen ausgeführt werden, mache **(ACHTUNG: Dadurch wird Claude Code Code beliebig ausführen und verarbeiten, ohne irgendwelche Genehmigungen!)**

{% code overflow="wrap" %}

```bash
claude --model unsloth/GLM-4.7-Flash --dangerously-skip-permissions
```

{% endcode %}

Probiere diesen Prompt aus, um ein einfaches Unsloth-Finetuning zu installieren und auszuführen:

{% code overflow="wrap" %}

```
Du darfst nur im aktuellen Arbeitsverzeichnis project/ arbeiten. Suche nicht nach CLAUDE.md - das ist es. Installiere Unsloth über eine virtuelle Umgebung via uv. Verwende `python -m venv unsloth_env` und dann `source unsloth_env/bin/activate`, wenn möglich. Siehe https://unsloth.ai/docs/get-started/install/pip-install, wie das geht (hole es und lies es). Führe dann einen einfachen Unsloth-Finetuning-Lauf durch, wie in https://github.com/unslothai/unsloth beschrieben. Du hast Zugriff auf 1 GPU.
```

{% endcode %}

<div data-with-frame="true"><figure><img src="/files/e0a425cc7c492be7351cfc77d143adb530640a77" alt="" width="563"><figcaption></figcaption></figure></div>

Nach kurzem Warten wird Unsloth in einer venv via uv installiert und geladen:

<div data-with-frame="true"><figure><img src="/files/1872f761f8d387ce7f11b0a4624f30b618c23ed0" alt="" width="563"><figcaption></figcaption></figure></div>

und schließlich wirst du ein erfolgreich mit Unsloth feinabgestimmtes Modell sehen!

<div data-with-frame="true"><figure><img src="/files/b529ad04568468ccc24a43889b11ecace803a97d" alt="" width="563"><figcaption></figcaption></figure></div>

{% hint style="warning" %}
Wenn du `Keine Verbindung zur API möglich (ConnectionRefused)` siehst, denke daran, `ANTHROPIC_BASE_URL`  über `unset ANTHROPIC_BASE_URL`

abzusetzen. Wenn du feststellst, dass offene Modelle 90 % langsamer sind, [sieh zuerst hier nach](#fixing-90-slower-inference-in-claude-code) um zu beheben, dass der KV-Cache ungültig gemacht wird.
{% endhint %}

[^1]: Muss verwendet werden!


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/de/grundlagen/claude-code.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
