# Wie man lokale LLMs mit Claude Code ausführt

Diese Schritt-für-Schritt-Anleitung zeigt Ihnen, wie Sie offene LLMs und APIs vollständig lokal mit Claude Code verbinden, inklusive Screenshots. Führen Sie es mit jedem offenen Modell wie Qwen3.5, DeepSeek und Gemma aus.

Für dieses Tutorial verwenden wir [**Qwen3.5**](/docs/de/modelle/qwen3.5.md) und [GLM-4.7-Flash](/docs/de/modelle/glm-4.7-flash.md). Beide sind Stand März 2026 die stärksten 35B MoE agentischen & Coding-Modelle (die auf einem Gerät mit 24 GB RAM/unified mem gut funktionieren), um ein LLM autonom mit [Unsloth](https://github.com/unslothai/unsloth). Sie können [jedes andere Modell](/docs/de/modelle/tutorials.md)einsetzen, aktualisieren Sie einfach die Modellnamen in Ihren Skripten.

<a href="/pages/d12c953ceacbd6c3e44f3aa911056928e0488f5b#qwen3.5-tutorial" class="button secondary">Qwen3.5 Tutorial</a><a href="/pages/d12c953ceacbd6c3e44f3aa911056928e0488f5b#glm-4.7-flash-tutorial" class="button secondary">GLM-4.7-Flash Tutorial</a><a href="/pages/d12c953ceacbd6c3e44f3aa911056928e0488f5b#claude-code-tutorial" class="button primary" data-icon="claude">Claude Code Tutorial</a>

Für Model-Quants nutzen wir [Dynamische GGUFs](/docs/de/grundlagen/unsloth-dynamic-2.0-ggufs.md) um jedes LLM quantisiert auszuführen und dabei so viel Genauigkeit wie möglich zu erhalten.

{% hint style="info" %}
Claude Code hat sich seit Januar 2026 ziemlich verändert. Es gibt viel mehr Einstellungen und notwendige Funktionen, die Sie umschalten müssen.
{% endhint %}

## 📖 LLM-Setup-Tutorials

Bevor wir beginnen, müssen wir zunächst das Setup für das spezifische Modell abschließen, das Sie verwenden werden. Wir verwenden `llama.cpp` ein Open-Source-Framework zum Ausführen von LLMs auf Ihrem Mac-, Linux-, Windows- usw. Gerät. Llama.cpp enthält `llama-server` mit dem Sie LLMs effizient bereitstellen und serven können. Das Modell wird auf Port 8001 bereitgestellt, wobei alle Agent-Tools über einen einzigen OpenAI-kompatiblen Endpunkt geroutet werden.&#x20;

### Qwen3.5 Tutorial

Wir werden verwenden [Qwen3.5](/docs/de/modelle/qwen3.5.md)-35B-A3B und spezifische Einstellungen für schnelle und genaue Codierungsaufgaben. Wenn Sie nicht genug VRAM haben und ein **intelligenteres** Modell, **Qwen3.5-27B** ist eine großartige Wahl, wird aber etwa 2x langsamer sein, oder Sie können andere Qwen3.5-Varianten wie 9B, 4B oder 2B verwenden.

{% hint style="info" %}
Verwenden Sie Qwen3.5-27B, wenn Sie ein **intelligenteres** Modell oder wenn Sie nicht genug VRAM haben. Es wird jedoch etwa 2x langsamer sein als 35B-A3B. Oder Sie können [**Qwen3-Coder-Next**](/docs/de/modelle/qwen3-coder-next.md) verwenden, was fantastisch ist, wenn Sie genug VRAM haben.
{% endhint %}

{% stepper %}
{% step %}

#### Installieren Sie llama.cpp

Wir müssen installieren `llama.cpp` um lokale LLMs bereitzustellen/zu serven, die in Claude Code usw. verwendet werden. Wir folgen den offiziellen Build-Anweisungen für korrekte GPU-Bindings und maximale Leistung. Ändern Sie `-DGGML_CUDA=ON` zu `-DGGML_CUDA=OFF` wenn Sie keine GPU haben oder einfach nur CPU-Inferenz wünschen. **Für Apple Mac / Metal-Geräte**, setzen Sie `-DGGML_CUDA=OFF` und fahren dann wie gewohnt fort – Metal-Unterstützung ist standardmäßig aktiviert.

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

<figure><img src="/files/9e02e015e443976792468a0e4d1e61f222e855b1" alt="" width="563"><figcaption></figcaption></figure>
{% endstep %}

{% step %}

#### Modelle herunterladen und lokal verwenden

Laden Sie das Modell über `huggingface_hub` in Python herunter (nach der Installation via `pip install huggingface_hub hf_transfer`). Wir verwenden den **UD-Q4\_K\_XL** Quant für das beste Größen-/Genauigkeitsverhältnis. Sie finden alle Unsloth GGUF-Uploads in unserer [Sammlung hier](/docs/de/loslegen/unsloth-model-catalog.md). Wenn Downloads hängen bleiben, siehe [Hugging Face Hub, XET-Debugging](/docs/de/grundlagen/troubleshooting-and-faqs/hugging-face-hub-xet-debugging.md)

```bash
hf download unsloth/Qwen3.5-35B-A3B-GGUF \
    --local-dir unsloth/Qwen3.5-35B-A3B-GGUF \
    --include "*UD-Q4_K_XL*" # Verwenden Sie "*UD-Q2_K_XL*" für Dynamic 2bit
```

<figure><img src="/files/b045ea7c36778d9bcfb8acba28dbccaa7ed22de6" alt=""><figcaption></figcaption></figure>

{% hint style="success" %}
Wir verwendeten `unsloth/Qwen3.5-35B-A3B-GGUF` , aber Sie können eine andere Variante wie 27B oder ein anderes Modell wie `unsloth/`[`Qwen3-Coder-Next`](/docs/de/modelle/qwen3-coder-next.md)`-GGUF`.
{% endhint %}

<figure><img src="/files/77c71a7eb85cb947c1602c6558df47b7e4f957eb" alt="" width="563"><figcaption></figcaption></figure>
{% endstep %}

{% step %}

#### Starten Sie den Llama-Server

Um Qwen3.5 für agentische Workloads bereitzustellen, verwenden wir `llama-server`. Wir wenden an [Qwens empfohlene Sampling-Parameter](/docs/de/modelle/qwen3.5.md#recommended-settings) für Denkmode: `temp 0.6`, `top_p 0.95` , `top-k 20`. Beachten Sie, dass sich diese Werte ändern, wenn Sie den Nicht-Denk-Modus oder andere Aufgaben verwenden.

Führen Sie diesen Befehl in einem neuen Terminal aus (verwenden Sie `tmux` oder öffnen Sie ein neues Terminal). Das Folgende sollte **perfekt auf eine 24GB GPU (RTX 4090) passen (verwendet 23GB)** `--fit on` wird auch automatisch auslagern, aber wenn Sie schlechte Leistung sehen, reduzieren Sie `--ctx-size` .

{% hint style="danger" %}
Wir verwendeten `--cache-type-k q8_0 --cache-type-v q8_0` für KV-Cache-Quantisierung zur Reduzierung des VRAM-Verbrauchs. Für volle Präzision verwenden Sie `--cache-type-k bf16 --cache-type-v bf16` Laut mehreren Berichten verschlechtert Qwen3.5 die Genauigkeit mit `f16` KV-Cache, verwenden Sie daher nicht `--cache-type-k f16 --cache-type-v f16` was in llama.cpp auch standardmäßig aktiviert ist. Beachten Sie, dass bf16 KV-Cache auf einigen Maschinen etwas langsamer sein kann.
{% endhint %}

```bash
./llama.cpp/llama-server \
    --model unsloth/Qwen3.5-35B-A3B-GGUF/Qwen3.5-35B-A3B-UD-Q4_K_XL.gguf \
    --alias "unsloth/Qwen3.5-35B-A3B" \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00 \
    --port 8001 \
    --kv-unified \
    --cache-type-k q8_0 --cache-type-v q8_0 \
    --flash-attn on --fit on \
    --ctx-size 131072 # bei Bedarf ändern
```

{% hint style="success" %}
Sie können Das Denken für Qwen3.5 deaktivieren, was die Leistung für agentische Codierungsaufgaben verbessern kann. Um Denken mit llama.cpp zu deaktivieren, fügen Sie dies zum llama-server-Befehl hinzu:

`--chat-template-kwargs "{\"enable_thinking\": false}"`

<img src="/files/97cefe30500398f36322e3abca6ac84ae206c488" alt="" data-size="original">
{% endhint %}
{% endstep %}
{% endstepper %}

### GLM-4.7-Flash Tutorial

{% stepper %}
{% step %}

#### Installieren Sie llama.cpp

Wir müssen installieren `llama.cpp` um lokale LLMs bereitzustellen/zu serven, die in Claude Code usw. verwendet werden. Wir folgen den offiziellen Build-Anweisungen für korrekte GPU-Bindings und maximale Leistung. Ändern Sie `-DGGML_CUDA=ON` zu `-DGGML_CUDA=OFF` wenn Sie keine GPU haben oder einfach nur CPU-Inferenz wünschen. **Für Apple Mac / Metal-Geräte**, setzen Sie `-DGGML_CUDA=OFF` und fahren dann wie gewohnt fort – Metal-Unterstützung ist standardmäßig aktiviert.

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

<figure><img src="/files/9e02e015e443976792468a0e4d1e61f222e855b1" alt="" width="563"><figcaption></figcaption></figure>
{% endstep %}

{% step %}

#### Modelle herunterladen und lokal verwenden

Laden Sie das Modell über `huggingface_hub` in Python herunter (nach der Installation via `pip install huggingface_hub hf_transfer`). Wir verwenden den **UD-Q4\_K\_XL** Quant für das beste Größen-/Genauigkeitsverhältnis. Sie finden alle Unsloth GGUF-Uploads in unserer [Sammlung hier](/docs/de/loslegen/unsloth-model-catalog.md). Wenn Downloads hängen bleiben, siehe [Hugging Face Hub, XET-Debugging](/docs/de/grundlagen/troubleshooting-and-faqs/hugging-face-hub-xet-debugging.md)

{% hint style="success" %}
Wir verwendeten `unsloth/GLM-4.7-Flash-GGUF` , aber Sie können alles wie `unsloth/Qwen3-Coder-Next-GGUF` verwenden - siehe [Qwen3-Coder-Next](/docs/de/modelle/qwen3-coder-next.md)
{% endhint %}

```python
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download

snapshot_download(
    repo_id = "unsloth/GLM-4.7-Flash-GGUF",
    local_dir = "unsloth/GLM-4.7-Flash-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)
```

<figure><img src="/files/77c71a7eb85cb947c1602c6558df47b7e4f957eb" alt="" width="563"><figcaption></figcaption></figure>
{% endstep %}

{% step %}

#### Starten Sie den Llama-Server

Um GLM-4.7-Flash für agentische Workloads bereitzustellen, verwenden wir `llama-server`. Wir wenden Z.ais empfohlene Sampling-Parameter an (`temp 1.0`, `top_p 0.95`).

Führen Sie diesen Befehl in einem neuen Terminal aus (verwenden Sie `tmux` oder öffnen Sie ein neues Terminal). Das Folgende sollte **perfekt auf eine 24GB GPU (RTX 4090) passen (verwendet 23GB)** `--fit on` wird auch automatisch auslagern, aber wenn Sie schlechte Leistung sehen, reduzieren Sie `--ctx-size` .

{% hint style="danger" %}
Wir verwendeten `--cache-type-k q8_0 --cache-type-v q8_0` für KV-Cache-Quantisierung, um den VRAM-Verbrauch zu reduzieren. Wenn Sie eine reduzierte Qualität feststellen, können Sie stattdessen `bf16` verwenden, aber das erhöht den VRAM-Verbrauch um das Doppelte: `--cache-type-k bf16 --cache-type-v bf16`
{% endhint %}

```bash
./llama.cpp/llama-server \
    --model unsloth/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf \
    --alias "unsloth/GLM-4.7-Flash" \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --port 8001 \
    --kv-unified \
    --cache-type-k q8_0 --cache-type-v q8_0 \
    --flash-attn on --fit on \
    --batch-size 4096 --ubatch-size 1024 \
    --ctx-size 131072 # bei Bedarf ändern
```

{% hint style="success" %}
Sie können das Denken für GLM-4.7-Flash ebenfalls deaktivieren, was die Leistung für agentische Codierungsaufgaben verbessern kann. Um Denken mit llama.cpp zu deaktivieren, fügen Sie dies zum llama-server-Befehl hinzu:

`--chat-template-kwargs "{\"enable_thinking\": false}"`

<img src="/files/02964a5ab422c1a0dbba1eba2a6c2dd4fc6bf3d6" alt="" data-size="original">
{% endhint %}
{% endstep %}
{% endstepper %}

## <i class="fa-claude">:claude:</i> Claude Code Tutorial

{% hint style="danger" %}
Siehe [#fixing-90-slower-inference-in-claude-code](#fixing-90-slower-inference-in-claude-code "mention") nach der Installation von Claude Code, um zu beheben, dass offene Modelle aufgrund von KV-Cache-Invalidierung 90 % langsamer sind.
{% endhint %}

Sobald Sie die ersten Schritte zum Einrichten Ihres lokalen LLM abgeschlossen haben, ist es Zeit, Claude Code einzurichten. Claude Code ist Anthropics agentisches Codierungswerkzeug, das in Ihrem Terminal lebt, Ihren Codebestand versteht und komplexe Git-Workflows per natürlicher Sprache handhabt.

#### **Installieren Sie Claude Code und führen Sie es lokal aus**

{% tabs %}
{% tab title="Mac / Linux Setups" %}

```bash
curl -fsSL https://claude.ai/install.sh | bash
# Oder via Homebrew: brew install --cask claude-code
```

**Konfigurieren**

Setzen Sie die `ANTHROPIC_BASE_URL` Umgebungsvariable, um Claude Code auf Ihren lokalen `llama.cpp` Server umzuleiten.

```bash
export ANTHROPIC_BASE_URL="http://localhost:8001"
```

Möglicherweise müssen Sie auch `ANTHROPIC_API_KEY` je nach Server setzen. Zum Beispiel:

```bash
export ANTHROPIC_API_KEY='sk-no-key-required' ## oder 'sk-1234'
```

**Sitzung vs. Persistenz:** Die obigen Befehle gelten nur für das aktuelle Terminal. Um sie über neue Terminals hinweg beizubehalten:

Fügen Sie die `export` Zeile zu `~/.bashrc` (bash) oder `~/.zshrc` (zsh) hinzu.

{% hint style="warning" %}
Wenn Sie sehen `Unable to connect to API (ConnectionRefused)` , denken Sie daran, `ANTHROPIC_BASE_URL`  zurückzusetzen via `unset ANTHROPIC_BASE_URL`
{% endhint %}

**Fehlender API-Schlüssel**

Wenn Sie dies sehen, setzen Sie `export ANTHROPIC_API_KEY='sk-no-key-required' ## oder 'sk-1234'`

{% hint style="info" %}
Wenn Claude Code Sie bei der ersten Ausführung weiterhin zur Anmeldung auffordert, fügen Sie hinzu `"hasCompletedOnboarding": true` und `"primaryApiKey": "sk-dummy-key"` zu `~/.claude.json`. Für die VS Code-Erweiterung aktivieren Sie außerdem **Disable Login Prompt** in den Einstellungen (oder fügen Sie `"claudeCode.disableLoginPrompt": true` zu `settings.json`).
{% endhint %}
{% endtab %}

{% tab title="Windows Setups" %}
Verwenden Sie Powershell für alle folgenden Befehle:

```powershell
irm https://claude.ai/install.ps1 | iex
```

**Konfigurieren**

Setzen Sie die `ANTHROPIC_BASE_URL` Umgebungsvariable, um Claude Code auf Ihren lokalen `llama.cpp` Server. Außerdem müssen Sie `$env:CLAUDE_CODE_ATTRIBUTION_HEADER=0` siehe unten setzen.

```powershell
$env:ANTHROPIC_BASE_URL="http://localhost:8001"
```

{% hint style="danger" %}
Claude Code fügt kürzlich einen Claude Code Attribution-Header voran und ändert ihn, was den KV-Cache ungültig macht. Siehe diese [LocalLlama-Diskussion](https://www.reddit.com/r/LocalLLaMA/comments/1r47fz0/claude_code_with_local_models_full_prompt/).

Um dies zu lösen, führen Sie aus `$env:CLAUDE_CODE_ATTRIBUTION_HEADER=0` oder bearbeiten Sie `~/.claude/settings.json` mit:

```
{
    ...
    "env": {
        "CLAUDE_CODE_ATTRIBUTION_HEADER" : "0",
        ...
    }
}
```

{% endhint %}

**Sitzung vs. Persistenz:** Die obigen Befehle gelten nur für das aktuelle Terminal. Um sie über neue Terminals hinweg beizubehalten:

Führen Sie aus `setx ANTHROPIC_BASE_URL "http://localhost:8001"` einmal, oder fügen Sie die `$env:` Zeile zu Ihrem `$PROFILE`.

{% hint style="info" %}
Wenn Claude Code Sie bei der ersten Ausführung weiterhin zur Anmeldung auffordert, fügen Sie hinzu `"hasCompletedOnboarding": true` und `"primaryApiKey": "sk-dummy-key"` zu `~/.claude.json`. Für die VS Code-Erweiterung aktivieren Sie außerdem **Disable Login Prompt** in den Einstellungen (oder fügen Sie `"claudeCode.disableLoginPrompt": true` zu `settings.json`).
{% endhint %}
{% endtab %}
{% endtabs %}

### :detective:Behebung der 90% langsameren Inferenz in Claude Code

{% hint style="danger" %}
Claude Code fügt kürzlich einen Claude Code Attribution-Header voran und fügt ihn hinzu, was **den KV-Cache ungültig macht und die Inferenz mit lokalen Modellen 90 % langsamer macht**. Siehe dies [LocalLlama-Diskussion](https://www.reddit.com/r/LocalLLaMA/comments/1r47fz0/claude_code_with_local_models_full_prompt/).
{% endhint %}

Um dies zu lösen, bearbeiten Sie `~/.claude/settings.json` um einzuschließen `CLAUDE_CODE_ATTRIBUTION_HEADER` und setzen Sie es innerhalb von `"env"`

{% hint style="info" %}
auf 0. `Die Verwendung von` **export CLAUDE\_CODE\_ATTRIBUTION\_HEADER=0** FUNKTIONIERT NICHT!
{% endhint %}

Führen Sie zum Beispiel aus `cat > ~/.claude/settings.json` und fügen Sie dann das Folgende hinzu (wenn eingefügt, drücken Sie ENTER und dann STRG+D zum Speichern). Wenn Sie eine vorherige `~/.claude/settings.json` Datei haben, fügen Sie einfach `"CLAUDE_CODE_ATTRIBUTION_HEADER" : "0"` dem Abschnitt "env" hinzu und lassen Sie den Rest der Einstellungsdatei unverändert.

<pre><code>{
  "promptSuggestionEnabled": false,
  "env": {
    "CLAUDE_CODE_ENABLE_TELEMETRY": "0",
    "CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1",
    <a data-footnote-ref href="#user-content-fn-1">"CLAUDE_CODE_ATTRIBUTION_HEADER" : "0"</a>
  },
  "attribution": {
    "commit": "",
    "pr": ""
  },
  "plansDirectory" : "./plans",
  "prefersReducedMotion" : true,
  "terminalProgressBarEnabled" : false,
  "effortLevel" : "high"
}
</code></pre>

#### :star2:Ausführen von Claude Code lokal unter Linux / Mac / Windows

{% hint style="success" %}
Wir verwendeten `unsloth/GLM-4.7-Flash-GGUF` , aber Sie können alles wie `unsloth/Qwen3.5-35B-A3B-GGUF`.
{% endhint %}

{% hint style="danger" %}
Siehe [#fixing-90-slower-inference-in-claude-code](#fixing-90-slower-inference-in-claude-code "mention") zuerst, um zu beheben, dass offene Modelle aufgrund von KV-Cache-Invalidierung 90 % langsamer sind.
{% endhint %}

Navigieren Sie zu Ihrem Projektordner (`mkdir project ; cd project`) und führen Sie aus:

```bash
claude --model unsloth/GLM-4.7-Flash
```

Um Qwen3.5-35B-A3B zu verwenden, ändern Sie es einfach in:

```bash
claude --model unsloth/Qwen3.5-35B-A3B
```

<figure><img src="/files/a527b9eda682e762510bcc0ac431ea8092f0e51a" alt=""><figcaption></figcaption></figure>

Um Claude Code so einzustellen, dass Befehle ohne Genehmigungen ausgeführt werden, führen Sie aus **(VORSICHT: dadurch kann Claude Code beliebig Aktionen ausführen und Code ausführen, ohne Genehmigungen einzuholen!)**

{% code overflow="wrap" %}

```bash
claude --model unsloth/GLM-4.7-Flash --dangerously-skip-permissions
```

{% endcode %}

Probieren Sie diesen Prompt, um ein einfaches Unsloth-Finetuning zu installieren und auszuführen:

{% code overflow="wrap" %}

```
Sie dürfen nur im aktuellen Arbeitsverzeichnis project/ arbeiten. Suchen Sie nicht nach CLAUDE.md – das ist es. Installieren Sie Unsloth über eine virtuelle Umgebung mit uv. Verwenden Sie `python -m venv unsloth_env` und dann `source unsloth_env/bin/activate`, wenn möglich. Siehe https://unsloth.ai/docs/get-started/install/pip-install für Anweisungen (holen Sie es sich und lesen Sie). Führen Sie dann einen einfachen Unsloth-Finetuning-Lauf wie in https://github.com/unslothai/unsloth beschrieben aus. Sie haben Zugriff auf 1 GPU.
```

{% endcode %}

<figure><img src="/files/e0a425cc7c492be7351cfc77d143adb530640a77" alt=""><figcaption></figcaption></figure>

Nach kurzer Wartezeit wird Unsloth in einem venv via uv installiert und geladen:

<figure><img src="/files/1872f761f8d387ce7f11b0a4624f30b618c23ed0" alt=""><figcaption></figcaption></figure>

und schließlich sehen Sie ein erfolgreich mit Unsloth feinabgestimmtes Modell!

<figure><img src="/files/b529ad04568468ccc24a43889b11ecace803a97d" alt=""><figcaption></figcaption></figure>

**IDE-Erweiterung (VS Code / Cursor)**

Sie können Claude Code auch direkt in Ihrem Editor über die offizielle Erweiterung verwenden:

* [Installieren für VS Code](https://marketplace.visualstudio.com/items?itemName=anthropic.claude-code)
* [Installieren für Cursor](cursor:extension/anthropic.claude-code)
* [Claude Code in VS Code-Dokumentation](https://code.claude.com/docs/en/vs-code)

Alternativ drücken Sie `Strg+Shift+X` (Windows/Linux) oder `Cmd+Shift+X` (Mac), suchen Sie nach **Claude Code**und klicken Sie **Installieren**.

{% hint style="warning" %}
Wenn Sie sehen `Unable to connect to API (ConnectionRefused)` , denken Sie daran, `ANTHROPIC_BASE_URL`  zurückzusetzen via `unset ANTHROPIC_BASE_URL`
{% endhint %}

{% hint style="danger" %}
Wenn Sie feststellen, dass offene Modelle 90 % langsamer sind, siehe [#claude-code-90-slower-inference](#claude-code-90-slower-inference "mention") zuerst, um zu beheben, dass der KV-Cache ungültig wird.
{% endhint %}

[^1]: Muss verwendet werden!


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/de/grundlagen/claude-code.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
