claudeWie man lokale LLMs mit Claude Code ausführt

Anleitung zur Verwendung offener Modelle mit Claude Code auf deinem lokalen Gerät.

Diese Schritt-für-Schritt-Anleitung zeigt Ihnen, wie Sie offene LLMs und APIs vollständig lokal mit Claude Code verbinden, inklusive Screenshots. Führen Sie es mit jedem offenen Modell wie Qwen3.5, DeepSeek und Gemma aus.

Für dieses Tutorial verwenden wir Qwen3.5 und GLM-4.7-Flash. Beide sind Stand März 2026 die stärksten 35B MoE agentischen & Coding-Modelle (die auf einem Gerät mit 24 GB RAM/unified mem gut funktionieren), um ein LLM autonom mit Unslotharrow-up-right. Sie können jedes andere Modelleinsetzen, aktualisieren Sie einfach die Modellnamen in Ihren Skripten.

Qwen3.5 TutorialGLM-4.7-Flash TutorialclaudeClaude Code Tutorial

Für Model-Quants nutzen wir Dynamische GGUFs um jedes LLM quantisiert auszuführen und dabei so viel Genauigkeit wie möglich zu erhalten.

circle-info

Claude Code hat sich seit Januar 2026 ziemlich verändert. Es gibt viel mehr Einstellungen und notwendige Funktionen, die Sie umschalten müssen.

📖 LLM-Setup-Tutorials

Bevor wir beginnen, müssen wir zunächst das Setup für das spezifische Modell abschließen, das Sie verwenden werden. Wir verwenden llama.cpp ein Open-Source-Framework zum Ausführen von LLMs auf Ihrem Mac-, Linux-, Windows- usw. Gerät. Llama.cpp enthält llama-server mit dem Sie LLMs effizient bereitstellen und serven können. Das Modell wird auf Port 8001 bereitgestellt, wobei alle Agent-Tools über einen einzigen OpenAI-kompatiblen Endpunkt geroutet werden.

Qwen3.5 Tutorial

Wir werden verwenden Qwen3.5-35B-A3B und spezifische Einstellungen für schnelle und genaue Codierungsaufgaben. Wenn Sie nicht genug VRAM haben und ein intelligenteres Modell, Qwen3.5-27B ist eine großartige Wahl, wird aber etwa 2x langsamer sein, oder Sie können andere Qwen3.5-Varianten wie 9B, 4B oder 2B verwenden.

circle-info

Verwenden Sie Qwen3.5-27B, wenn Sie ein intelligenteres Modell oder wenn Sie nicht genug VRAM haben. Es wird jedoch etwa 2x langsamer sein als 35B-A3B. Oder Sie können Qwen3-Coder-Next verwenden, was fantastisch ist, wenn Sie genug VRAM haben.

1

Installieren Sie llama.cpp

Wir müssen installieren llama.cpp um lokale LLMs bereitzustellen/zu serven, die in Claude Code usw. verwendet werden. Wir folgen den offiziellen Build-Anweisungen für korrekte GPU-Bindings und maximale Leistung. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder einfach nur CPU-Inferenz wünschen. Für Apple Mac / Metal-Geräte, setzen Sie -DGGML_CUDA=OFF und fahren dann wie gewohnt fort – Metal-Unterstützung ist standardmäßig aktiviert.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
2

Modelle herunterladen und lokal verwenden

Laden Sie das Modell über huggingface_hub in Python herunter (nach der Installation via pip install huggingface_hub hf_transfer). Wir verwenden den UD-Q4_K_XL Quant für das beste Größen-/Genauigkeitsverhältnis. Sie finden alle Unsloth GGUF-Uploads in unserer Sammlung hier. Wenn Downloads hängen bleiben, siehe Hugging Face Hub, XET-Debugging

hf download unsloth/Qwen3.5-35B-A3B-GGUF \
    --local-dir unsloth/Qwen3.5-35B-A3B-GGUF \
    --include "*UD-Q4_K_XL*" # Verwenden Sie "*UD-Q2_K_XL*" für Dynamic 2bit
circle-check
3

Starten Sie den Llama-Server

Um Qwen3.5 für agentische Workloads bereitzustellen, verwenden wir llama-server. Wir wenden an Qwens empfohlene Sampling-Parameter für Denkmode: temp 0.6, top_p 0.95 , top-k 20. Beachten Sie, dass sich diese Werte ändern, wenn Sie den Nicht-Denk-Modus oder andere Aufgaben verwenden.

Führen Sie diesen Befehl in einem neuen Terminal aus (verwenden Sie tmux oder öffnen Sie ein neues Terminal). Das Folgende sollte perfekt auf eine 24GB GPU (RTX 4090) passen (verwendet 23GB) --fit on wird auch automatisch auslagern, aber wenn Sie schlechte Leistung sehen, reduzieren Sie --ctx-size .

triangle-exclamation
./llama.cpp/llama-server \
    --model unsloth/Qwen3.5-35B-A3B-GGUF/Qwen3.5-35B-A3B-UD-Q4_K_XL.gguf \
    --alias "unsloth/Qwen3.5-35B-A3B" \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00 \
    --port 8001 \
    --kv-unified \
    --cache-type-k q8_0 --cache-type-v q8_0 \
    --flash-attn on --fit on \
    --ctx-size 131072 # bei Bedarf ändern
circle-check

GLM-4.7-Flash Tutorial

1

Installieren Sie llama.cpp

Wir müssen installieren llama.cpp um lokale LLMs bereitzustellen/zu serven, die in Claude Code usw. verwendet werden. Wir folgen den offiziellen Build-Anweisungen für korrekte GPU-Bindings und maximale Leistung. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder einfach nur CPU-Inferenz wünschen. Für Apple Mac / Metal-Geräte, setzen Sie -DGGML_CUDA=OFF und fahren dann wie gewohnt fort – Metal-Unterstützung ist standardmäßig aktiviert.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
2

Modelle herunterladen und lokal verwenden

Laden Sie das Modell über huggingface_hub in Python herunter (nach der Installation via pip install huggingface_hub hf_transfer). Wir verwenden den UD-Q4_K_XL Quant für das beste Größen-/Genauigkeitsverhältnis. Sie finden alle Unsloth GGUF-Uploads in unserer Sammlung hier. Wenn Downloads hängen bleiben, siehe Hugging Face Hub, XET-Debugging

circle-check
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download

snapshot_download(
    repo_id = "unsloth/GLM-4.7-Flash-GGUF",
    local_dir = "unsloth/GLM-4.7-Flash-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)
3

Starten Sie den Llama-Server

Um GLM-4.7-Flash für agentische Workloads bereitzustellen, verwenden wir llama-server. Wir wenden Z.ais empfohlene Sampling-Parameter an (temp 1.0, top_p 0.95).

Führen Sie diesen Befehl in einem neuen Terminal aus (verwenden Sie tmux oder öffnen Sie ein neues Terminal). Das Folgende sollte perfekt auf eine 24GB GPU (RTX 4090) passen (verwendet 23GB) --fit on wird auch automatisch auslagern, aber wenn Sie schlechte Leistung sehen, reduzieren Sie --ctx-size .

triangle-exclamation
./llama.cpp/llama-server \
    --model unsloth/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf \
    --alias "unsloth/GLM-4.7-Flash" \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --port 8001 \
    --kv-unified \
    --cache-type-k q8_0 --cache-type-v q8_0 \
    --flash-attn on --fit on \
    --batch-size 4096 --ubatch-size 1024 \
    --ctx-size 131072 # bei Bedarf ändern
circle-check

claude Claude Code Tutorial

triangle-exclamation

Sobald Sie die ersten Schritte zum Einrichten Ihres lokalen LLM abgeschlossen haben, ist es Zeit, Claude Code einzurichten. Claude Code ist Anthropics agentisches Codierungswerkzeug, das in Ihrem Terminal lebt, Ihren Codebestand versteht und komplexe Git-Workflows per natürlicher Sprache handhabt.

Installieren Sie Claude Code und führen Sie es lokal aus

Konfigurieren

Setzen Sie die ANTHROPIC_BASE_URL Umgebungsvariable, um Claude Code auf Ihren lokalen llama.cpp Server umzuleiten.

Möglicherweise müssen Sie auch ANTHROPIC_API_KEY je nach Server setzen. Zum Beispiel:

Sitzung vs. Persistenz: Die obigen Befehle gelten nur für das aktuelle Terminal. Um sie über neue Terminals hinweg beizubehalten:

Fügen Sie die export Zeile zu ~/.bashrc (bash) oder ~/.zshrc (zsh) hinzu.

circle-exclamation

Fehlender API-Schlüssel

Wenn Sie dies sehen, setzen Sie export ANTHROPIC_API_KEY='sk-no-key-required' ## oder 'sk-1234'

circle-info

Wenn Claude Code Sie bei der ersten Ausführung weiterhin zur Anmeldung auffordert, fügen Sie hinzu "hasCompletedOnboarding": true und "primaryApiKey": "sk-dummy-key" zu ~/.claude.json. Für die VS Code-Erweiterung aktivieren Sie außerdem Disable Login Prompt in den Einstellungen (oder fügen Sie "claudeCode.disableLoginPrompt": true zu settings.json).

🕵️Behebung der 90% langsameren Inferenz in Claude Code

triangle-exclamation

Um dies zu lösen, bearbeiten Sie ~/.claude/settings.json um einzuschließen CLAUDE_CODE_ATTRIBUTION_HEADER und setzen Sie es innerhalb von "env"

circle-info

auf 0. Die Verwendung von export CLAUDE_CODE_ATTRIBUTION_HEADER=0 FUNKTIONIERT NICHT!

Führen Sie zum Beispiel aus cat > ~/.claude/settings.json und fügen Sie dann das Folgende hinzu (wenn eingefügt, drücken Sie ENTER und dann STRG+D zum Speichern). Wenn Sie eine vorherige ~/.claude/settings.json Datei haben, fügen Sie einfach "CLAUDE_CODE_ATTRIBUTION_HEADER" : "0" dem Abschnitt "env" hinzu und lassen Sie den Rest der Einstellungsdatei unverändert.

🌟Ausführen von Claude Code lokal unter Linux / Mac / Windows

circle-check
triangle-exclamation

Navigieren Sie zu Ihrem Projektordner (mkdir project ; cd project) und führen Sie aus:

Um Qwen3.5-35B-A3B zu verwenden, ändern Sie es einfach in:

Um Claude Code so einzustellen, dass Befehle ohne Genehmigungen ausgeführt werden, führen Sie aus (VORSICHT: dadurch kann Claude Code beliebig Aktionen ausführen und Code ausführen, ohne Genehmigungen einzuholen!)

Probieren Sie diesen Prompt, um ein einfaches Unsloth-Finetuning zu installieren und auszuführen:

Nach kurzer Wartezeit wird Unsloth in einem venv via uv installiert und geladen:

und schließlich sehen Sie ein erfolgreich mit Unsloth feinabgestimmtes Modell!

IDE-Erweiterung (VS Code / Cursor)

Sie können Claude Code auch direkt in Ihrem Editor über die offizielle Erweiterung verwenden:

Alternativ drücken Sie Strg+Shift+X (Windows/Linux) oder Cmd+Shift+X (Mac), suchen Sie nach Claude Codeund klicken Sie Installieren.

circle-exclamation
triangle-exclamation

Zuletzt aktualisiert

War das hilfreich?