Wie man lokale LLMs mit Claude Code ausführt

Anleitung zur Verwendung offener Modelle mit Claude Code auf deinem lokalen Gerät.

Diese Schritt-für-Schritt-Anleitung zeigt Ihnen, wie Sie offene LLMs und APIs vollständig lokal mit Claude Code verbinden, inklusive Screenshots. Führen Sie es mit jedem offenen Modell wie Qwen3.5, DeepSeek und Gemma aus.

Für dieses Tutorial verwenden wir Qwen3.5 und GLM-4.7-Flash. Beide sind Stand März 2026 die stärksten 35B MoE agentischen & Coding-Modelle (die auf einem Gerät mit 24 GB RAM/unified mem gut funktionieren), um ein LLM autonom mit Unsloth. Sie können jedes andere Modelleinsetzen, aktualisieren Sie einfach die Modellnamen in Ihren Skripten.

Qwen3.5 Tutorial GLM-4.7-Flash Tutorial Claude Code Tutorial

Für Model-Quants nutzen wir Dynamische GGUFs um jedes LLM quantisiert auszuführen und dabei so viel Genauigkeit wie möglich zu erhalten.

Claude Code hat sich seit Januar 2026 ziemlich verändert. Es gibt viel mehr Einstellungen und notwendige Funktionen, die Sie umschalten müssen.

📖 LLM-Setup-Tutorials

Bevor wir beginnen, müssen wir zunächst das Setup für das spezifische Modell abschließen, das Sie verwenden werden. Wir verwenden llama.cpp ein Open-Source-Framework zum Ausführen von LLMs auf Ihrem Mac-, Linux-, Windows- usw. Gerät. Llama.cpp enthält llama-server mit dem Sie LLMs effizient bereitstellen und serven können. Das Modell wird auf Port 8001 bereitgestellt, wobei alle Agent-Tools über einen einzigen OpenAI-kompatiblen Endpunkt geroutet werden.

Qwen3.5 Tutorial

Wir werden verwenden Qwen3.5-35B-A3B und spezifische Einstellungen für schnelle und genaue Codierungsaufgaben. Wenn Sie nicht genug VRAM haben und ein intelligenteres Modell, Qwen3.5-27B ist eine großartige Wahl, wird aber etwa 2x langsamer sein, oder Sie können andere Qwen3.5-Varianten wie 9B, 4B oder 2B verwenden.

Verwenden Sie Qwen3.5-27B, wenn Sie ein intelligenteres Modell oder wenn Sie nicht genug VRAM haben. Es wird jedoch etwa 2x langsamer sein als 35B-A3B. Oder Sie können Qwen3-Coder-Next verwenden, was fantastisch ist, wenn Sie genug VRAM haben.

Installieren Sie llama.cpp

Wir müssen installieren llama.cpp um lokale LLMs bereitzustellen/zu serven, die in Claude Code usw. verwendet werden. Wir folgen den offiziellen Build-Anweisungen für korrekte GPU-Bindings und maximale Leistung. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder einfach nur CPU-Inferenz wünschen. Für Apple Mac / Metal-Geräte, setzen Sie -DGGML_CUDA=OFF und fahren dann wie gewohnt fort – Metal-Unterstützung ist standardmäßig aktiviert.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Modelle herunterladen und lokal verwenden

Laden Sie das Modell über huggingface_hub in Python herunter (nach der Installation via pip install huggingface_hub hf_transfer). Wir verwenden den UD-Q4_K_XL Quant für das beste Größen-/Genauigkeitsverhältnis. Sie finden alle Unsloth GGUF-Uploads in unserer Sammlung hier. Wenn Downloads hängen bleiben, siehe Hugging Face Hub, XET-Debugging

hf download unsloth/Qwen3.5-35B-A3B-GGUF \
    --local-dir unsloth/Qwen3.5-35B-A3B-GGUF \
    --include "*UD-Q4_K_XL*" # Verwenden Sie "*UD-Q2_K_XL*" für Dynamic 2bit

Wir verwendeten unsloth/Qwen3.5-35B-A3B-GGUF , aber Sie können eine andere Variante wie 27B oder ein anderes Modell wie unsloth/Qwen3-Coder-Next-GGUF.

Starten Sie den Llama-Server

Um Qwen3.5 für agentische Workloads bereitzustellen, verwenden wir llama-server. Wir wenden an Qwens empfohlene Sampling-Parameter für Denkmode: temp 0.6, top_p 0.95 , top-k 20. Beachten Sie, dass sich diese Werte ändern, wenn Sie den Nicht-Denk-Modus oder andere Aufgaben verwenden.

Führen Sie diesen Befehl in einem neuen Terminal aus (verwenden Sie tmux oder öffnen Sie ein neues Terminal). Das Folgende sollte perfekt auf eine 24GB GPU (RTX 4090) passen (verwendet 23GB) --fit on wird auch automatisch auslagern, aber wenn Sie schlechte Leistung sehen, reduzieren Sie --ctx-size .

Wir verwendeten --cache-type-k q8_0 --cache-type-v q8_0 für KV-Cache-Quantisierung zur Reduzierung des VRAM-Verbrauchs. Für volle Präzision verwenden Sie --cache-type-k bf16 --cache-type-v bf16 Laut mehreren Berichten verschlechtert Qwen3.5 die Genauigkeit mit f16 KV-Cache, verwenden Sie daher nicht --cache-type-k f16 --cache-type-v f16 was in llama.cpp auch standardmäßig aktiviert ist. Beachten Sie, dass bf16 KV-Cache auf einigen Maschinen etwas langsamer sein kann.

./llama.cpp/llama-server \
    --model unsloth/Qwen3.5-35B-A3B-GGUF/Qwen3.5-35B-A3B-UD-Q4_K_XL.gguf \
    --alias "unsloth/Qwen3.5-35B-A3B" \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00 \
    --port 8001 \
    --kv-unified \
    --cache-type-k q8_0 --cache-type-v q8_0 \
    --flash-attn on --fit on \
    --ctx-size 131072 # bei Bedarf ändern

Sie können Das Denken für Qwen3.5 deaktivieren, was die Leistung für agentische Codierungsaufgaben verbessern kann. Um Denken mit llama.cpp zu deaktivieren, fügen Sie dies zum llama-server-Befehl hinzu:

--chat-template-kwargs "{\"enable_thinking\": false}"

GLM-4.7-Flash Tutorial

Installieren Sie llama.cpp

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Modelle herunterladen und lokal verwenden

Wir verwendeten unsloth/GLM-4.7-Flash-GGUF , aber Sie können alles wie unsloth/Qwen3-Coder-Next-GGUF verwenden - siehe Qwen3-Coder-Next

import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download

snapshot_download(
    repo_id = "unsloth/GLM-4.7-Flash-GGUF",
    local_dir = "unsloth/GLM-4.7-Flash-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)

Starten Sie den Llama-Server

Um GLM-4.7-Flash für agentische Workloads bereitzustellen, verwenden wir llama-server. Wir wenden Z.ais empfohlene Sampling-Parameter an (temp 1.0, top_p 0.95).

Wir verwendeten --cache-type-k q8_0 --cache-type-v q8_0 für KV-Cache-Quantisierung, um den VRAM-Verbrauch zu reduzieren. Wenn Sie eine reduzierte Qualität feststellen, können Sie stattdessen bf16 verwenden, aber das erhöht den VRAM-Verbrauch um das Doppelte: --cache-type-k bf16 --cache-type-v bf16

./llama.cpp/llama-server \
    --model unsloth/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf \
    --alias "unsloth/GLM-4.7-Flash" \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --port 8001 \
    --kv-unified \
    --cache-type-k q8_0 --cache-type-v q8_0 \
    --flash-attn on --fit on \
    --batch-size 4096 --ubatch-size 1024 \
    --ctx-size 131072 # bei Bedarf ändern

Sie können das Denken für GLM-4.7-Flash ebenfalls deaktivieren, was die Leistung für agentische Codierungsaufgaben verbessern kann. Um Denken mit llama.cpp zu deaktivieren, fügen Sie dies zum llama-server-Befehl hinzu:

--chat-template-kwargs "{\"enable_thinking\": false}"

Claude Code Tutorial

Siehe Claude Code nach der Installation von Claude Code, um zu beheben, dass offene Modelle aufgrund von KV-Cache-Invalidierung 90 % langsamer sind.

Sobald Sie die ersten Schritte zum Einrichten Ihres lokalen LLM abgeschlossen haben, ist es Zeit, Claude Code einzurichten. Claude Code ist Anthropics agentisches Codierungswerkzeug, das in Ihrem Terminal lebt, Ihren Codebestand versteht und komplexe Git-Workflows per natürlicher Sprache handhabt.

Installieren Sie Claude Code und führen Sie es lokal aus

curl -fsSL https://claude.ai/install.sh | bash
# Oder via Homebrew: brew install --cask claude-code

Konfigurieren

Setzen Sie die ANTHROPIC_BASE_URL Umgebungsvariable, um Claude Code auf Ihren lokalen llama.cpp Server umzuleiten.

export ANTHROPIC_BASE_URL="http://localhost:8001"

Möglicherweise müssen Sie auch ANTHROPIC_API_KEY je nach Server setzen. Zum Beispiel:

export ANTHROPIC_API_KEY='sk-no-key-required' ## oder 'sk-1234'

Sitzung vs. Persistenz: Die obigen Befehle gelten nur für das aktuelle Terminal. Um sie über neue Terminals hinweg beizubehalten:

Fügen Sie die export Zeile zu ~/.bashrc (bash) oder ~/.zshrc (zsh) hinzu.

Wenn Sie sehen Unable to connect to API (ConnectionRefused) , denken Sie daran, ANTHROPIC_BASE_URL zurückzusetzen via unset ANTHROPIC_BASE_URL

Fehlender API-Schlüssel

Wenn Sie dies sehen, setzen Sie export ANTHROPIC_API_KEY='sk-no-key-required' ## oder 'sk-1234'

Wenn Claude Code Sie bei der ersten Ausführung weiterhin zur Anmeldung auffordert, fügen Sie hinzu "hasCompletedOnboarding": true und "primaryApiKey": "sk-dummy-key" zu ~/.claude.json. Für die VS Code-Erweiterung aktivieren Sie außerdem Disable Login Prompt in den Einstellungen (oder fügen Sie "claudeCode.disableLoginPrompt": true zu settings.json).

Verwenden Sie Powershell für alle folgenden Befehle:

irm https://claude.ai/install.ps1 | iex

Konfigurieren

Setzen Sie die ANTHROPIC_BASE_URL Umgebungsvariable, um Claude Code auf Ihren lokalen llama.cpp Server. Außerdem müssen Sie $env:CLAUDE_CODE_ATTRIBUTION_HEADER=0 siehe unten setzen.

$env:ANTHROPIC_BASE_URL="http://localhost:8001"

Claude Code fügt kürzlich einen Claude Code Attribution-Header voran und ändert ihn, was den KV-Cache ungültig macht. Siehe diese LocalLlama-Diskussion.

Um dies zu lösen, führen Sie aus $env:CLAUDE_CODE_ATTRIBUTION_HEADER=0 oder bearbeiten Sie ~/.claude/settings.json mit:

{
    ...
    "env": {
        "CLAUDE_CODE_ATTRIBUTION_HEADER" : "0",
        ...
    }
}

Sitzung vs. Persistenz: Die obigen Befehle gelten nur für das aktuelle Terminal. Um sie über neue Terminals hinweg beizubehalten:

Führen Sie aus setx ANTHROPIC_BASE_URL "http://localhost:8001" einmal, oder fügen Sie die $env: Zeile zu Ihrem $PROFILE.

🕵️Behebung der 90% langsameren Inferenz in Claude Code

Claude Code fügt kürzlich einen Claude Code Attribution-Header voran und fügt ihn hinzu, was den KV-Cache ungültig macht und die Inferenz mit lokalen Modellen 90 % langsamer macht. Siehe dies LocalLlama-Diskussion.

Um dies zu lösen, bearbeiten Sie ~/.claude/settings.json um einzuschließen CLAUDE_CODE_ATTRIBUTION_HEADER und setzen Sie es innerhalb von "env"

auf 0. Die Verwendung von export CLAUDE_CODE_ATTRIBUTION_HEADER=0 FUNKTIONIERT NICHT!

Führen Sie zum Beispiel aus cat > ~/.claude/settings.json und fügen Sie dann das Folgende hinzu (wenn eingefügt, drücken Sie ENTER und dann STRG+D zum Speichern). Wenn Sie eine vorherige ~/.claude/settings.json Datei haben, fügen Sie einfach "CLAUDE_CODE_ATTRIBUTION_HEADER" : "0" dem Abschnitt "env" hinzu und lassen Sie den Rest der Einstellungsdatei unverändert.

{
  "promptSuggestionEnabled": false,
  "env": {
    "CLAUDE_CODE_ENABLE_TELEMETRY": "0",
    "CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1",
    "CLAUDE_CODE_ATTRIBUTION_HEADER" : "0"
  },
  "attribution": {
    "commit": "",
    "pr": ""
  },
  "plansDirectory" : "./plans",
  "prefersReducedMotion" : true,
  "terminalProgressBarEnabled" : false,
  "effortLevel" : "high"
}

🌟Ausführen von Claude Code lokal unter Linux / Mac / Windows

Wir verwendeten unsloth/GLM-4.7-Flash-GGUF , aber Sie können alles wie unsloth/Qwen3.5-35B-A3B-GGUF.

Siehe Claude Code zuerst, um zu beheben, dass offene Modelle aufgrund von KV-Cache-Invalidierung 90 % langsamer sind.

Navigieren Sie zu Ihrem Projektordner (mkdir project ; cd project) und führen Sie aus:

claude --model unsloth/GLM-4.7-Flash

Um Qwen3.5-35B-A3B zu verwenden, ändern Sie es einfach in:

claude --model unsloth/Qwen3.5-35B-A3B

Um Claude Code so einzustellen, dass Befehle ohne Genehmigungen ausgeführt werden, führen Sie aus (VORSICHT: dadurch kann Claude Code beliebig Aktionen ausführen und Code ausführen, ohne Genehmigungen einzuholen!)

claude --model unsloth/GLM-4.7-Flash --dangerously-skip-permissions

Probieren Sie diesen Prompt, um ein einfaches Unsloth-Finetuning zu installieren und auszuführen:

Sie dürfen nur im aktuellen Arbeitsverzeichnis project/ arbeiten. Suchen Sie nicht nach CLAUDE.md – das ist es. Installieren Sie Unsloth über eine virtuelle Umgebung mit uv. Verwenden Sie `python -m venv unsloth_env` und dann `source unsloth_env/bin/activate`, wenn möglich. Siehe https://unsloth.ai/docs/get-started/install/pip-install für Anweisungen (holen Sie es sich und lesen Sie). Führen Sie dann einen einfachen Unsloth-Finetuning-Lauf wie in https://github.com/unslothai/unsloth beschrieben aus. Sie haben Zugriff auf 1 GPU.

Nach kurzer Wartezeit wird Unsloth in einem venv via uv installiert und geladen:

und schließlich sehen Sie ein erfolgreich mit Unsloth feinabgestimmtes Modell!

IDE-Erweiterung (VS Code / Cursor)

Sie können Claude Code auch direkt in Ihrem Editor über die offizielle Erweiterung verwenden:

Alternativ drücken Sie Strg+Shift+X (Windows/Linux) oder Cmd+Shift+X (Mac), suchen Sie nach Claude Codeund klicken Sie Installieren.

Wenn Sie sehen Unable to connect to API (ConnectionRefused) , denken Sie daran, ANTHROPIC_BASE_URL zurückzusetzen via unset ANTHROPIC_BASE_URL

Wenn Sie feststellen, dass offene Modelle 90 % langsamer sind, siehe Claude Code zuerst, um zu beheben, dass der KV-Cache ungültig wird.

VorherigeFehlerbehebung bei der Inferenz NächsteOpenAI Codex

Zuletzt aktualisiert vor 5 Tagen

War das hilfreich?

hashtag📖 LLM-Setup-Tutorials

hashtagQwen3.5 Tutorial

hashtagInstallieren Sie llama.cpp

hashtagModelle herunterladen und lokal verwenden

hashtagStarten Sie den Llama-Server

hashtagGLM-4.7-Flash Tutorial

hashtagInstallieren Sie llama.cpp

hashtagModelle herunterladen und lokal verwenden

hashtagStarten Sie den Llama-Server

hashtagclaude Claude Code Tutorial

hashtagInstallieren Sie Claude Code und führen Sie es lokal aus

hashtag🕵️Behebung der 90% langsameren Inferenz in Claude Code

hashtag🌟Ausführen von Claude Code lokal unter Linux / Mac / Windows

📖 LLM-Setup-Tutorials

Qwen3.5 Tutorial

Installieren Sie llama.cpp

Modelle herunterladen und lokal verwenden

Starten Sie den Llama-Server

GLM-4.7-Flash Tutorial

Installieren Sie llama.cpp

Modelle herunterladen und lokal verwenden

Starten Sie den Llama-Server

Claude Code Tutorial

Installieren Sie Claude Code und führen Sie es lokal aus

🕵️Behebung der 90% langsameren Inferenz in Claude Code

🌟Ausführen von Claude Code lokal unter Linux / Mac / Windows