claudeWie man lokale LLMs mit Claude Code ausführt

Anleitung zur Verwendung von Claude Code auf deinem lokalen Gerät mit offenen Modellen.

Diese Schritt-für-Schritt-Anleitung zeigt Ihnen, wie Sie offene LLMs vollständig lokal mit Claude Code und Codex verbinden, komplett mit Screenshots. Führen Sie es mit jedem offenen Modell wie DeepSeek, Qwen und Gemma aus.

Für dieses Tutorial verwenden wir GLM-4.7-Flash, das stärkste 30B MoE agentische & Coding-Modell Stand Jan 2026, um autonom ein LLM mit Unslotharrow-up-rightzu feinabstimmen. Sie können jedes andere Modellaustauschen, aktualisieren Sie einfach die Modellnamen in Ihren Skripten.

Claude Code TutorialOpenAI Codex Tutorial

Wir verwenden llama.cpparrow-up-right was ein Open-Source-Framework ist, um LLMs auf Ihrem Mac-, Linux-, Windows- usw. Geräten auszuführen. Llama.cpp enthält spezifisch für das Serving über was es Ihnen ermöglicht, LLMs effizient bereitzustellen und zu deployen. Das Modell wird auf Port 8001 bereitgestellt, wobei alle Agenten-Tools über einen einzigen OpenAI-kompatiblen Endpunkt geroutet werden.

Für Modell-Quants werden wir Unsloth verwenden Dynamische GGUFs um jedes LLM quantisiert auszuführen und dabei so viel Genauigkeit wie möglich beizubehalten.

📖 Schritt #1: Llama.cpp installieren Tutorial

1

Wir müssen llama.cpp installieren, um lokale LLMs bereitzustellen/zu serve'n, die in Codex usw. verwendet werden. Wir folgen den offiziellen Build-Anweisungen für korrekte GPU-Bindings und maximale Leistung. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF falls Sie keine GPU haben oder nur CPU-Inferenz wünschen.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
2

Modelle lokal herunterladen und verwenden

Laden Sie das Modell über huggingface_hub in Python herunter (nach der Installation via Laden Sie das Modell herunter via (nach Installation von). Wir verwenden das UD-Q4_K_XL Quant für das beste Größen-/Genauigkeitsverhältnis. Sie können alle Unsloth GGUF-Uploads in unserer Sammlung hier. Wenn Downloads hängen bleiben, siehe Hugging Face Hub, XET-Debugging

circle-check
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download

snapshot_download(
    repo_id = "unsloth/GLM-4.7-Flash-GGUF",
    local_dir = "unsloth/GLM-4.7-Flash-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)
3

Starten Sie den Llama-Server

Um GLM-4.7-Flash für agentische Workloads bereitzustellen, verwenden wir spezifisch für das Serving über. Wir wenden Z.ais empfohlene Sampling-Parameter an (temp 1.0, top_p 0.95) und aktivieren --jinja für richtige Tool-Aufrufunterstützung.

Führen Sie diesen Befehl in einem neuen Terminal aus (verwenden Sie tmux oder öffnen Sie ein neues Terminal). Das Folgende sollte perfekt in eine 24GB GPU (RTX 4090) passen (verwendet 23GB) --fit on wird auch automatisch auslagern, aber wenn Sie schlechte Leistung sehen, reduzieren Sie --ctx-size Wir verwendeten --cache-type-k q8_0 --cache-type-v q8_0 für KV-Cache-Quantisierung, um VRAM-Nutzung zu reduzieren.

./llama.cpp/llama-server \
    --model unsloth/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf \
    --alias "unsloth/GLM-4.7-Flash" \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --alias "unsloth/Kimi-K2.5" \
    --kv-unified \
    --cache-type-k q8_0 --cache-type-v q8_0 \
    --flash-attn on \
    --batch-size 4096 --ubatch-size 1024 \
    --ctx-size 131072
circle-check

👾 Claude Code Tutorial

Claude Code ist Anthropics agentisches Coding-Tool, das in Ihrem Terminal läuft, Ihren Codebestand versteht und komplexe Git-Workflows über natürliche Sprache abwickelt.

Installieren Sie Claude Code und führen Sie es lokal aus

curl -fsSL https://claude.ai/install.sh | bash
# Oder via Homebrew: brew install --cask claude-code

Konfigurieren Sie

Setzen Sie die ANTHROPIC_BASE_URL Umgebungsvariable, um Claude Code auf Ihren lokalen llama.cpp Server umzuleiten:

export ANTHROPIC_BASE_URL="http://localhost:8001"

Außerdem müssen Sie möglicherweise ANTHROPIC_API_KEY je nach Server setzen. Zum Beispiel:

export ANTHROPIC_API_KEY='sk-no-key-required' ## oder 'sk-1234'

Sitzung vs Persistenz: Die obigen Befehle gelten nur für das aktuelle Terminal. Um sie in neuen Terminals zu behalten:

Fügen Sie die export Zeile zu ~/.bashrc (bash) oder ~/.zshrc (zsh) hinzu.

Wenn Sie sehen Verbindung zur API nicht möglich (ConnectionRefused) , denken Sie daran, ANTHROPIC_BASE_URL über unset ANTHROPIC_BASE_URL

Fehlender API-Schlüssel

Wenn Sie dies sehen, setzen Sie export ANTHROPIC_API_KEY='sk-no-key-required' ## oder 'sk-1234'

🌟Ausführen von Claude Code lokal unter Linux / Mac / Windows

circle-check

Navigieren Sie zu Ihrem Projektordner (mkdir project ; cd project) und führen Sie aus:

Um Claude Code dazu zu bringen, Befehle ohne Genehmigungen auszuführen, tun Sie (WARNUNG dies wird Claude Code dazu bringen, Code nach eigenem Ermessen auszuführen und auszuführen, ohne irgendwelche Genehmigungen!)

Versuchen Sie diese Aufforderung, um eine einfache Unsloth-Finetune-Installation und -Ausführung zu starten:

Nach einer kurzen Wartezeit wird Unsloth in einer venv via uv installiert und geladen:

und schließlich werden Sie ein erfolgreich mit Unsloth feinabgestimmtes Modell sehen!

IDE-Erweiterung (VS Code / Cursor)

Sie können Claude Code auch direkt in Ihrem Editor über die offizielle Erweiterung verwenden:

Alternativ drücken Sie Ctrl+Shift+X (Windows/Linux) oder Cmd+Shift+X (Mac), suchen Sie nach Claude Codeund klicken Sie Installieren Sie.

Wenn Sie sehen Verbindung zur API nicht möglich (ConnectionRefused) , denken Sie daran, ANTHROPIC_BASE_URL über unset ANTHROPIC_BASE_URL

👾 OpenAI Codex CLI Tutorial

Codex arrow-up-rightist OpenAIs offizieller Coding-Agent, der lokal läuft. Obwohl für ChatGPT konzipiert, unterstützt er benutzerdefinierte API-Endpunkte und ist damit perfekt für lokale LLMs. Siehe https://developers.openai.com/codex/windows/arrow-up-right für die Installation unter Windows - am besten mit WSL.

Installieren Sie

Mac (Homebrew):

Universal (NPM) für Linux

Konfigurieren Sie

Erstmaliger Start codex um sich anzumelden und Dinge einzurichten, erstellen oder bearbeiten Sie dann die Konfigurationsdatei unter ~/.codex/config.toml (Mac/Linux) oder %USERPROFILE%\.codex\config.toml (Windows).

Verwenden Sie cat > ~/.codex/config.toml für Linux / Mac:

Navigieren Sie zu Ihrem Projektordner (mkdir project ; cd project) und führen Sie aus:

Oder um beliebigen Code ausführen zu lassen. (WARNUNG dies wird Codex dazu bringen, Code nach eigenem Ermessen auszuführen und auszuführen, ohne irgendwelche Genehmigungen!)

Und Sie werden sehen:

circle-exclamation

Versuchen Sie diese Aufforderung, um eine einfache Unsloth-Finetune-Installation und -Ausführung zu starten:

und Sie werden sehen:

und wenn wir ein wenig länger warten, erhalten wir schließlich:

Zuletzt aktualisiert

War das hilfreich?