Wie man lokale LLMs mit Claude Code & OpenAI Codex ausführt

Anleitung zum Ausführen von Claude Code und OpenAI Codex auf deinem lokalen Gerät.

Diese Schritt-für-Schritt-Anleitung zeigt Ihnen, wie Sie offene LLMs vollständig lokal mit Claude Code und Codex verbinden, inklusive Screenshots. Führen Sie sie mit jedem offenen Modell wie DeepSeek, Qwen und Gemma aus.

Für dieses Tutorial verwenden wir GLM-4.7-Flash, das stärkste 30B MoE agentische & kodierende Modell Stand Januar 2026, um autonom ein LLM mit Unslothfeinzutunen. Sie können jedes andere Modellverwenden, aktualisieren Sie einfach die Modellnamen in Ihren Skripten.

Claude Code Tutorial OpenAI Codex Tutorial

Wir verwenden llama.cpp welches ein Open-Source-Framework zum Ausführen von LLMs auf Ihrem Mac-, Linux-, Windows- usw. Gerät ist. Llama.cpp enthält llama-server welches es Ihnen ermöglicht, LLMs effizient bereitzustellen und zu deployen. Das Modell wird auf Port 8001 bereitgestellt, wobei alle Agent-Tools über einen einzigen OpenAI-kompatiblen Endpunkt geroutet werden.

Für Modell-Quants werden wir Unsloth Dynamische GGUFs verwenden, um jedes LLM quantisiert auszuführen und dabei so viel Genauigkeit wie möglich zu erhalten.

📖 Schritt #1: Llama.cpp installieren Tutorial

Wir müssen llama.cpp installieren, um lokale LLMs zu deployen/serven, die in Codex usw. verwendet werden. Wir folgen den offiziellen Build-Anweisungen für korrekte GPU-Bindings und maximale Leistung. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz wünschen.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Modelle herunterladen und lokal verwenden

Laden Sie das Modell über huggingface_hub in Python herunter (nach der Installation via pip install huggingface_hub hf_transfer). Wir verwenden das UD-Q4_K_XL Quant für das beste Größen-/Genauigkeitsverhältnis. Sie finden alle Unsloth GGUF-Uploads in unserem Sammlung hier.

Wir haben unsloth/GLM-4.7-Flash-GGUF verwendet, aber Sie können alles wie unsloth/Qwen3-Coder-Next-GGUF verwenden - siehe Qwen3-Coder-Next

import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download

snapshot_download(
    repo_id = "unsloth/GLM-4.7-Flash-GGUF",
    local_dir = "unsloth/GLM-4.7-Flash-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)

Starten Sie den Llama-Server

Um GLM-4.7-Flash für agentische Workloads bereitzustellen, verwenden wir llama-server. Wir wenden Z.ai's empfohlene Sampling-Parameter an (temp 1.0, top_p 0.95) und aktivieren --jinja für ordnungsgemäße Tool-Aufruf-Unterstützung.

Führen Sie diesen Befehl in einem neuen Terminal aus (verwenden Sie tmux oder öffnen Sie ein neues Terminal). Das Folgende sollte perfekt in eine 24GB GPU (RTX 4090) passen (verwendet 23GB) --fit on wird auch automatisch auslagern, aber wenn Sie schlechte Leistung sehen, reduzieren Sie --ctx-size . Wir haben --cache-type-k q8_0 --cache-type-v q8_0 für KV-Cache-Quantisierung verwendet, um den VRAM-Verbrauch zu reduzieren.

./llama.cpp/llama-server \
    --model unsloth/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf \
    --alias "unsloth/GLM-4.7-Flash" \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --port 8001 \
    --kv-unified \
    --cache-type-k q8_0 --cache-type-v q8_0 \
    --flash-attn on \
    --batch-size 4096 --ubatch-size 1024 \
    --ctx-size 131072

Sie können Thinking für GLM-4.7-Flash auch deaktivieren, was die Leistung für agentische Codieraufgaben verbessern kann. Um Thinking mit llama.cpp zu deaktivieren, fügen Sie dies dem llama-server Befehl hinzu:

--chat-template-kwargs "{\"enable_thinking\": false}"

👾 Claude Code Tutorial

Claude Code ist Anthropic's agentisches Kodierwerkzeug, das in Ihrem Terminal läuft, Ihren Codebestand versteht und komplexe Git-Workflows per natürlicher Sprache abwickelt.

Installieren Sie Claude Code und führen Sie es lokal aus

curl -fsSL https://claude.ai/install.sh | bash
# Oder via Homebrew: brew install --cask claude-code

Konfigurieren Sie

Setzen Sie die ANTHROPIC_BASE_URL Umgebungsvariable, um Claude Code auf Ihren lokalen llama.cpp Server umzuleiten:

export ANTHROPIC_BASE_URL="http://localhost:8001"

Möglicherweise müssen Sie auch ANTHROPIC_API_KEY je nach Server setzen. Zum Beispiel:

export ANTHROPIC_API_KEY='sk-no-key-required' ## oder 'sk-1234'

Sitzung vs. Persistenz: Die obigen Befehle gelten nur für das aktuelle Terminal. Um sie in neuen Terminals beizubehalten:

Fügen Sie die export Zeile zu ~/.bashrc (bash) oder ~/.zshrc (zsh) hinzu.

Wenn Sie sehen Verbindung zur API nicht möglich (ConnectionRefused) denken Sie daran, ANTHROPIC_BASE_URL über unset ANTHROPIC_BASE_URL

Fehlender API-Schlüssel

Wenn Sie dies sehen, setzen Sie export ANTHROPIC_API_KEY='sk-no-key-required' ## oder 'sk-1234'

Verwenden Sie Powershell für alle folgenden Befehle:

irm https://claude.ai/install.ps1 | iex

Konfigurieren Sie

Setzen Sie die ANTHROPIC_BASE_URL Umgebungsvariable, um Claude Code auf Ihren lokalen llama.cpp Server umzuleiten:

$env:ANTHROPIC_BASE_URL="http://localhost:8001"

Sitzung vs. Persistenz: Die obigen Befehle gelten nur für das aktuelle Terminal. Um sie in neuen Terminals beizubehalten:

Ausführen setx ANTHROPIC_BASE_URL "http://localhost:8001" einmal, oder fügen Sie die $env: Zeile zu Ihrem $PROFILE.

🌟Claude Code lokal auf Linux / Mac / Windows ausführen

Wir haben unsloth/GLM-4.7-Flash-GGUF verwendet, aber Sie können alles wie unsloth/Qwen3-Coder-Next-GGUF verwenden - siehe Qwen3-Coder-Next

Navigieren Sie zu Ihrem Projektordner (mkdir project ; cd project) und führen Sie aus:

claude --model unsloth/GLM-4.7-Flash

Um Claude Code so einzustellen, dass Befehle ohne Genehmigungen ausgeführt werden, tun Sie (VORSICHT: Dadurch wird Claude Code ohne Genehmigungen beliebigen Code ausführen und ausführen!)

claude --model unsloth/GLM-4.7-Flash --dangerously-skip-permissions

Versuchen Sie diese Eingabeaufforderung, um eine einfache Unsloth-Finetune-Installation und -Ausführung zu installieren und auszuführen:

Sie dürfen nur im Arbeitsverzeichnis project/ arbeiten. Suchen Sie nicht nach CLAUDE.md - das ist es. Installieren Sie Unsloth über eine virtuelle Umgebung mittels uv. Siehe https://unsloth.ai/docs/get-started/install/pip-install, wie (holen Sie es und lesen Sie). Führen Sie dann einen einfachen Unsloth-Finetuning-Lauf durch, wie in https://github.com/unslothai/unsloth beschrieben. Sie haben Zugriff auf 1 GPU.

Nach einer kurzen Wartezeit wird Unsloth in einem venv via uv installiert und geladen:

und schließlich sehen Sie ein erfolgreich mit Unsloth feinabgestimmtes Modell!

IDE-Erweiterung (VS Code / Cursor)

Sie können Claude Code auch direkt in Ihrem Editor über die offizielle Erweiterung verwenden:

Alternativ drücken Sie Strg+Shift+X (Windows/Linux) oder Cmd+Shift+X (Mac), suchen nach Claude Codeund klicken Sie Installieren Sie.

Wenn Sie sehen Verbindung zur API nicht möglich (ConnectionRefused) denken Sie daran, ANTHROPIC_BASE_URL über unset ANTHROPIC_BASE_URL

👾 OpenAI Codex CLI Tutorial

Codex ist OpenAIs offizieller Kodieragent, der lokal läuft. Obwohl er für ChatGPT entwickelt wurde, unterstützt er benutzerdefinierte API-Endpunkte, was ihn perfekt für lokale LLMs macht. Siehe https://developers.openai.com/codex/windows/ für die Installation unter Windows - es ist am besten, WSL zu verwenden.

Installieren Sie

Mac (Homebrew):

brew install --cask codex

Universal (NPM) für Linux

apt update
apt install nodejs npm -y
npm install -g @openai/codex

Konfigurieren Sie

Erster Lauf codex um sich anzumelden und Dinge einzurichten, erstellen oder bearbeiten Sie dann die Konfigurationsdatei unter ~/.codex/config.toml (Mac/Linux) oder %USERPROFILE%\.codex\config.toml (Windows).

Verwenden Sie cat > ~/.codex/config.toml für Linux / Mac:

[model_providers.llama_cpp]
name = "llama_cpp API"
base_url = "http://localhost:8001/v1"
wire_api = "responses"
stream_idle_timeout_ms = 10000000

Navigieren Sie zu Ihrem Projektordner (mkdir project ; cd project) und führen Sie aus:

codex --model unsloth/GLM-4.7-Flash -c model_provider=llama_cpp --search

Oder um jegliche Code-Ausführung zu erlauben. (VORSICHT: Dadurch wird Codex ohne Genehmigungen beliebigen Code ausführen und ausführen!)

codex --model unsloth/GLM-4.7-Flash -c model_provider=llama_cpp --search --dangerously-bypass-approvals-and-sandbox

Und Sie werden sehen:

OpenAIs Codex entfernt offenbar wire_api = "chat" unterstützung - es funktioniert jedoch weiterhin Stand 29. Januar 2026. Wir sollten zu wire_api = "responses" wechseln, aber es gibt weiterhin Fehler mit: {"error":{"code":400,"message":"'type' of tool must be 'function'","type":"invalid_request_error"}}

Versuchen Sie diese Eingabeaufforderung, um eine einfache Unsloth-Finetune-Installation und -Ausführung zu installieren und auszuführen:

Sie dürfen nur im Arbeitsverzeichnis project/ arbeiten. Suchen Sie nicht nach AGENTS.md - das ist es. Installieren Sie Unsloth über eine virtuelle Umgebung mittels uv. Siehe https://unsloth.ai/docs/get-started/install/pip-install, wie (holen Sie es und lesen Sie). Führen Sie dann einen einfachen Unsloth-Finetuning-Lauf durch, wie in https://github.com/unslothai/unsloth beschrieben. Sie haben Zugriff auf 1 GPU.

und Sie werden sehen:

und wenn wir etwas länger warten, erhalten wir schließlich:

VorherigeQwQ-32B NächsteInference & Deployment

Zuletzt aktualisiert vor 1 Tag

War das hilfreich?

hashtag📖 Schritt #1: Llama.cpp installieren Tutorial

hashtagModelle herunterladen und lokal verwenden

hashtagStarten Sie den Llama-Server

hashtag👾 Claude Code Tutorial

hashtagInstallieren Sie Claude Code und führen Sie es lokal aus

hashtag🌟Claude Code lokal auf Linux / Mac / Windows ausführen

hashtag👾 OpenAI Codex CLI Tutorial

hashtagInstallieren Sie

📖 Schritt #1: Llama.cpp installieren Tutorial

Modelle herunterladen und lokal verwenden

Starten Sie den Llama-Server

👾 Claude Code Tutorial

Installieren Sie Claude Code und führen Sie es lokal aus

🌟Claude Code lokal auf Linux / Mac / Windows ausführen

👾 OpenAI Codex CLI Tutorial

Installieren Sie