codeWie man lokale LLMs mit Claude Code & OpenAI Codex ausführt

Anleitung zum Ausführen von Claude Code und OpenAI Codex auf deinem lokalen Gerät.

Diese Schritt-für-Schritt-Anleitung zeigt Ihnen, wie Sie offene LLMs vollständig lokal mit Claude Code und Codex verbinden, inklusive Screenshots. Führen Sie sie mit jedem offenen Modell wie DeepSeek, Qwen und Gemma aus.

Für dieses Tutorial verwenden wir GLM-4.7-Flash, das stärkste 30B MoE agentische & kodierende Modell Stand Januar 2026, um autonom ein LLM mit Unslotharrow-up-rightfeinzutunen. Sie können jedes andere Modellverwenden, aktualisieren Sie einfach die Modellnamen in Ihren Skripten.

Claude Code TutorialOpenAI Codex Tutorial

Wir verwenden llama.cpparrow-up-right welches ein Open-Source-Framework zum Ausführen von LLMs auf Ihrem Mac-, Linux-, Windows- usw. Gerät ist. Llama.cpp enthält llama-server welches es Ihnen ermöglicht, LLMs effizient bereitzustellen und zu deployen. Das Modell wird auf Port 8001 bereitgestellt, wobei alle Agent-Tools über einen einzigen OpenAI-kompatiblen Endpunkt geroutet werden.

Für Modell-Quants werden wir Unsloth Dynamische GGUFs verwenden, um jedes LLM quantisiert auszuführen und dabei so viel Genauigkeit wie möglich zu erhalten.

📖 Schritt #1: Llama.cpp installieren Tutorial

1

Wir müssen llama.cpp installieren, um lokale LLMs zu deployen/serven, die in Codex usw. verwendet werden. Wir folgen den offiziellen Build-Anweisungen für korrekte GPU-Bindings und maximale Leistung. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz wünschen.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
2

Modelle herunterladen und lokal verwenden

Laden Sie das Modell über huggingface_hub in Python herunter (nach der Installation via pip install huggingface_hub hf_transfer). Wir verwenden das UD-Q4_K_XL Quant für das beste Größen-/Genauigkeitsverhältnis. Sie finden alle Unsloth GGUF-Uploads in unserem Sammlung hier.

circle-check
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download

snapshot_download(
    repo_id = "unsloth/GLM-4.7-Flash-GGUF",
    local_dir = "unsloth/GLM-4.7-Flash-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)
3

Starten Sie den Llama-Server

Um GLM-4.7-Flash für agentische Workloads bereitzustellen, verwenden wir llama-server. Wir wenden Z.ai's empfohlene Sampling-Parameter an (temp 1.0, top_p 0.95) und aktivieren --jinja für ordnungsgemäße Tool-Aufruf-Unterstützung.

Führen Sie diesen Befehl in einem neuen Terminal aus (verwenden Sie tmux oder öffnen Sie ein neues Terminal). Das Folgende sollte perfekt in eine 24GB GPU (RTX 4090) passen (verwendet 23GB) --fit on wird auch automatisch auslagern, aber wenn Sie schlechte Leistung sehen, reduzieren Sie --ctx-size . Wir haben --cache-type-k q8_0 --cache-type-v q8_0 für KV-Cache-Quantisierung verwendet, um den VRAM-Verbrauch zu reduzieren.

./llama.cpp/llama-server \
    --model unsloth/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf \
    --alias "unsloth/GLM-4.7-Flash" \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --port 8001 \
    --kv-unified \
    --cache-type-k q8_0 --cache-type-v q8_0 \
    --flash-attn on \
    --batch-size 4096 --ubatch-size 1024 \
    --ctx-size 131072
circle-check

👾 Claude Code Tutorial

Claude Code ist Anthropic's agentisches Kodierwerkzeug, das in Ihrem Terminal läuft, Ihren Codebestand versteht und komplexe Git-Workflows per natürlicher Sprache abwickelt.

Installieren Sie Claude Code und führen Sie es lokal aus

curl -fsSL https://claude.ai/install.sh | bash
# Oder via Homebrew: brew install --cask claude-code

Konfigurieren Sie

Setzen Sie die ANTHROPIC_BASE_URL Umgebungsvariable, um Claude Code auf Ihren lokalen llama.cpp Server umzuleiten:

export ANTHROPIC_BASE_URL="http://localhost:8001"

Möglicherweise müssen Sie auch ANTHROPIC_API_KEY je nach Server setzen. Zum Beispiel:

export ANTHROPIC_API_KEY='sk-no-key-required' ## oder 'sk-1234'

Sitzung vs. Persistenz: Die obigen Befehle gelten nur für das aktuelle Terminal. Um sie in neuen Terminals beizubehalten:

Fügen Sie die export Zeile zu ~/.bashrc (bash) oder ~/.zshrc (zsh) hinzu.

Wenn Sie sehen Verbindung zur API nicht möglich (ConnectionRefused) denken Sie daran, ANTHROPIC_BASE_URL über unset ANTHROPIC_BASE_URL

Fehlender API-Schlüssel

Wenn Sie dies sehen, setzen Sie export ANTHROPIC_API_KEY='sk-no-key-required' ## oder 'sk-1234'

🌟Claude Code lokal auf Linux / Mac / Windows ausführen

circle-check

Navigieren Sie zu Ihrem Projektordner (mkdir project ; cd project) und führen Sie aus:

Um Claude Code so einzustellen, dass Befehle ohne Genehmigungen ausgeführt werden, tun Sie (VORSICHT: Dadurch wird Claude Code ohne Genehmigungen beliebigen Code ausführen und ausführen!)

Versuchen Sie diese Eingabeaufforderung, um eine einfache Unsloth-Finetune-Installation und -Ausführung zu installieren und auszuführen:

Nach einer kurzen Wartezeit wird Unsloth in einem venv via uv installiert und geladen:

und schließlich sehen Sie ein erfolgreich mit Unsloth feinabgestimmtes Modell!

IDE-Erweiterung (VS Code / Cursor)

Sie können Claude Code auch direkt in Ihrem Editor über die offizielle Erweiterung verwenden:

Alternativ drücken Sie Strg+Shift+X (Windows/Linux) oder Cmd+Shift+X (Mac), suchen nach Claude Codeund klicken Sie Installieren Sie.

Wenn Sie sehen Verbindung zur API nicht möglich (ConnectionRefused) denken Sie daran, ANTHROPIC_BASE_URL über unset ANTHROPIC_BASE_URL

👾 OpenAI Codex CLI Tutorial

Codex arrow-up-rightist OpenAIs offizieller Kodieragent, der lokal läuft. Obwohl er für ChatGPT entwickelt wurde, unterstützt er benutzerdefinierte API-Endpunkte, was ihn perfekt für lokale LLMs macht. Siehe https://developers.openai.com/codex/windows/arrow-up-right für die Installation unter Windows - es ist am besten, WSL zu verwenden.

Installieren Sie

Mac (Homebrew):

Universal (NPM) für Linux

Konfigurieren Sie

Erster Lauf codex um sich anzumelden und Dinge einzurichten, erstellen oder bearbeiten Sie dann die Konfigurationsdatei unter ~/.codex/config.toml (Mac/Linux) oder %USERPROFILE%\.codex\config.toml (Windows).

Verwenden Sie cat > ~/.codex/config.toml für Linux / Mac:

Navigieren Sie zu Ihrem Projektordner (mkdir project ; cd project) und führen Sie aus:

Oder um jegliche Code-Ausführung zu erlauben. (VORSICHT: Dadurch wird Codex ohne Genehmigungen beliebigen Code ausführen und ausführen!)

Und Sie werden sehen:

circle-exclamation

Versuchen Sie diese Eingabeaufforderung, um eine einfache Unsloth-Finetune-Installation und -Ausführung zu installieren und auszuführen:

und Sie werden sehen:

und wenn wir etwas länger warten, erhalten wir schließlich:

Zuletzt aktualisiert

War das hilfreich?