Wie man lokale LLMs mit OpenAI Codex ausführt

Verwende offene Modelle lokal auf deinem Gerät mit OpenAI Codex.

Dieser Leitfaden führt Sie durch das Verbinden offener LLMs mit dem Codex-CLI vollständig lokal. Es funktioniert mit jeder OpenAI- oder API-kompatiblen lokalen Modellkonfiguration, einschließlich: DeepSeek, Qwen, Gemma und mehr.

In diesem Tutorial verwenden wir GLM-4.7-Flash (ein 30B MoE, agentisches + Coding-Modell), das gut auf ein Gerät mit 24 GB RAM/unified memory passt, um ein LLM autonom mit Unsloth. Bevorzugen Sie ein anderes Modell? Tauschen Sie jedes andere Modell aus, indem Sie die Modellnamen in den Skripten aktualisieren.

OpenAI Codex Tutorial

Für Modell-Quants verwenden wir Unsloth Dynamische GGUFs damit Sie quantisierte GGUF-Modelle ausführen können und dabei so viel Qualität wie möglich erhalten.

Wir verwenden llama.cpp, eine Open-Source-Laufzeit zum Ausführen von LLMs auf macOS, Linux und Windows. Seine llama-server Komponente ermöglicht es, Modelle effizient über einen einzigen OpenAI-kompatiblen HTTP-Endpunkt bereitzustellen. In dieser Konfiguration wird das Modell auf Port 8001bereitgestellt, und alle Agenten-Tool-Aufrufe werden über diesen einen Endpunkt geleitet.

📖 #1: Setup-Tutorial

Installieren Sie llama.cpp

Wir müssen llama.cpp installieren, um lokale LLMs bereitzustellen/zu servieren, die in Codex usw. verwendet werden. Wir folgen den offiziellen Build-Anweisungen für korrekte GPU-Bindings und maximale Leistung. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder einfach nur CPU-Inferenz möchten. Für Apple Mac / Metal-Geräte, setzen Sie -DGGML_CUDA=OFF und fahren Sie dann wie üblich fort - Metal-Unterstützung ist standardmäßig aktiviert.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Modelle herunterladen und lokal verwenden

Laden Sie das Modell über huggingface_hub in Python herunter (nach der Installation via pip install huggingface_hub hf_transfer). Wir verwenden den UD-Q4_K_XL Quant für das beste Verhältnis von Größe zu Genauigkeit. Sie finden alle Unsloth GGUF-Uploads in unserer Sammlung hier. Wenn Downloads hängen bleiben, siehe Hugging Face Hub, XET-Debugging

Wir haben unsloth/GLM-4.7-Flash-GGUF verwendet, aber Sie können alles wie unsloth/Qwen3-Coder-Next-GGUF verwenden - siehe Qwen3-Coder-Next

import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download

snapshot_download(
    repo_id = "unsloth/GLM-4.7-Flash-GGUF",
    local_dir = "unsloth/GLM-4.7-Flash-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)

Starten Sie den Llama-Server

Um GLM-4.7-Flash für agentische Workloads bereitzustellen, verwenden wir llama-server. Wir wenden Z.ais empfohlene Sampling-Parameter an (temp 1.0, top_p 0.95) und aktivieren --jinja für ordnungsgemäße Tool-Calling-Unterstützung.

Führen Sie diesen Befehl in einem neuen Terminal aus (verwenden Sie tmux oder öffnen Sie ein neues Terminal). Das Folgende sollte perfekt auf eine 24GB GPU (RTX 4090) passen (verwendet 23GB) --fit on wird auch automatisch auslagern, aber wenn Sie schlechte Leistung sehen, reduzieren Sie --ctx-size . Wir haben --cache-type-k q8_0 --cache-type-v q8_0 für die KV-Cache-Quantisierung verwendet, um den VRAM-Verbrauch zu reduzieren.

./llama.cpp/llama-server \
    --model unsloth/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf \
    --alias "unsloth/GLM-4.7-Flash" \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --port 8001 \
    --kv-unified \
    --cache-type-k q8_0 --cache-type-v q8_0 \
    --flash-attn on \
    --batch-size 4096 --ubatch-size 1024 \
    --ctx-size 131072

Sie können das ‚Thinking‘ für GLM-4.7-Flash auch deaktivieren, was die Leistung für agentische Coding-Aufgaben verbessern kann. Um Thinking mit llama.cpp zu deaktivieren, fügen Sie dies zum llama-server-Befehl hinzu:

--chat-template-kwargs "{\"enable_thinking\": false}"

OpenAI Codex CLI Tutorial

Codex ist OpenAIs offizieller Coding-Agent, der lokal läuft. Obwohl er für ChatGPT entwickelt wurde, unterstützt er benutzerdefinierte API-Endpunkte und ist somit perfekt für lokale LLMs geeignet. Für die Installation unter Windows - ist es am besten, WSL zu verwenden.

Installieren Sie

Mac (Homebrew):

brew install --cask codex

Universal (NPM) für Linux

apt update
apt install nodejs npm -y
npm install -g @openai/codex

Konfigurieren

Führen Sie zuerst codex aus, um sich anzumelden und Dinge einzurichten, und erstellen oder bearbeiten Sie dann die Konfigurationsdatei unter ~/.codex/config.toml (Mac/Linux) oder %USERPROFILE%\.codex\config.toml (Windows).

Verwenden Sie cat > ~/.codex/config.toml für Linux / Mac:

[model_providers.llama_cpp]
name = "llama_cpp API"
base_url = "http://localhost:8001/v1"
wire_api = "responses"
stream_idle_timeout_ms = 10000000

Navigieren Sie zu Ihrem Projektordner (mkdir project ; cd project) und führen Sie aus:

codex --model unsloth/GLM-4.7-Flash -c model_provider=llama_cpp --search

Oder um jeglichen Code ausführen zu lassen. (WARNUNG: Dies wird Codex erlauben, Code nach eigenem Ermessen auszuführen, ohne Genehmigungen!)

codex --model unsloth/GLM-4.7-Flash -c model_provider=llama_cpp --search --dangerously-bypass-approvals-and-sandbox

Und Sie werden sehen:

OpenAIs Codex entfernt offenbar wire_api = "chat" Unterstützung – es funktioniert jedoch noch Stand 29. Januar 2026. Wir sollten auf wire_api = "responses" umschalten, aber es erzeugt weiterhin Fehler mit: {"error":{"code":400,"message":"'type' of tool must be 'function'","type":"invalid_request_error"}}

Probieren Sie diesen Prompt, um ein einfaches Unsloth-Finetune zu installieren und auszuführen:

Sie dürfen nur im aktuellen Arbeitsverzeichnis project/ arbeiten. Suchen Sie nicht nach AGENTS.md - das ist es. Installieren Sie Unsloth über eine virtuelle Umgebung mittels uv. Siehe https://unsloth.ai/docs/get-started/install/pip-install für Anweisungen (holen Sie es sich und lesen Sie es). Führen Sie dann einen einfachen Unsloth-Finetuning-Lauf durch, wie in https://github.com/unslothai/unsloth beschrieben. Ihnen steht 1 GPU zur Verfügung.

und Sie werden sehen:

und wenn wir ein wenig länger warten, bekommen wir schließlich:

VorherigeClaude Code NächsteMulti-GPU Training Unsloth

Zuletzt aktualisiert vor 4 Tagen

War das hilfreich?

hashtag📖 #1: Setup-Tutorial

hashtagInstallieren Sie llama.cpp

hashtagModelle herunterladen und lokal verwenden

hashtagStarten Sie den Llama-Server

hashtagopenai OpenAI Codex CLI Tutorial

hashtagInstallieren Sie

📖 #1: Setup-Tutorial

Installieren Sie llama.cpp

Modelle herunterladen und lokal verwenden

Starten Sie den Llama-Server

OpenAI Codex CLI Tutorial

Installieren Sie