openaiWie man lokale LLMs mit OpenAI Codex ausführt

Verwende offene Modelle lokal auf deinem Gerät mit OpenAI Codex.

Dieser Leitfaden führt Sie durch das Verbinden offener LLMs mit dem Codex-CLI vollständig lokal. Es funktioniert mit jeder OpenAI- oder API-kompatiblen lokalen Modellkonfiguration, einschließlich: DeepSeek, Qwen, Gemma und mehr.

In diesem Tutorial verwenden wir GLM-4.7-Flasharrow-up-right (ein 30B MoE, agentisches + Coding-Modell), das gut auf ein Gerät mit 24 GB RAM/unified memory passt, um ein LLM autonom mit Unslotharrow-up-right. Bevorzugen Sie ein anderes Modell? Tauschen Sie jedes andere Modellarrow-up-right aus, indem Sie die Modellnamen in den Skripten aktualisieren.

openaiOpenAI Codex Tutorial

Für Modell-Quants verwenden wir Unsloth Dynamische GGUFsarrow-up-right damit Sie quantisierte GGUF-Modelle ausführen können und dabei so viel Qualität wie möglich erhalten.

Wir verwenden llama.cpparrow-up-right, eine Open-Source-Laufzeit zum Ausführen von LLMs auf macOS, Linux und Windows. Seine llama-server Komponente ermöglicht es, Modelle effizient über einen einzigen OpenAI-kompatiblen HTTP-Endpunkt bereitzustellen. In dieser Konfiguration wird das Modell auf Port 8001bereitgestellt, und alle Agenten-Tool-Aufrufe werden über diesen einen Endpunkt geleitet.

📖 #1: Setup-Tutorial

1

Installieren Sie llama.cpp

Wir müssen llama.cpp installieren, um lokale LLMs bereitzustellen/zu servieren, die in Codex usw. verwendet werden. Wir folgen den offiziellen Build-Anweisungen für korrekte GPU-Bindings und maximale Leistung. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder einfach nur CPU-Inferenz möchten. Für Apple Mac / Metal-Geräte, setzen Sie -DGGML_CUDA=OFF und fahren Sie dann wie üblich fort - Metal-Unterstützung ist standardmäßig aktiviert.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
2

Modelle herunterladen und lokal verwenden

Laden Sie das Modell über huggingface_hub in Python herunter (nach der Installation via pip install huggingface_hub hf_transfer). Wir verwenden den UD-Q4_K_XL Quant für das beste Verhältnis von Größe zu Genauigkeit. Sie finden alle Unsloth GGUF-Uploads in unserer Sammlung hier. Wenn Downloads hängen bleiben, siehe Hugging Face Hub, XET-Debugging

circle-check
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download

snapshot_download(
    repo_id = "unsloth/GLM-4.7-Flash-GGUF",
    local_dir = "unsloth/GLM-4.7-Flash-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)
3

Starten Sie den Llama-Server

Um GLM-4.7-Flash für agentische Workloads bereitzustellen, verwenden wir llama-server. Wir wenden Z.ais empfohlene Sampling-Parameter an (temp 1.0, top_p 0.95) und aktivieren --jinja für ordnungsgemäße Tool-Calling-Unterstützung.

Führen Sie diesen Befehl in einem neuen Terminal aus (verwenden Sie tmux oder öffnen Sie ein neues Terminal). Das Folgende sollte perfekt auf eine 24GB GPU (RTX 4090) passen (verwendet 23GB) --fit on wird auch automatisch auslagern, aber wenn Sie schlechte Leistung sehen, reduzieren Sie --ctx-size . Wir haben --cache-type-k q8_0 --cache-type-v q8_0 für die KV-Cache-Quantisierung verwendet, um den VRAM-Verbrauch zu reduzieren.

./llama.cpp/llama-server \
    --model unsloth/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf \
    --alias "unsloth/GLM-4.7-Flash" \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --port 8001 \
    --kv-unified \
    --cache-type-k q8_0 --cache-type-v q8_0 \
    --flash-attn on \
    --batch-size 4096 --ubatch-size 1024 \
    --ctx-size 131072
circle-check

openai OpenAI Codex CLI Tutorial

Codex arrow-up-rightist OpenAIs offizieller Coding-Agent, der lokal läuft. Obwohl er für ChatGPT entwickelt wurde, unterstützt er benutzerdefinierte API-Endpunkte und ist somit perfekt für lokale LLMs geeignet. Für die Installation unter Windowsarrow-up-right - ist es am besten, WSL zu verwenden.

Installieren Sie

Mac (Homebrew):

brew install --cask codex

Universal (NPM) für Linux

apt update
apt install nodejs npm -y
npm install -g @openai/codex

Konfigurieren

Führen Sie zuerst codex aus, um sich anzumelden und Dinge einzurichten, und erstellen oder bearbeiten Sie dann die Konfigurationsdatei unter ~/.codex/config.toml (Mac/Linux) oder %USERPROFILE%\.codex\config.toml (Windows).

Verwenden Sie cat > ~/.codex/config.toml für Linux / Mac:

Navigieren Sie zu Ihrem Projektordner (mkdir project ; cd project) und führen Sie aus:

Oder um jeglichen Code ausführen zu lassen. (WARNUNG: Dies wird Codex erlauben, Code nach eigenem Ermessen auszuführen, ohne Genehmigungen!)

Und Sie werden sehen:

circle-exclamation

Probieren Sie diesen Prompt, um ein einfaches Unsloth-Finetune zu installieren und auszuführen:

und Sie werden sehen:

und wenn wir ein wenig länger warten, bekommen wir schließlich:

Zuletzt aktualisiert

War das hilfreich?