openaiWie man lokale LLMs mit OpenAI Codex ausführt

Verwende offene Modelle lokal auf deinem Gerät mit OpenAI Codex.

Dieser Leitfaden führt Sie durch das Verbinden offener LLMs mit der Codex-CLI vollständig lokal. Es funktioniert mit jeder OpenAI- oder API-kompatiblen lokalen Modellkonfiguration, einschließlich: DeepSeek, Qwen, Gemma und mehr.

In diesem Tutorial verwenden wir GLM-4.7-Flasharrow-up-right (ein 30B MoE-, agentenfähiges + Coding-Modell), das gut auf ein 24GB RAM/Unified-Memory-Gerät passt, um ein LLM autonom mit Unslotharrow-up-right. Bevorzugen Sie ein anderes Modell? Tauschen Sie es einfach gegen jedes andere Modellarrow-up-right aus, indem Sie die Modellnamen in den Skripten aktualisieren.

openaiOpenAI Codex Tutorial

Für Modell-Quants verwenden wir Unsloth Dynamische GGUFsarrow-up-right damit Sie quantisierte GGUF-Modelle ausführen können und dabei so viel Qualität wie möglich erhalten.

Wir verwenden llama.cpparrow-up-right, eine Open-Source-Runtime zum Ausführen von LLMs auf macOS, Linux und Windows. Seine llama-server Komponente ermöglicht es, Modelle effizient über einen einzigen OpenAI-kompatiblen HTTP-Endpunkt bereitzustellen. In dieser Konfiguration wird das Modell auf Port 8001bereitgestellt, und alle Agent-Tool-Aufrufe werden über diesen einen Endpunkt geleitet.

📖 #1: Einrichtungs-Tutorial

1

Installiere llama.cpp

Wir müssen installieren llama.cpp um lokale LLMs zu deployen/bereitzustellen, die in Codex usw. verwendet werden. Wir folgen den offiziellen Build-Anweisungen für korrekte GPU-Bindings und maximale Leistung. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder einfach CPU-Inferenz möchten.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
2

Modelle herunterladen und lokal verwenden

Laden Sie das Modell über huggingface_hub in Python herunter (nach Installation via pip install huggingface_hub hf_transfer). Wir verwenden das UD-Q4_K_XL Quant für das beste Größen-/Genauigkeits-Verhältnis. Sie finden alle Unsloth GGUF-Uploads in unserer Sammlung hier. Wenn Downloads hängen bleiben, siehe Hugging Face Hub, XET-Debugging

circle-check
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download

snapshot_download(
    repo_id = "unsloth/GLM-4.7-Flash-GGUF",
    local_dir = "unsloth/GLM-4.7-Flash-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)
3

Starten Sie den Llama-Server

Um GLM-4.7-Flash für agentenlastige Workloads bereitzustellen, verwenden wir llama-server. Wir wenden Z.ais empfohlene Sampling-Parameter an (temp 1.0, top_p 0.95) und aktivieren --jinja für ordnungsgemäße Tool-Calling-Unterstützung.

Führen Sie diesen Befehl in einem neuen Terminal aus (verwenden Sie tmux oder öffnen Sie ein neues Terminal). Das Folgende sollte perfekt auf eine 24GB GPU (RTX 4090) passen (verwendet 23GB) --fit auf wird ebenfalls automatisch auslagern, aber wenn Sie schlechte Leistung sehen, verringern Sie --ctx-size . Wir verwendeten --cache-type-k q8_0 --cache-type-v q8_0 für KV-Cache-Quantisierung, um den VRAM-Verbrauch zu reduzieren.

./llama.cpp/llama-server \
    --model unsloth/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf \
    --alias "unsloth/GLM-4.7-Flash" \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --port 8001 \
    --kv-unified \
    --cache-type-k q8_0 --cache-type-v q8_0 \
    --flash-attn on \
    --batch-size 4096 --ubatch-size 1024 \
    --ctx-size 131072
circle-check

openai OpenAI Codex CLI Tutorial

Codex arrow-up-rightist OpenAIs offizieller Coding-Agent, der lokal läuft. Obwohl es für ChatGPT entwickelt wurde, unterstützt es benutzerdefinierte API-Endpunkte, was es perfekt für lokale LLMs macht. Zur Installation auf Windowsarrow-up-right – es ist am besten, WSL zu verwenden.

Installieren

Mac (Homebrew):

brew install --cask codex

Universal (NPM) für Linux

apt update
apt install nodejs npm -y
npm install -g @openai/codex

Konfigurieren

Führen Sie zuerst aus codex um sich anzumelden und Dinge einzurichten, und erstellen oder bearbeiten Sie dann die Konfigurationsdatei unter ~/.codex/config.toml (Mac/Linux) oder %USERPROFILE%\.codex\config.toml (Windows).

Verwenden Sie cat > ~/.codex/config.toml für Linux / Mac:

Navigieren Sie in Ihren Projektordner (mkdir project ; cd project) und führen Sie aus:

Oder um jedem Code die Ausführung zu erlauben. (ACHTUNG: dies lässt Codex Code nach eigenem Ermessen ausführen und ausführen, ohne irgendwelche Genehmigungen!)

Und Sie werden sehen:

circle-exclamation

Versuchen Sie diesen Prompt, um eine einfache Unsloth-Finetuning-Ausführung zu installieren und auszuführen:

und Sie werden sehen:

und wenn wir ein wenig länger warten, erhalten wir schließlich:

Zuletzt aktualisiert

War das hilfreich?