openaiComment exécuter des LLM locaux avec OpenAI Codex

Utilisez des modèles ouverts avec OpenAI Codex sur votre appareil localement.

Ce guide vous expliquera comment connecter des LLM open à l'interface de ligne de commande Codex entièrement localement. Il fonctionne avec n'importe quelle configuration de modèle local compatible OpenAI ou API, y compris : DeepSeek, Qwen, Gemma, et plus encore.

Dans ce didacticiel, nous utiliserons GLM-4.7-Flasharrow-up-right (un MoE 30B, modèle agentique + codage) qui tient confortablement sur un appareil avec 24 Go de RAM/mémoire unifiée pour affiner de manière autonome un LLM en utilisant Unslotharrow-up-right. Vous préférez un autre modèle ? Remplacez par n'importe quel autre modèlearrow-up-right en mettant à jour les noms de modèles dans les scripts.

openaiTutoriel OpenAI Codex

Pour les quants de modèle, nous utiliserons Unsloth GGUF dynamiquesarrow-up-right afin que vous puissiez exécuter des modèles GGUF quantifiés tout en préservant autant que possible la qualité.

Nous utiliserons llama.cpparrow-up-right, un runtime open-source pour exécuter des LLM sur macOS, Linux et Windows. Son llama-server composant vous permet de servir des modèles efficacement via un unique endpoint HTTP compatible OpenAI . Dans cette configuration, le modèle est servi sur le port 8001, et tous les appels d'outils de l'agent sont routés via cet unique endpoint.

📖 #1 : Tutoriel d'installation

1

Installez llama.cpp

Nous devons installer llama.cpp pour déployer/servir des LLM locaux à utiliser dans Codex, etc. Nous suivons les instructions de compilation officielles pour des liaisons GPU correctes et des performances maximales. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU ou si vous souhaitez simplement une inférence CPU.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
2

Téléchargez et utilisez les modèles localement

Téléchargez le modèle via huggingface_hub en Python (après installation via pip install huggingface_hub hf_transfer). Nous utilisons le UD-Q4_K_XL quant pour le meilleur compromis taille/précision. Vous pouvez trouver tous les téléchargements GGUF d'Unsloth dans notre Collection ici. Si les téléchargements se bloquent, voir Hugging Face Hub, débogage XET

circle-check
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download

snapshot_download(
    repo_id = "unsloth/GLM-4.7-Flash-GGUF",
    local_dir = "unsloth/GLM-4.7-Flash-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)
3

Démarrez le Llama-server

Pour déployer GLM-4.7-Flash pour des charges de travail agentiques, nous utilisons llama-server. Nous appliquons les paramètres d'échantillonnage recommandés par Z.ai (temp 1.0, top_p 0.95) et activons --jinja pour un support correct des appels d'outils.

Exécutez cette commande dans un nouveau terminal (utilisez tmux ou ouvrez un nouveau terminal). Ce qui suit devrait tenir parfaitement sur un GPU 24 Go (RTX 4090) (utilise 23 Go) --fit on gérera aussi le déchargement automatique, mais si vous observez de mauvaises performances, réduisez --ctx-size . Nous avons utilisé --cache-type-k q8_0 --cache-type-v q8_0 pour la quantification du cache KV afin de réduire l'utilisation de la VRAM.

./llama.cpp/llama-server \
    --model unsloth/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf \
    --alias "unsloth/GLM-4.7-Flash" \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --port 8001 \
    --kv-unified \
    --cache-type-k q8_0 --cache-type-v q8_0 \
    --flash-attn on \
    --batch-size 4096 --ubatch-size 1024 \
    --ctx-size 131072
circle-check

openai Tutoriel CLI OpenAI Codex

Codex arrow-up-rightest l'agent de codage officiel d'OpenAI qui s'exécute localement. Bien que conçu pour ChatGPT, il prend en charge des endpoints API personnalisés, ce qui le rend parfait pour les LLM locaux. Pour l'installation sur Windowsarrow-up-right - il est préférable d'utiliser WSL.

Installez

Mac (Homebrew) :

brew install --cask codex

Universel (NPM) pour Linux

apt update
apt install nodejs npm -y
npm install -g @openai/codex

Configuration

Exécutez d'abord codex pour vous connecter et configurer les choses, puis créez ou modifiez le fichier de configuration à ~/.codex/config.toml (Mac/Linux) ou %USERPROFILE%\.codex\config.toml (Windows).

Utilisez cat > ~/.codex/config.toml pour Linux / Mac :

Accédez à votre dossier de projet (mkdir project ; cd project) et exécutez :

Ou pour permettre à n'importe quel code de s'exécuter. (ATTENTION cela fera en sorte que Codex fasse et exécute du code comme il l'entend sans aucune approbation !)

Et vous verrez :

circle-exclamation

Essayez cette invite pour installer et exécuter un simple finetune Unsloth :

et vous verrez :

et si nous attendons un peu plus longtemps, nous obtenons enfin :

Mis à jour

Ce contenu vous a-t-il été utile ?