openaiComment exécuter des LLMs locaux avec OpenAI Codex

Utilisez des modèles open avec OpenAI Codex sur votre appareil localement.

Ce guide vous expliquera comment connecter des LLMs ouverts au CLI Codex entièrement localement. Il fonctionne avec toute configuration locale de modèle compatible OpenAI ou API, y compris : DeepSeek, Qwen, Gemma, et plus encore.

Dans ce tutoriel, nous utiliserons GLM-4.7-Flasharrow-up-right (un MoE 30B, modèle agentif + codage) qui tient bien sur un appareil à 24 Go de RAM/mémoire unifiée pour affiner automatiquement un LLM en utilisant Unslotharrow-up-right. Vous préférez un autre modèle ? Remplacez par n'importe quel autre modèlearrow-up-right en mettant à jour les noms de modèle dans les scripts.

openaiTutoriel OpenAI Codex

Pour les quants de modèle, nous utiliserons Unsloth Dynamic GGUFsarrow-up-right pour que vous puissiez exécuter des modèles GGUF quantifiés tout en préservant autant de qualité que possible.

Nous utiliserons llama.cpparrow-up-right, un runtime open-source pour exécuter des LLMs sur macOS, Linux et Windows. Son llama-server composant vous permet de servir des modèles efficacement via un seul endpoint HTTP compatible OpenAI . Dans cette configuration, le modèle est servi sur le port 8001, et tous les appels d'outils d'agent sont routés via ce seul endpoint.

📖 #1 : Tutoriel d'installation

1

Installer llama.cpp

Nous devons installer llama.cpp pour déployer/servir des LLMs locaux à utiliser dans Codex, etc. Nous suivons les instructions de build officielles pour des liaisons GPU correctes et des performances maximales. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU ou si vous voulez simplement l'inférence CPU. Pour appareils Apple Mac / Metal, définissez -DGGML_CUDA=OFF puis continuez comme d'habitude - le support Metal est activé par défaut.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
2

Télécharger et utiliser des modèles localement

Téléchargez le modèle via huggingface_hub en Python (après installation via pip install huggingface_hub hf_transfer). Nous utilisons le UD-Q4_K_XL quant pour le meilleur compromis taille/précision. Vous pouvez trouver tous les uploads GGUF d'Unsloth dans notre Collection ici. Si les téléchargements se bloquent, voir Hugging Face Hub, débogage XET

circle-check
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download

snapshot_download(
    repo_id = "unsloth/GLM-4.7-Flash-GGUF",
    local_dir = "unsloth/GLM-4.7-Flash-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)
3

Démarrer le Llama-server

Pour déployer GLM-4.7-Flash pour des charges de travail agentives, nous utilisons llama-server. Nous appliquons les paramètres d'échantillonnage recommandés par Z.ai (temp 1.0, top_p 0.95) et activons --jinja pour un support correct des appels d'outils.

Exécutez cette commande dans un nouveau terminal (utilisez tmux ou ouvrez un nouveau terminal). Ce qui suit devrait tenir parfaitement dans un GPU 24 Go (RTX 4090) (utilise 23 Go) --fit on offrira également un déchargement automatique, mais si vous constatez de mauvaises performances, réduisez --ctx-size . Nous avons utilisé --cache-type-k q8_0 --cache-type-v q8_0 pour la quantification du cache KV afin de réduire l'utilisation de la VRAM.

./llama.cpp/llama-server \
    --model unsloth/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf \
    --alias "unsloth/GLM-4.7-Flash" \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --port 8001 \
    --kv-unified \
    --cache-type-k q8_0 --cache-type-v q8_0 \
    --flash-attn on \
    --batch-size 4096 --ubatch-size 1024 \
    --ctx-size 131072
circle-check

openai Tutoriel OpenAI Codex CLI

Codex arrow-up-rightest l'agent de codage officiel d'OpenAI qui s'exécute localement. Bien qu'il soit conçu pour ChatGPT, il prend en charge des endpoints API personnalisés, ce qui le rend parfait pour les LLMs locaux. Pour l'installation sur Windowsarrow-up-right - il est préférable d'utiliser WSL.

Installer

Mac (Homebrew) :

brew install --cask codex

Universel (NPM) pour Linux

apt update
apt install nodejs npm -y
npm install -g @openai/codex

Configurer

Exécutez d'abord codex pour vous connecter et configurer les choses, puis créez ou modifiez le fichier de configuration à ~/.codex/config.toml (Mac/Linux) ou %USERPROFILE%\.codex\config.toml (Windows).

Utilisez cat > ~/.codex/config.toml pour Linux / Mac :

Naviguez vers votre dossier de projet (mkdir project ; cd project) et exécutez :

Ou pour autoriser l'exécution de n'importe quel code. (ATTENTION cela fera que Codex fera et exécutera du code comme il l'entend sans aucune approbation !)

Et vous verrez :

circle-exclamation

Essayez cette invite pour installer et exécuter un simple finetune Unsloth :

et vous verrez :

et si nous attendons un peu plus longtemps, nous obtenons enfin :

Mis à jour

Ce contenu vous a-t-il été utile ?