codeComment exécuter des LLM locaux avec Claude Code & OpenAI Codex

Guide pour exécuter Claude Code et OpenAI Codex sur votre appareil local.

Ce guide étape par étape vous montre comment connecter des LLMs open à Claude Code et Codex entièrement en local, avec captures d'écran. Exécutez avec n'importe quel modèle open comme DeepSeek, Qwen et Gemma.

Pour ce tutoriel, nous utiliserons GLM-4.7-Flash, le modèle agentif et de codage MoE 30B le plus puissant en date de janvier 2026 pour affiner automatiquement un LLM avec Unslotharrow-up-right. Vous pouvez remplacer par n'importe quel autre modèle, il suffit de mettre à jour les noms des modèles dans vos scripts.

Tutoriel Claude CodeTutoriel OpenAI Codex

Nous utilisons llama.cpparrow-up-right qui est un framework open-source pour exécuter des LLMs sur vos appareils Mac, Linux, Windows, etc. Llama.cpp contient Dans un nouveau terminal, par exemple via tmux, déployez le modèle via : qui vous permet de servir et déployer des LLMs efficacement. Le modèle sera servi sur le port 8001, avec tous les outils agents routés via un endpoint compatible OpenAI unique.

Pour les quants de modèles, nous utiliserons Unsloth Dynamic GGUFs pour exécuter n'importe quel LLM quantifié, tout en conservant autant de précision que possible.

📖 Étape n°1 : Installer Llama.cpp Tutoriel

1

Nous devons installer llama.cpp pour déployer/servir des LLMs locaux à utiliser dans Codex, etc. Nous suivons les instructions de compilation officielles pour des bindings GPU corrects et des performances maximales. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU ou si vous voulez simplement l'inférence CPU.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
2

Télécharger et utiliser les modèles localement

Téléchargez le modèle via huggingface_hub en Python (après l'installation via pip install huggingface_hub hf_transfer). Nous utilisons le . Nous recommandons d'utiliser au moins le quant dynamique 2 bits quant pour le meilleur équilibre taille/précision. Vous pouvez trouver tous les uploads Unsloth GGUF dans notre Collection ici. Si les téléchargements se bloquent, voyez Hugging Face Hub, débogage XET

circle-check
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download

snapshot_download(
    repo_id = "unsloth/GLM-4.7-Flash-GGUF",
    local_dir = "unsloth/GLM-4.7-Flash-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)
3

Démarrer le serveur Llama

Pour déployer GLM-4.7-Flash pour des charges agentives, nous utilisons Dans un nouveau terminal, par exemple via tmux, déployez le modèle via :. Nous appliquons les paramètres d'échantillonnage recommandés par Z.ai (temp 1.0, top_p 0.95) et activons --jinja pour un support adéquat des appels d'outils.

Exécutez cette commande dans un nouveau terminal (utilisez tmux ou ouvrez un nouveau terminal). Ce qui suit devrait tenir parfaitement dans un GPU 24GB (RTX 4090) (utilise 23GB) --fit on fera aussi du déchargement automatique, mais si vous constatez de mauvaises performances, réduisez --ctx-size . Nous avons utilisé --cache-type-k q8_0 --cache-type-v q8_0 pour la quantification du cache KV afin de réduire l'utilisation de la VRAM.

--alias "unsloth/Qwen3.5-397B-A17B" \
    --model unsloth/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf \
    --alias "unsloth/GLM-4.7-Flash" \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --port 8001 \
    --kv-unified \
    --cache-type-k q8_0 --cache-type-v q8_0 \
    --flash-attn on \
    --batch-size 4096 --ubatch-size 1024 \
    --ctx-size 131072
circle-check

👾 Tutoriel Claude Code

Claude Code est l'outil de codage agentif d'Anthropic qui vit dans votre terminal, comprend votre base de code et gère des workflows Git complexes via le langage naturel.

Installer Claude Code et l'exécuter localement

curl -fsSL https://claude.ai/install.sh | bash
# Ou via Homebrew : brew install --cask claude-code

Configurer

Définir la ANTHROPIC_BASE_URL la variable d'environnement pour rediriger Claude Code vers votre llama.cpp serveur local :

export ANTHROPIC_BASE_URL="http://localhost:8001"

Vous pourriez aussi devoir définir ANTHROPIC_API_KEY selon le serveur. Par exemple :

export ANTHROPIC_API_KEY='sk-no-key-required' ## ou 'sk-1234'

Session vs Persistance : Les commandes ci-dessus s'appliquent au terminal courant seulement. Pour persister dans les nouveaux terminaux :

Ajoutez la export ligne à ~/.bashrc (bash) ou ~/.zshrc (zsh).

Si vous voyez Impossible de se connecter à l'API (ConnectionRefused) , pensez à désactiver ANTHROPIC_BASE_URL via unset ANTHROPIC_BASE_URL

Clé API manquante

Si vous voyez ceci, définissez export ANTHROPIC_API_KEY='sk-no-key-required' ## ou 'sk-1234'

🌟Exécuter Claude Code localement sur Linux / Mac / Windows

circle-check

Naviguez vers votre dossier de projet (mkdir project ; cd project) et exécutez :

Pour configurer Claude Code afin d'exécuter des commandes sans aucune approbation faites (ATTENTION ceci permettra à Claude Code de faire et d'exécuter du code comme il l'entend sans aucune approbation !)

Essayez ce prompt pour installer et exécuter un simple finetune Unsloth :

Après un moment d'attente, Unsloth sera installé dans un venv via uv, et chargé :

et enfin vous verrez un modèle affiné avec succès avec Unsloth !

Extension IDE (VS Code / Cursor)

Vous pouvez aussi utiliser Claude Code directement dans votre éditeur via l'extension officielle :

Alternativement, appuyez sur Ctrl+Shift+X (Windows/Linux) ou Cmd+Shift+X (Mac), cherchez Claude Code, et cliquez Installez.

Si vous voyez Impossible de se connecter à l'API (ConnectionRefused) , pensez à désactiver ANTHROPIC_BASE_URL via unset ANTHROPIC_BASE_URL

👾 Tutoriel OpenAI Codex CLI

Codex arrow-up-rightest l'agent de codage officiel d'OpenAI qui s'exécute localement. Bien qu'il soit conçu pour ChatGPT, il prend en charge des endpoints API personnalisés, ce qui le rend parfait pour des LLMs locaux. Voir https://developers.openai.com/codex/windows/arrow-up-right pour l'installation sur Windows - il est préférable d'utiliser WSL.

Installez

Mac (Homebrew) :

Universel (NPM) pour Linux

Configurer

Première exécution codex pour se connecter et configurer les choses, puis créez ou éditez le fichier de configuration à ~/.codex/config.toml (Mac/Linux) ou %USERPROFILE%\.codex\config.toml (Windows).

Utilisez cat > ~/.codex/config.toml pour Linux / Mac :

Naviguez vers votre dossier de projet (mkdir project ; cd project) et exécutez :

Ou pour autoriser n'importe quel code à s'exécuter. (ATTENTION ceci permettra à Codex de faire et d'exécuter du code comme il l'entend sans aucune approbation !)

Et vous verrez :

circle-exclamation

Essayez ce prompt pour installer et exécuter un simple finetune Unsloth :

et vous verrez :

et si nous attendons un peu plus longtemps, nous obtenons enfin :

Mis à jour

Ce contenu vous a-t-il été utile ?