codeComment exécuter des LLM locaux avec Claude Code & OpenAI Codex

Guide pour exécuter Claude Code et OpenAI Codex sur votre appareil local.

Ce guide étape par étape vous montre comment connecter des LLM ouverts à Claude Code et Codex entièrement en local, avec captures d'écran. Exécutez-le en utilisant n'importe quel modèle ouvert comme DeepSeek, Qwen et Gemma.

Pour ce tutoriel, nous utiliserons GLM-4.7-Flash, le modèle agentique et de codage MoE 30B le plus performant à la date de janvier 2026 pour affiner de manière autonome un LLM avec Unslotharrow-up-right. Vous pouvez remplacer par n'importe quel autre modèle, mettez simplement à jour les noms des modèles dans vos scripts.

Tutoriel Claude CodeTutoriel OpenAI Codex

Nous utilisons llama.cpparrow-up-right qui est un cadre open-source pour exécuter des LLM sur vos appareils Mac, Linux, Windows, etc. Llama.cpp contient llama-server qui vous permet de servir et déployer des LLM de manière efficace. Le modèle sera servi sur le port 8001, avec tous les outils agents routés via un seul endpoint compatible OpenAI.

Pour les quants de modèle, nous utiliserons Unsloth GGUF dynamiques pour exécuter n'importe quel LLM quantifié, tout en conservant autant de précision que possible.

📖 Étape n°1 : Installer Llama.cpp - Tutoriel

1

Nous devons installer llama.cpp pour déployer/servir des LLM locaux à utiliser dans Codex, etc. Nous suivons les instructions de compilation officielles pour des liaisons GPU correctes et des performances maximales. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU ou si vous voulez simplement une inférence CPU.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
2

Télécharger et utiliser des modèles localement

Téléchargez le modèle via huggingface_hub en Python (après installation via pip install huggingface_hub hf_transfer). Nous utilisons le UD-Q4_K_XL quant pour le meilleur compromis taille/ précision. Vous pouvez trouver tous les téléversements GGUF d'Unsloth dans notre Collection ici.

circle-check
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download

snapshot_download(
    repo_id = "unsloth/GLM-4.7-Flash-GGUF",
    local_dir = "unsloth/GLM-4.7-Flash-GGUF",
    local_dir = "unsloth/Qwen3-VL-8B-Instruct-GGUF", # Ou "unsloth/Qwen3-VL-8B-Thinking-GGUF"
)
3

Démarrer le serveur Llama

Pour déployer GLM-4.7-Flash pour des charges agentiques, nous utilisons llama-server. Nous appliquons les paramètres d'échantillonnage recommandés par Z.ai (temp 1.0, top_p 0.95) et activons --jinja pour un support correct des appels d'outils.

Exécutez cette commande dans un nouveau terminal (utilisez tmux ou ouvrez un nouveau terminal). Ce qui suit devrait tenez parfaitement dans un GPU 24 Go (RTX 4090) (utilise 23 Go) --fit on va aussi décharger automatiquement, mais si vous constatez de mauvaises performances, réduisez --ctx-size . Nous avons utilisé --cache-type-k q8_0 --cache-type-v q8_0 pour la quantification du cache KV afin de réduire l'utilisation de la VRAM.

./llama.cpp/llama-server \
    --model unsloth/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf \
    --alias "unsloth/GLM-4.7-Flash" \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --port 8001 \
    --kv-unified \
    --cache-type-k q8_0 --cache-type-v q8_0 \
    --flash-attn on \
    --batch-size 4096 --ubatch-size 1024 \
    --ctx-size 131072
circle-check

👾 Tutoriel Claude Code

Claude Code est l'outil de codage agentique d'Anthropic qui vit dans votre terminal, comprend votre base de code et gère des workflows Git complexes via le langage naturel.

Installer Claude Code et l'exécuter localement

curl -fsSL https://claude.ai/install.sh | bash
# Ou via Homebrew : brew install --cask claude-code

Configurer

Réglez la ANTHROPIC_BASE_URL variable d'environnement pour rediriger Claude Code vers votre llama.cpp serveur local :

export ANTHROPIC_BASE_URL="http://localhost:8001"

Vous devrez peut-être aussi définir ANTHROPIC_API_KEY selon le serveur. Par exemple :

export ANTHROPIC_API_KEY='sk-no-key-required' ## ou 'sk-1234'

Session vs Persistant : Les commandes ci-dessus s'appliquent uniquement au terminal actuel. Pour persister dans de nouveaux terminaux :

Ajoutez la export ligne à ~/.bashrc (bash) ou ~/.zshrc (zsh).

Si vous voyez Impossible de se connecter à l'API (ConnectionRefused) , pensez à désactiver ANTHROPIC_BASE_URL via unset ANTHROPIC_BASE_URL

Clé API manquante

Si vous voyez ceci, définissez export ANTHROPIC_API_KEY='sk-no-key-required' ## ou 'sk-1234'

🌟Exécuter Claude Code localement sur Linux / Mac / Windows

circle-check

Naviguez vers votre dossier de projet (mkdir project ; cd project) et exécutez :

Pour configurer Claude Code afin d'exécuter des commandes sans aucune approbation, faites (ATTENTION cela fera que Claude Code fera et exécutera du code comme il l'entend sans aucune approbation !)

Essayez cette invite pour installer et exécuter un simple finetune Unsloth :

Après un court moment, Unsloth sera installé dans un venv via uv, et chargé :

et enfin vous verrez un modèle finetuné avec succès avec Unsloth !

Extension IDE (VS Code / Cursor)

Vous pouvez aussi utiliser Claude Code directement dans votre éditeur via l'extension officielle :

Alternativement, appuyez sur Ctrl+Shift+X (Windows/Linux) ou Cmd+Shift+X (Mac), recherchez Claude Code, et cliquez Installez.

Si vous voyez Impossible de se connecter à l'API (ConnectionRefused) , pensez à désactiver ANTHROPIC_BASE_URL via unset ANTHROPIC_BASE_URL

👾 Tutoriel OpenAI Codex CLI

Codex arrow-up-rightest l'agent de codage officiel d'OpenAI qui s'exécute localement. Bien que conçu pour ChatGPT, il prend en charge des endpoints API personnalisés, ce qui le rend parfait pour les LLM locaux. Voir https://developers.openai.com/codex/windows/arrow-up-right pour l'installation sur Windows - il est préférable d'utiliser WSL.

Installez

Mac (Homebrew) :

Universel (NPM) pour Linux

Configurer

Première exécution codex pour vous connecter et configurer les choses, puis créez ou modifiez le fichier de configuration à ~/.codex/config.toml (Mac/Linux) ou %USERPROFILE%\.codex\config.toml (Windows).

Utilisez cat > ~/.codex/config.toml pour Linux / Mac :

Naviguez vers votre dossier de projet (mkdir project ; cd project) et exécutez :

Ou pour permettre à n'importe quel code de s'exécuter. (ATTENTION cela fera que Codex fera et exécutera du code comme il l'entend sans aucune approbation !)

Et vous verrez :

circle-exclamation

Essayez cette invite pour installer et exécuter un simple finetune Unsloth :

et vous verrez :

et si nous attendons un peu plus longtemps, nous obtenons finalement :

Mis à jour

Ce contenu vous a-t-il été utile ?