Comment exécuter des LLM locaux avec Claude Code & OpenAI Codex

Guide pour exécuter Claude Code et OpenAI Codex sur votre appareil local.

Ce guide étape par étape vous montre comment connecter des LLMs open à Claude Code et Codex entièrement en local, avec captures d'écran. Exécutez avec n'importe quel modèle open comme DeepSeek, Qwen et Gemma.

Pour ce tutoriel, nous utiliserons GLM-4.7-Flash, le modèle agentif et de codage MoE 30B le plus puissant en date de janvier 2026 pour affiner automatiquement un LLM avec Unsloth. Vous pouvez remplacer par n'importe quel autre modèle, il suffit de mettre à jour les noms des modèles dans vos scripts.

Tutoriel Claude Code Tutoriel OpenAI Codex

Nous utilisons llama.cpp qui est un framework open-source pour exécuter des LLMs sur vos appareils Mac, Linux, Windows, etc. Llama.cpp contient Dans un nouveau terminal, par exemple via tmux, déployez le modèle via : qui vous permet de servir et déployer des LLMs efficacement. Le modèle sera servi sur le port 8001, avec tous les outils agents routés via un endpoint compatible OpenAI unique.

Pour les quants de modèles, nous utiliserons Unsloth Dynamic GGUFs pour exécuter n'importe quel LLM quantifié, tout en conservant autant de précision que possible.

📖 Étape n°1 : Installer Llama.cpp Tutoriel

Nous devons installer llama.cpp pour déployer/servir des LLMs locaux à utiliser dans Codex, etc. Nous suivons les instructions de compilation officielles pour des bindings GPU corrects et des performances maximales. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU ou si vous voulez simplement l'inférence CPU.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Télécharger et utiliser les modèles localement

Téléchargez le modèle via huggingface_hub en Python (après l'installation via pip install huggingface_hub hf_transfer). Nous utilisons le . Nous recommandons d'utiliser au moins le quant dynamique 2 bits quant pour le meilleur équilibre taille/précision. Vous pouvez trouver tous les uploads Unsloth GGUF dans notre Collection ici. Si les téléchargements se bloquent, voyez Hugging Face Hub, débogage XET

Nous avons utilisé unsloth/GLM-4.7-Flash-GGUF , mais vous pouvez utiliser n'importe quoi comme unsloth/Qwen3-Coder-Next-GGUF - voir Qwen3-Coder-Next

import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download

snapshot_download(
    repo_id = "unsloth/GLM-4.7-Flash-GGUF",
    local_dir = "unsloth/GLM-4.7-Flash-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)

Démarrer le serveur Llama

Pour déployer GLM-4.7-Flash pour des charges agentives, nous utilisons Dans un nouveau terminal, par exemple via tmux, déployez le modèle via :. Nous appliquons les paramètres d'échantillonnage recommandés par Z.ai (temp 1.0, top_p 0.95) et activons --jinja pour un support adéquat des appels d'outils.

Exécutez cette commande dans un nouveau terminal (utilisez tmux ou ouvrez un nouveau terminal). Ce qui suit devrait tenir parfaitement dans un GPU 24GB (RTX 4090) (utilise 23GB) --fit on fera aussi du déchargement automatique, mais si vous constatez de mauvaises performances, réduisez --ctx-size . Nous avons utilisé --cache-type-k q8_0 --cache-type-v q8_0 pour la quantification du cache KV afin de réduire l'utilisation de la VRAM.

--alias "unsloth/Qwen3.5-397B-A17B" \
    --model unsloth/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf \
    --alias "unsloth/GLM-4.7-Flash" \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --port 8001 \
    --kv-unified \
    --cache-type-k q8_0 --cache-type-v q8_0 \
    --flash-attn on \
    --batch-size 4096 --ubatch-size 1024 \
    --ctx-size 131072

Vous pouvez aussi désactiver le 'thinking' pour GLM-4.7-Flash ce qui peut améliorer les performances pour les tâches de codage agentives. Pour désactiver le 'thinking' avec llama.cpp ajoutez ceci à la commande llama-server :

Téléchargez le modèle via (après avoir installé

👾 Tutoriel Claude Code

Claude Code est l'outil de codage agentif d'Anthropic qui vit dans votre terminal, comprend votre base de code et gère des workflows Git complexes via le langage naturel.

Installer Claude Code et l'exécuter localement

curl -fsSL https://claude.ai/install.sh | bash
# Ou via Homebrew : brew install --cask claude-code

Configurer

Définir la ANTHROPIC_BASE_URL la variable d'environnement pour rediriger Claude Code vers votre llama.cpp serveur local :

export ANTHROPIC_BASE_URL="http://localhost:8001"

Vous pourriez aussi devoir définir ANTHROPIC_API_KEY selon le serveur. Par exemple :

export ANTHROPIC_API_KEY='sk-no-key-required' ## ou 'sk-1234'

Session vs Persistance : Les commandes ci-dessus s'appliquent au terminal courant seulement. Pour persister dans les nouveaux terminaux :

Ajoutez la export ligne à ~/.bashrc (bash) ou ~/.zshrc (zsh).

Si vous voyez Impossible de se connecter à l'API (ConnectionRefused) , pensez à désactiver ANTHROPIC_BASE_URL via unset ANTHROPIC_BASE_URL

Clé API manquante

Si vous voyez ceci, définissez export ANTHROPIC_API_KEY='sk-no-key-required' ## ou 'sk-1234'

Utilisez Powershell pour toutes les commandes ci-dessous :

irm https://claude.ai/install.ps1 | iex

Configurer

Définir la ANTHROPIC_BASE_URL la variable d'environnement pour rediriger Claude Code vers votre llama.cpp serveur local :

$env:ANTHROPIC_BASE_URL="http://localhost:8001"

Session vs Persistance : Les commandes ci-dessus s'appliquent au terminal courant seulement. Pour persister dans les nouveaux terminaux :

Exécutez setx ANTHROPIC_BASE_URL "http://localhost:8001" une fois, ou ajoutez la $env: ligne à votre $PROFILE.

🌟Exécuter Claude Code localement sur Linux / Mac / Windows

Nous avons utilisé unsloth/GLM-4.7-Flash-GGUF , mais vous pouvez utiliser n'importe quoi comme unsloth/Qwen3-Coder-Next-GGUF - voir Qwen3-Coder-Next

Naviguez vers votre dossier de projet (mkdir project ; cd project) et exécutez :

claude --model unsloth/GLM-4.7-Flash

Pour configurer Claude Code afin d'exécuter des commandes sans aucune approbation faites (ATTENTION ceci permettra à Claude Code de faire et d'exécuter du code comme il l'entend sans aucune approbation !)

claude --model unsloth/GLM-4.7-Flash --dangerously-skip-permissions

Essayez ce prompt pour installer et exécuter un simple finetune Unsloth :

Vous ne pouvez travailler que dans le cwd project/. Ne cherchez pas CLAUDE.md - c'est celui-ci. Installez Unsloth via un environnement virtuel via uv. Voir https://unsloth.ai/docs/get-started/install/pip-install pour comment (obtenez-le et lisez). Ensuite faites une simple exécution de finetuning Unsloth décrite dans https://github.com/unslothai/unsloth. Vous avez accès à 1 GPU.

Après un moment d'attente, Unsloth sera installé dans un venv via uv, et chargé :

et enfin vous verrez un modèle affiné avec succès avec Unsloth !

Extension IDE (VS Code / Cursor)

Vous pouvez aussi utiliser Claude Code directement dans votre éditeur via l'extension officielle :

Alternativement, appuyez sur Ctrl+Shift+X (Windows/Linux) ou Cmd+Shift+X (Mac), cherchez Claude Code, et cliquez Installez.

Si vous voyez Impossible de se connecter à l'API (ConnectionRefused) , pensez à désactiver ANTHROPIC_BASE_URL via unset ANTHROPIC_BASE_URL

👾 Tutoriel OpenAI Codex CLI

Codex est l'agent de codage officiel d'OpenAI qui s'exécute localement. Bien qu'il soit conçu pour ChatGPT, il prend en charge des endpoints API personnalisés, ce qui le rend parfait pour des LLMs locaux. Voir https://developers.openai.com/codex/windows/ pour l'installation sur Windows - il est préférable d'utiliser WSL.

Installez

Mac (Homebrew) :

brew install --cask codex

Universel (NPM) pour Linux

apt update
apt install nodejs npm -y
npm install -g @openai/codex

Configurer

Première exécution codex pour se connecter et configurer les choses, puis créez ou éditez le fichier de configuration à ~/.codex/config.toml (Mac/Linux) ou %USERPROFILE%\.codex\config.toml (Windows).

Utilisez cat > ~/.codex/config.toml pour Linux / Mac :

[model_providers.llama_cpp]
name = "llama_cpp API"
base_url = "http://localhost:8001/v1"
wire_api = "responses"
stream_idle_timeout_ms = 10000000

Naviguez vers votre dossier de projet (mkdir project ; cd project) et exécutez :

codex --model unsloth/GLM-4.7-Flash -c model_provider=llama_cpp --search

Ou pour autoriser n'importe quel code à s'exécuter. (ATTENTION ceci permettra à Codex de faire et d'exécuter du code comme il l'entend sans aucune approbation !)

codex --model unsloth/GLM-4.7-Flash -c model_provider=llama_cpp --search --dangerously-bypass-approvals-and-sandbox

Et vous verrez :

Le Codex d'OpenAI supprime wire_api = "chat" le support semble-t-il - il fonctionne encore au 29 janvier 2026. Nous devrions passer à wire_api = "responses" mais il continue de renvoyer une erreur avec : {"error":{"code":400,"message":"'type' of tool must be 'function'","type":"invalid_request_error"}}

Essayez ce prompt pour installer et exécuter un simple finetune Unsloth :

Vous ne pouvez travailler que dans le cwd project/. Ne cherchez pas AGENTS.md - c'est celui-ci. Installez Unsloth via un environnement virtuel via uv. Voir https://unsloth.ai/docs/get-started/install/pip-install pour comment (obtenez-le et lisez). Ensuite faites une simple exécution de finetuning Unsloth décrite dans https://github.com/unslothai/unsloth. Vous avez accès à 1 GPU.

et vous verrez :

et si nous attendons un peu plus longtemps, nous obtenons enfin :

PrécédentQwQ-32B SuivantInférence & Déploiement

Mis à jour il y a 3 heures

Ce contenu vous a-t-il été utile ?

hashtag📖 Étape n°1 : Installer Llama.cpp Tutoriel

hashtagTélécharger et utiliser les modèles localement

hashtagDémarrer le serveur Llama

hashtag👾 Tutoriel Claude Code

hashtagInstaller Claude Code et l'exécuter localement

hashtag🌟Exécuter Claude Code localement sur Linux / Mac / Windows

hashtag👾 Tutoriel OpenAI Codex CLI

hashtagInstallez

📖 Étape n°1 : Installer Llama.cpp Tutoriel

Télécharger et utiliser les modèles localement

Démarrer le serveur Llama

👾 Tutoriel Claude Code

Installer Claude Code et l'exécuter localement

🌟Exécuter Claude Code localement sur Linux / Mac / Windows

👾 Tutoriel OpenAI Codex CLI

Installez