claudeComment exécuter des LLM locaux avec Claude Code

Guide pour utiliser Claude Code sur votre appareil local avec des modèles ouverts.

Ce guide étape par étape vous montre comment connecter des LLM ouverts et des API à Claude Code entièrement en local, avec captures d'écran. Exécutez-le avec n'importe quel modèle ouvert comme DeepSeek, Qwen et Gemma.

Pour ce tutoriel, nous utiliserons GLM-4.7-Flash, le modèle agentif et de codage MoE 30B le plus puissant en date de janvier 2026 (qui fonctionne très bien sur un appareil avec 24 Go de RAM/mémoire unifiée) pour affiner de manière autonome un LLM avec Unslotharrow-up-right. Vous pouvez remplacer par n'importe quel autre modèle, mettez simplement à jour les noms de modèle dans vos scripts.

claudeTutoriel Claude Code

Nous utilisons llama.cpp qui est un framework open-source pour exécuter des LLM sur vos appareils Mac, Linux, Windows, etc. Llama.cpp contient llama-server qui vous permet de servir et déployer des LLM efficacement. Le modèle sera servi sur le port 8001, avec tous les outils agents redirigés via un point de terminaison compatible OpenAI.

Pour les quants de modèle, nous utiliserons Unsloth Dynamic GGUFs pour exécuter n'importe quel LLM quantifié, tout en conservant autant de précision que possible.

📖 #1 : Tutoriel d'installation

1

Installez llama.cpp

Nous devons installer llama.cpp pour déployer/servir des LLM locaux à utiliser dans Claude Code, etc. Nous suivons les instructions de construction officielles pour des liaisons GPU correctes et des performances maximales. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU ou si vous voulez simplement de l'inférence CPU.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
2

Téléchargez et utilisez les modèles localement

Téléchargez le modèle via huggingface_hub en Python (après installation via pip install huggingface_hub hf_transfer). Nous utilisons le UD-Q4_K_XL quant pour le meilleur compromis taille/precision. Vous pouvez trouver tous les téléchargements GGUF d'Unsloth dans notre Collection ici. Si les téléchargements se bloquent, voyez Hugging Face Hub, débogage XET

circle-check
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download

snapshot_download(
    repo_id = "unsloth/GLM-4.7-Flash-GGUF",
    local_dir = "unsloth/GLM-4.7-Flash-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)
3

Démarrez le llama-server

Pour déployer GLM-4.7-Flash pour des charges de travail agentives, nous utilisons llama-server. Nous appliquons les paramètres d'échantillonnage recommandés par Z.ai (temp 1.0, top_p 0.95) et activons --jinja pour un support correct des appels d'outils.

Exécutez cette commande dans un nouveau terminal (utilisez tmux ou ouvrez un nouveau terminal). Ce qui suit devrait tenir parfaitement dans un GPU de 24 Go (RTX 4090) (utilise 23 Go) --fit on fera également de l'auto déchargement, mais si vous constatez de mauvaises performances, réduisez --ctx-size . Nous avons utilisé --cache-type-k q8_0 --cache-type-v q8_0 pour la quantification du cache KV afin de réduire l'utilisation de la VRAM.

./llama.cpp/llama-server \
    --model unsloth/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf \
    --alias "unsloth/GLM-4.7-Flash" \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --port 8001 \
    --kv-unified \
    --cache-type-k q8_0 --cache-type-v q8_0 \
    --flash-attn on \
    --batch-size 4096 --ubatch-size 1024 \
    --ctx-size 131072
circle-check

claude Tutoriel Claude Code

Claude Code est l'outil de codage agentif d'Anthropic qui vit dans votre terminal, comprend votre base de code et gère des workflows Git complexes via le langage naturel.

Installez Claude Code et exécutez-le localement

curl -fsSL https://claude.ai/install.sh | bash
# Ou via Homebrew : brew install --cask claude-code

Configurer

Définissez la ANTHROPIC_BASE_URL variable d'environnement pour rediriger Claude Code vers votre llama.cpp serveur local :

export ANTHROPIC_BASE_URL="http://localhost:8001"

Vous pourriez également devoir définir ANTHROPIC_API_KEY selon le serveur. Par exemple :

export ANTHROPIC_API_KEY='sk-no-key-required' ## ou 'sk-1234'

Session vs Persistant : Les commandes ci-dessus s'appliquent uniquement au terminal courant. Pour persister dans de nouveaux terminaux :

Ajoutez la export ligne à ~/.bashrc (bash) ou ~/.zshrc (zsh).

Si vous voyez Impossible de se connecter à l'API (ConnectionRefused) , pensez à annuler la définition de ANTHROPIC_BASE_URL via unset ANTHROPIC_BASE_URL

Clé API manquante

Si vous voyez cela, définissez export ANTHROPIC_API_KEY='sk-no-key-required' ## ou 'sk-1234'

🌟Exécution de Claude Code localement sur Linux / Mac / Windows

circle-check

Naviguez vers le dossier de votre projet (mkdir project ; cd project) et exécutez :

Pour configurer Claude Code afin d'exécuter des commandes sans aucune approbation, faites (ATTENTION cela permettra à Claude Code de faire et d'exécuter du code comme il l'entend sans aucune approbation !)

Essayez cette invite pour installer et exécuter un simple finetune Unsloth :

Après un certain temps d'attente, Unsloth sera installé dans un venv via uv, et chargé :

et enfin vous verrez un modèle affiné avec succès avec Unsloth !

Extension IDE (VS Code / Cursor)

Vous pouvez aussi utiliser Claude Code directement dans votre éditeur via l'extension officielle :

Alternativement, appuyez sur Ctrl+Shift+X (Windows/Linux) ou Cmd+Shift+X (Mac), recherchez Claude Code, et cliquez sur Installer.

Si vous voyez Impossible de se connecter à l'API (ConnectionRefused) , pensez à annuler la définition de ANTHROPIC_BASE_URL via unset ANTHROPIC_BASE_URL

Mis à jour

Ce contenu vous a-t-il été utile ?