claudeComment exécuter des LLMs locaux avec Claude Code

Guide pour utiliser des modèles open avec Claude Code sur votre appareil local.

Ce guide étape par étape vous montre comment connecter des LLM et des API open-source à Claude Code entièrement en local, avec captures d'écran. Exécutez avec n'importe quel modèle open comme Qwen3.5, DeepSeek et Gemma.

Pour ce tutoriel, nous utiliserons Qwen3.5 et GLM-4.7-Flash. Les deux sont les modèles agentiques et de codage MoE 35B les plus puissants à la date de mars 2026 (qui fonctionnent très bien sur un appareil avec 24 Go de RAM/mémoire unifiée) pour affiner un LLM de manière autonome avec Unslotharrow-up-right. Vous pouvez échanger par n'importe quel autre modèle, il suffit de mettre à jour les noms des modèles dans vos scripts.

Tutoriel Qwen3.5Tutoriel GLM-4.7-FlashclaudeTutoriel Claude Code

Pour les quantifications de modèles, nous utiliserons Unsloth GGUF dynamiques pour exécuter n'importe quel LLM quantifié, tout en conservant autant de précision que possible.

circle-info

Claude Code a beaucoup changé depuis janvier 2026. Il y a beaucoup plus de paramètres et de fonctionnalités nécessaires que vous devrez activer/désactiver.

📖 Tutoriels de configuration LLM

Avant de commencer, nous devons d'abord compléter la configuration pour le modèle spécifique que vous allez utiliser. Nous utilisons llama.cpp qui est un cadre open-source pour exécuter des LLM sur votre Mac, Linux, Windows, etc. Llama.cpp contient llama-server qui vous permet de servir et déployer des LLM de manière efficace. Le modèle sera servi sur le port 8001, avec tous les outils agents acheminés via un point de terminaison compatible OpenAI unique.

Tutoriel Qwen3.5

Nous utiliserons Qwen3.5-35B-A3B et des paramètres spécifiques pour des tâches de codage rapides et précises. Si vous n'avez pas assez de VRAM et voulez un modèle , Qwen3.5-27B est un excellent choix, mais il sera environ 2x plus lent, ou vous pouvez utiliser d'autres variantes Qwen3.5 comme 9B, 4B ou 2B.

circle-info

Utilisez Qwen3.5-27B si vous voulez un modèle modèle ou si vous n'avez pas assez de VRAM. Il sera environ 2x plus lent que le 35B-A3B cependant. Ou vous pouvez utiliser Qwen3-Coder-Next qui est fantastique si vous avez suffisamment de VRAM.

1

Installer llama.cpp

Nous devons installer llama.cpp pour déployer/servir des LLM locaux à utiliser dans Claude Code, etc. Nous suivons les instructions de build officielles pour des liaisons GPU correctes et des performances maximales. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU ou si vous voulez simplement de l'inférence CPU. Pour les appareils Apple Mac / Metal, définissez -DGGML_CUDA=OFF puis continuez comme d'habitude - le support Metal est activé par défaut.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
2

Télécharger et utiliser les modèles localement

Téléchargez le modèle via huggingface_hub en Python (après installation via pip install huggingface_hub hf_transfer). Nous utilisons le UD-Q4_K_XL quant pour le meilleur compromis taille/précision. Vous pouvez trouver tous les uploads GGUF d'Unsloth dans notre collection ici. Si les téléchargements se bloquent, voir Hugging Face Hub, débogage XET

hf download unsloth/Qwen3.5-35B-A3B-GGUF \
    --local-dir unsloth/Qwen3.5-35B-A3B-GGUF \
    --include "*UD-Q4_K_XL*" # Utilisez "*UD-Q2_K_XL*" pour Dynamic 2bit
circle-check
3

Démarrer le Llama-server

Pour déployer Qwen3.5 pour des charges agentiques, nous utilisons llama-server. Nous appliquons les paramètres d'échantillonnage recommandés par Qwen pour le mode réflexion : temp 0.6, top_p 0.95 , top-k 20. Gardez à l'esprit que ces valeurs changent si vous utilisez le mode non-réflexion ou d'autres tâches.

Exécutez cette commande dans un nouveau terminal (utilisez tmux ou ouvrez un nouveau terminal). Ce qui suit devrait tenir parfaitement dans un GPU 24 Go (RTX 4090) (utilise 23 Go) --fit on va aussi décharger automatiquement, mais si vous voyez de mauvaises performances, réduisez --ctx-size .

triangle-exclamation
./llama.cpp/llama-server \
    --model unsloth/Qwen3.5-35B-A3B-GGUF/Qwen3.5-35B-A3B-UD-Q4_K_XL.gguf \
    --alias "unsloth/Qwen3.5-35B-A3B" \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00 \
    --port 8001 \
    --kv-unified \
    --cache-type-k q8_0 --cache-type-v q8_0 \
    --flash-attn on --fit on \
    --ctx-size 131072 # change as required
circle-check

Tutoriel GLM-4.7-Flash

1

Installer llama.cpp

Nous devons installer llama.cpp pour déployer/servir des LLM locaux à utiliser dans Claude Code, etc. Nous suivons les instructions de build officielles pour des liaisons GPU correctes et des performances maximales. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU ou si vous voulez simplement de l'inférence CPU. Pour les appareils Apple Mac / Metal, définissez -DGGML_CUDA=OFF puis continuez comme d'habitude - le support Metal est activé par défaut.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
2

Télécharger et utiliser les modèles localement

Téléchargez le modèle via huggingface_hub en Python (après installation via pip install huggingface_hub hf_transfer). Nous utilisons le UD-Q4_K_XL quant pour le meilleur compromis taille/précision. Vous pouvez trouver tous les uploads GGUF d'Unsloth dans notre collection ici. Si les téléchargements se bloquent, voir Hugging Face Hub, débogage XET

circle-check
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download

snapshot_download(
    repo_id = "unsloth/GLM-4.7-Flash-GGUF",
    local_dir = "unsloth/GLM-4.7-Flash-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)
3

Démarrer le Llama-server

Pour déployer GLM-4.7-Flash pour des charges agentiques, nous utilisons llama-server. Nous appliquons les paramètres d'échantillonnage recommandés par Z.ai (temp 1.0, top_p 0.95).

Exécutez cette commande dans un nouveau terminal (utilisez tmux ou ouvrez un nouveau terminal). Ce qui suit devrait tenir parfaitement dans un GPU 24 Go (RTX 4090) (utilise 23 Go) --fit on va aussi décharger automatiquement, mais si vous voyez de mauvaises performances, réduisez --ctx-size .

triangle-exclamation
./llama.cpp/llama-server \
    --model unsloth/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf \
    --alias "unsloth/GLM-4.7-Flash" \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --port 8001 \
    --kv-unified \
    --cache-type-k q8_0 --cache-type-v q8_0 \
    --flash-attn on --fit on \
    --batch-size 4096 --ubatch-size 1024 \
    --ctx-size 131072 #change as required
circle-check

claude Tutoriel Claude Code

triangle-exclamation

Une fois que vous avez terminé les premières étapes de configuration de votre LLM local, il est temps de configurer Claude Code. Claude Code est l'outil de codage agentique d'Anthropic qui vit dans votre terminal, comprend votre base de code et gère des workflows Git complexes via le langage naturel.

Installer Claude Code et l'exécuter localement

Configurer

Définissez la ANTHROPIC_BASE_URL variable d'environnement pour rediriger Claude Code vers votre llama.cpp serveur local.

Vous devrez peut-être aussi définir ANTHROPIC_API_KEY selon le serveur. Par exemple :

Session vs Persistant : Les commandes ci-dessus s'appliquent uniquement au terminal courant. Pour persister dans les nouveaux terminaux :

Ajoutez la ligne export à ~/.bashrc (bash) ou ~/.zshrc

circle-exclamation

unset ANTHROPIC_BASE_URL

Clé API manquante export ANTHROPIC_API_KEY='sk-no-key-required' ## ou 'sk-1234'

circle-info

Si vous voyez ceci, définissez Si Claude Code vous demande toujours de vous connecter au premier lancement, ajoutez et "hasCompletedOnboarding": true en "primaryApiKey": "sk-dummy-key"~/.claude.json . Pour l'extension VS Code, activez également Désactiver l'invite de connexion dans les paramètres (ou ajoutez en "claudeCode.disableLoginPrompt": true).

🕵️$PROFILE

triangle-exclamation

. Voir ceci ou éditez Pour résoudre ceci, éditez pour inclure CLAUDE_CODE_ATTRIBUTION_HEADER et définissez-le à 0 dans

circle-info

"env" En utilisant export CLAUDE_CODE_ATTRIBUTION_HEADER=0 NE FONCTIONNE PAS !

Par exemple, faites cat > ~/.claude/settings.json puis ajoutez ce qui suit (lorsque collé, appuyez sur ENTRÉE puis CTRL+D pour l'enregistrer). Si vous avez un ou éditez fichier précédent, ajoutez simplement "CLAUDE_CODE_ATTRIBUTION_HEADER" : "0" à la section "env", et laissez le reste du fichier de paramètres inchangé.

🌟Exécuter Claude Code localement sur Linux / Mac / Windows

circle-check
triangle-exclamation

Naviguez vers votre dossier de projet (mkdir project ; cd project) et exécutez :

Pour utiliser Qwen3.5-35B-A3B, changez simplement en :

Pour que Claude Code exécute des commandes sans aucune approbation, faites (ATTENTION ceci fera que Claude Code fasse et exécute du code comme bon lui semble sans aucune approbation !)

Essayez cette invite pour installer et exécuter un simple fine-tuning Unsloth :

Après un certain temps d'attente, Unsloth sera installé dans un venv via uv, et chargé :

et enfin vous verrez un modèle affiné avec succès avec Unsloth !

Extension IDE (VS Code / Cursor)

Vous pouvez aussi utiliser Claude Code directement dans votre éditeur via l'extension officielle :

Alternativement, appuyez sur Ctrl+Shift+X (Windows/Linux) ou Cmd+Shift+X (Mac), recherchez Claude Code, et cliquez sur Installer.

circle-exclamation
triangle-exclamation

Mis à jour

Ce contenu vous a-t-il été utile ?