Comment exécuter des LLMs locaux avec Claude Code

Guide pour utiliser des modèles open avec Claude Code sur votre appareil local.

Ce guide étape par étape vous montre comment connecter des LLM et des API open-source à Claude Code entièrement en local, avec captures d'écran. Exécutez avec n'importe quel modèle open comme Qwen3.5, DeepSeek et Gemma.

Pour ce tutoriel, nous utiliserons Qwen3.5 et GLM-4.7-Flash. Les deux sont les modèles agentiques et de codage MoE 35B les plus puissants à la date de mars 2026 (qui fonctionnent très bien sur un appareil avec 24 Go de RAM/mémoire unifiée) pour affiner un LLM de manière autonome avec Unsloth. Vous pouvez échanger par n'importe quel autre modèle, il suffit de mettre à jour les noms des modèles dans vos scripts.

Tutoriel Qwen3.5 Tutoriel GLM-4.7-Flash Tutoriel Claude Code

Pour les quantifications de modèles, nous utiliserons Unsloth GGUF dynamiques pour exécuter n'importe quel LLM quantifié, tout en conservant autant de précision que possible.

Claude Code a beaucoup changé depuis janvier 2026. Il y a beaucoup plus de paramètres et de fonctionnalités nécessaires que vous devrez activer/désactiver.

📖 Tutoriels de configuration LLM

Avant de commencer, nous devons d'abord compléter la configuration pour le modèle spécifique que vous allez utiliser. Nous utilisons llama.cpp qui est un cadre open-source pour exécuter des LLM sur votre Mac, Linux, Windows, etc. Llama.cpp contient llama-server qui vous permet de servir et déployer des LLM de manière efficace. Le modèle sera servi sur le port 8001, avec tous les outils agents acheminés via un point de terminaison compatible OpenAI unique.

Tutoriel Qwen3.5

Nous utiliserons Qwen3.5-35B-A3B et des paramètres spécifiques pour des tâches de codage rapides et précises. Si vous n'avez pas assez de VRAM et voulez un modèle , Qwen3.5-27B est un excellent choix, mais il sera environ 2x plus lent, ou vous pouvez utiliser d'autres variantes Qwen3.5 comme 9B, 4B ou 2B.

Utilisez Qwen3.5-27B si vous voulez un modèle modèle ou si vous n'avez pas assez de VRAM. Il sera environ 2x plus lent que le 35B-A3B cependant. Ou vous pouvez utiliser Qwen3-Coder-Next qui est fantastique si vous avez suffisamment de VRAM.

Installer llama.cpp

Nous devons installer llama.cpp pour déployer/servir des LLM locaux à utiliser dans Claude Code, etc. Nous suivons les instructions de build officielles pour des liaisons GPU correctes et des performances maximales. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU ou si vous voulez simplement de l'inférence CPU. Pour les appareils Apple Mac / Metal, définissez -DGGML_CUDA=OFF puis continuez comme d'habitude - le support Metal est activé par défaut.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Télécharger et utiliser les modèles localement

Téléchargez le modèle via huggingface_hub en Python (après installation via pip install huggingface_hub hf_transfer). Nous utilisons le UD-Q4_K_XL quant pour le meilleur compromis taille/précision. Vous pouvez trouver tous les uploads GGUF d'Unsloth dans notre collection ici. Si les téléchargements se bloquent, voir Hugging Face Hub, débogage XET

hf download unsloth/Qwen3.5-35B-A3B-GGUF \
    --local-dir unsloth/Qwen3.5-35B-A3B-GGUF \
    --include "*UD-Q4_K_XL*" # Utilisez "*UD-Q2_K_XL*" pour Dynamic 2bit

Nous avons utilisé unsloth/Qwen3.5-35B-A3B-GGUF , mais vous pouvez utiliser une autre variante comme 27B ou tout autre modèle comme unsloth/Qwen3-Coder-Next-GGUF.

Démarrer le Llama-server

Pour déployer Qwen3.5 pour des charges agentiques, nous utilisons llama-server. Nous appliquons les paramètres d'échantillonnage recommandés par Qwen pour le mode réflexion : temp 0.6, top_p 0.95 , top-k 20. Gardez à l'esprit que ces valeurs changent si vous utilisez le mode non-réflexion ou d'autres tâches.

Exécutez cette commande dans un nouveau terminal (utilisez tmux ou ouvrez un nouveau terminal). Ce qui suit devrait tenir parfaitement dans un GPU 24 Go (RTX 4090) (utilise 23 Go) --fit on va aussi décharger automatiquement, mais si vous voyez de mauvaises performances, réduisez --ctx-size .

Nous avons utilisé --cache-type-k q8_0 --cache-type-v q8_0 pour la quantification du cache KV afin d'utiliser moins de VRAM. Pour une précision totale, utilisez --cache-type-k bf16 --cache-type-v bf16 Selon plusieurs rapports, Qwen3.5 dégrade la précision avec le f16 cache KV, donc n'utilisez pas --cache-type-k f16 --cache-type-v f16 qui est également activé par défaut dans llama.cpp. Notez que le cache KV en bf16 peut être légèrement plus lent sur certaines machines.

./llama.cpp/llama-server \
    --model unsloth/Qwen3.5-35B-A3B-GGUF/Qwen3.5-35B-A3B-UD-Q4_K_XL.gguf \
    --alias "unsloth/Qwen3.5-35B-A3B" \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00 \
    --port 8001 \
    --kv-unified \
    --cache-type-k q8_0 --cache-type-v q8_0 \
    --flash-attn on --fit on \
    --ctx-size 131072 # change as required

Vous pouvez aussi désactiver le mode réflexion pour Qwen3.5, ce qui peut améliorer les performances pour les tâches de codage agentiques. Pour désactiver la réflexion avec llama.cpp, ajoutez ceci à la commande llama-server :

--chat-template-kwargs "{\"enable_thinking\": false}"

Tutoriel GLM-4.7-Flash

Installer llama.cpp

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Télécharger et utiliser les modèles localement

Nous avons utilisé unsloth/GLM-4.7-Flash-GGUF , mais vous pouvez utiliser n'importe quoi comme unsloth/Qwen3-Coder-Next-GGUF - voir Qwen3-Coder-Next

import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download

snapshot_download(
    repo_id = "unsloth/GLM-4.7-Flash-GGUF",
    local_dir = "unsloth/GLM-4.7-Flash-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)

Démarrer le Llama-server

Pour déployer GLM-4.7-Flash pour des charges agentiques, nous utilisons llama-server. Nous appliquons les paramètres d'échantillonnage recommandés par Z.ai (temp 1.0, top_p 0.95).

Nous avons utilisé --cache-type-k q8_0 --cache-type-v q8_0 pour la quantification du cache KV afin de réduire l'utilisation de la VRAM. Si vous constatez une qualité réduite, vous pouvez à la place utiliser bf16 mais cela augmentera l'utilisation de la VRAM par deux : --cache-type-k bf16 --cache-type-v bf16

./llama.cpp/llama-server \
    --model unsloth/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf \
    --alias "unsloth/GLM-4.7-Flash" \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --port 8001 \
    --kv-unified \
    --cache-type-k q8_0 --cache-type-v q8_0 \
    --flash-attn on --fit on \
    --batch-size 4096 --ubatch-size 1024 \
    --ctx-size 131072 #change as required

Vous pouvez aussi désactiver la réflexion pour GLM-4.7-Flash, ce qui peut améliorer les performances pour les tâches de codage agentiques. Pour désactiver la réflexion avec llama.cpp, ajoutez ceci à la commande llama-server :

--chat-template-kwargs "{\"enable_thinking\": false}"

Tutoriel Claude Code

Voir Claude Code après l'installation de Claude Code pour corriger le fait que les modèles open sont 90% plus lents en raison de l'invalidation du cache KV.

Une fois que vous avez terminé les premières étapes de configuration de votre LLM local, il est temps de configurer Claude Code. Claude Code est l'outil de codage agentique d'Anthropic qui vit dans votre terminal, comprend votre base de code et gère des workflows Git complexes via le langage naturel.

Installer Claude Code et l'exécuter localement

curl -fsSL https://claude.ai/install.sh | bash
# Ou via Homebrew : brew install --cask claude-code

Configurer

Définissez la ANTHROPIC_BASE_URL variable d'environnement pour rediriger Claude Code vers votre llama.cpp serveur local.

export ANTHROPIC_BASE_URL="http://localhost:8001"

Vous devrez peut-être aussi définir ANTHROPIC_API_KEY selon le serveur. Par exemple :

export ANTHROPIC_API_KEY='sk-no-key-required' ## ou 'sk-1234'

Session vs Persistant : Les commandes ci-dessus s'appliquent uniquement au terminal courant. Pour persister dans les nouveaux terminaux :

Ajoutez la ligne export à ~/.bashrc (bash) ou ~/.zshrc

(zsh). Si vous voyez Impossible de se connecter à l'API (ConnectionRefused) ANTHROPIC_BASE_URL , n'oubliez pas de supprimer via

unset ANTHROPIC_BASE_URL

Clé API manquante export ANTHROPIC_API_KEY='sk-no-key-required' ## ou 'sk-1234'

Si vous voyez ceci, définissez Si Claude Code vous demande toujours de vous connecter au premier lancement, ajoutez et "hasCompletedOnboarding": true en "primaryApiKey": "sk-dummy-key"~/.claude.json . Pour l'extension VS Code, activez également Désactiver l'invite de connexion dans les paramètres (ou ajoutez en "claudeCode.disableLoginPrompt": true).

Configurations Windows

Utilisez Powershell pour toutes les commandes ci-dessous :

Configurer

Définissez la ANTHROPIC_BASE_URL variable d'environnement pour rediriger Claude Code vers votre llama.cpp irm https://claude.ai/install.ps1 | iex serveur. De plus, vous devez utiliser $env:CLAUDE_CODE_ATTRIBUTION_HEADER=0

voir ci-dessous.

$env:ANTHROPIC_BASE_URL="http://localhost:8001" Claude Code préfixe et modifie récemment un en-tête d'attribution Claude Code, ce qui invalide le cache KV. Voir cette.

discussion LocalLlama serveur. De plus, vous devez utiliser Pour résoudre ceci, faites ou éditez ~/.claude/settings.json

{
    ...
    avec :
        "env": {
        ...
    }
}

Session vs Persistant : Les commandes ci-dessus s'appliquent uniquement au terminal courant. Pour persister dans les nouveaux terminaux :

"CLAUDE_CODE_ATTRIBUTION_HEADER" : "0", Exécutez setx ANTHROPIC_BASE_URL "http://localhost:8001" une fois, ou ajoutez la ligne $env: à votre.

🕵️$PROFILE

Correction de l'inférence 90% plus lente dans Claude Code Claude Code préfixe et ajoute récemment un en-tête d'attribution Claude Code, ce quiinvalide le cache KV, rendant l'inférence 90% plus lente avec des modèles locaux Claude Code préfixe et modifie récemment un en-tête d'attribution Claude Code, ce qui invalide le cache KV. Voir cette.

. Voir ceci ou éditez Pour résoudre ceci, éditez pour inclure CLAUDE_CODE_ATTRIBUTION_HEADER et définissez-le à 0 dans

"env" En utilisant export CLAUDE_CODE_ATTRIBUTION_HEADER=0 NE FONCTIONNE PAS !

Par exemple, faites cat > ~/.claude/settings.json puis ajoutez ce qui suit (lorsque collé, appuyez sur ENTRÉE puis CTRL+D pour l'enregistrer). Si vous avez un ou éditez fichier précédent, ajoutez simplement "CLAUDE_CODE_ATTRIBUTION_HEADER" : "0" à la section "env", et laissez le reste du fichier de paramètres inchangé.

{
  "promptSuggestionEnabled": false,
  avec :
    "CLAUDE_CODE_ENABLE_TELEMETRY": "0",
    "CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1",
    "CLAUDE_CODE_ATTRIBUTION_HEADER" : "0"
  },
  "attribution": {
    "commit": "",
    "pr": ""
  },
  "plansDirectory" : "./plans",
  "prefersReducedMotion" : true,
  "terminalProgressBarEnabled" : false,
  "effortLevel" : "high"
}

🌟Exécuter Claude Code localement sur Linux / Mac / Windows

Nous avons utilisé unsloth/GLM-4.7-Flash-GGUF , mais vous pouvez utiliser n'importe quoi comme unsloth/Qwen3.5-35B-A3B-GGUF.

Voir Claude Code d'abord pour corriger le fait que les modèles open sont 90% plus lents en raison de l'invalidation du cache KV.

Naviguez vers votre dossier de projet (mkdir project ; cd project) et exécutez :

claude --model unsloth/GLM-4.7-Flash

Pour utiliser Qwen3.5-35B-A3B, changez simplement en :

claude --model unsloth/Qwen3.5-35B-A3B

Pour que Claude Code exécute des commandes sans aucune approbation, faites (ATTENTION ceci fera que Claude Code fasse et exécute du code comme bon lui semble sans aucune approbation !)

claude --model unsloth/GLM-4.7-Flash --dangerously-skip-permissions

Essayez cette invite pour installer et exécuter un simple fine-tuning Unsloth :

Vous ne pouvez travailler que dans le répertoire courant project/. Ne cherchez pas CLAUDE.md - c'est celui-ci. Installez Unsloth via un environnement virtuel avec uv. Utilisez `python -m venv unsloth_env` puis `source unsloth_env/bin/activate` si possible. Voir https://unsloth.ai/docs/get-started/install/pip-install pour savoir comment (récupérez-le et lisez). Ensuite, faites une simple exécution de fine-tuning Unsloth décrite dans https://github.com/unslothai/unsloth. Vous avez accès à 1 GPU.

Après un certain temps d'attente, Unsloth sera installé dans un venv via uv, et chargé :

et enfin vous verrez un modèle affiné avec succès avec Unsloth !

Extension IDE (VS Code / Cursor)

Vous pouvez aussi utiliser Claude Code directement dans votre éditeur via l'extension officielle :

Alternativement, appuyez sur Ctrl+Shift+X (Windows/Linux) ou Cmd+Shift+X (Mac), recherchez Claude Code, et cliquez sur Installer.

(zsh). Si vous voyez Impossible de se connecter à l'API (ConnectionRefused) ANTHROPIC_BASE_URL , n'oubliez pas de supprimer via

Si vous constatez que les modèles open sont 90% plus lents, voyez Claude Code d'abord pour corriger l'invalidation du cache KV.

PrécédentDépannage de l'inférence SuivantOpenAI Codex

Mis à jour il y a 7 jours

Ce contenu vous a-t-il été utile ?

hashtag📖 Tutoriels de configuration LLM

hashtagTutoriel Qwen3.5

hashtagInstaller llama.cpp

hashtagTélécharger et utiliser les modèles localement

hashtagDémarrer le Llama-server

hashtagTutoriel GLM-4.7-Flash

hashtagInstaller llama.cpp

hashtagTélécharger et utiliser les modèles localement

hashtagDémarrer le Llama-server

hashtagclaude Tutoriel Claude Code

hashtagInstaller Claude Code et l'exécuter localement

hashtag🕵️$PROFILE

hashtag🌟Exécuter Claude Code localement sur Linux / Mac / Windows

📖 Tutoriels de configuration LLM

Tutoriel Qwen3.5

Installer llama.cpp

Télécharger et utiliser les modèles localement

Démarrer le Llama-server

Tutoriel GLM-4.7-Flash

Installer llama.cpp

Télécharger et utiliser les modèles localement

Démarrer le Llama-server

Tutoriel Claude Code

Installer Claude Code et l'exécuter localement

🕵️$PROFILE

🌟Exécuter Claude Code localement sur Linux / Mac / Windows