# Comment exécuter des LLM locaux avec Claude Code Ce guide étape par étape vous montre comment connecter des LLMs et des API ouverts à Claude Code entièrement en local, avec captures d’écran. Exécutez-le avec n’importe quel modèle ouvert comme Qwen3.6, DeepSeek et Gemma. Pour ce tutoriel, nous utiliserons les modèles ouverts : [Gemma 4](/docs/fr/modeles/gemma-4.md) et [Qwen3.5](/docs/fr/modeles/qwen3.5.md) qui sont de solides modèles d’agentique et de codage (fonctionnent sur un appareil avec 24 Go de RAM/mémoire unifiée). Pour l’inférence, nous utiliserons [Unsloth Studio](https://github.com/unslothai/unsloth) et [`llama.cpp`](https://github.com/ggml-org/llama.cpp) vous permet d’exécuter/diffuser des LLMs sur macOS, Linux et Windows. Vous pouvez remplacer par [n’importe quel autre modèle](/docs/fr/modeles/tutorials.md), il suffit de mettre à jour les noms des modèles dans vos scripts. Configuration de Claude Code 📖 Tutoriel de configuration du modèle local Pour les quantifications du modèle, nous utiliserons Unsloth [GGUF dynamiques](/docs/fr/bases/unsloth-dynamic-2.0-ggufs.md) pour exécuter n’importe quel LLM quantifié, tout en conservant autant de précision que possible. ## Configuration de Claude Code Avant de configurer notre LLM local, nous devons installer Claude Code. Claude Code est un agent de codage basé sur le terminal qui comprend votre base de code et gère des workflows Git complexes en langage naturel. {% tabs %} {% tab title="macOS, Linux, WSL" %} #### **Installer Claude Code :** Collez ceci dans votre terminal pour installer Claude Code : ```bash curl -fsSL https://claude.ai/install.sh | bash ``` Après l’installation, accédez à votre dossier de projet. Puis tapez `claude` dans le `shell` pour commencer. ```bash cd ~/projects/my-project claude ``` {% endtab %} {% tab title="Windows" %} #### **Installer Claude Code :** Entrez dans `PowerShell` pour installer Claude Code : ```powershell irm https://claude.ai/install.ps1 | iex ``` Après l’installation, accédez à votre dossier de projet. Puis tapez `claude` dans le `powershell` pour commencer.

cd /path/to/your/project
claude

{% endtab %} {% endtabs %} ### :detective:Corriger une inférence 90 % plus lente dans Claude Code {% hint style="warning" %} Claude Code ajoute récemment un en-tête Claude Code Attribution au début et en ajoute un, ce qui **invalide le cache KV, rendant l’inférence 90 % plus lente avec les modèles locaux**. {% endhint %} Pour résoudre cela, modifiez `~/.claude/settings.json` pour inclure `CLAUDE_CODE_ATTRIBUTION_HEADER` et réglez-le sur 0 dans `"env"` {% hint style="info" %} L'utilisation de `export CLAUDE_CODE_ATTRIBUTION_HEADER=0` **NE** fonctionne PAS ! {% endhint %} Par exemple, faites `cat > ~/.claude/settings.json` puis ajoutez le contenu ci-dessous (une fois collé, appuyez sur ENTRÉE puis CTRL+D pour l’enregistrer). Si vous avez déjà un `~/.claude/settings.json` fichier précédent, ajoutez simplement `"CLAUDE_CODE_ATTRIBUTION_HEADER" : "0"` à la section "env" et laissez le reste du fichier de configuration inchangé.

{
  "promptSuggestionEnabled": false,
  "env": {
    "CLAUDE_CODE_ENABLE_TELEMETRY": "0",
    "CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1",
    "CLAUDE_CODE_ATTRIBUTION_HEADER" : "0"
  },
  "attribution": {
    "commit": "",
    "pr": ""
  },
  "plansDirectory" : "./plans",
  "prefersReducedMotion" : true,
  "terminalProgressBarEnabled" : false,
  "effortLevel" : "high"
}

## 📖 Tutoriels de démarrage rapide {% columns %} {% column %} Avant de commencer, nous devons d’abord terminer la configuration du modèle spécifique que vous allez utiliser. Nous utilisons [Unsloth](/docs/fr/nouveau/studio.md) (une interface web) et llama.cpp, qui sont des frameworks open source pour exécuter et diffuser des LLMs sur vos appareils Mac, Linux et Windows. Unsloth dispose également de capacités uniques d’auto-réparation [appel d'outils](/docs/fr/nouveau/studio/chat.md#auto-healing-tool-calling) et [recherche web](/docs/fr/nouveau/studio/chat.md#code-execution) . Voir à droite Claude Code connecté à Unsloth : {% endcolumn %} {% column %}

{% endcolumn %} {% endcolumns %} Connecter Claude Code 🦥 Tutoriel Unsloth Tutoriel llama.cpp ## 🦥 Tutoriel Unsloth Pour ce tutoriel, nous allons diffuser/connecter des modèles locaux à Claude Code via une interface utilisateur en utilisant [Unsloth](https://github.com/unslothai/unsloth). Unsloth fonctionne sur Windows, WSL, Linux et MacOS. {% columns %} {% column %} * Rechercher, télécharger, [exécuter des GGUF](/docs/fr/nouveau/studio.md#run-models-locally) et des modèles safetensor * [**Auto-réparation** appel d’outils](/docs/fr/nouveau/studio.md#execute-code--heal-tool-calling) + **recherche web** * [**Exécution de code**](/docs/fr/nouveau/studio.md#run-models-locally) (Python, Bash) * [Inférence automatique](/docs/fr/nouveau/studio.md#model-arena) sélection des paramètres (temp, top-p, etc.) * Inférence rapide CPU + GPU via llama.cpp * [Entraîner des LLM](/docs/fr/nouveau/studio.md#no-code-training) 2x plus vite avec 70 % de VRAM en moins Voir ci-dessous les instructions d’installation : {% endcolumn %} {% column %}

Exemple de Qwen3.6 2-bit en cours d’exécution dans Unsloth.

{% endcolumn %} {% endcolumns %} {% tabs %} {% tab title="MacOS" %} #### Étape 1 : Configurer Unsloth Lancez le `terminal` depuis Mac, puis installez Unsloth en saisissant la commande ci-dessous. ```bash curl -fsSL https://unsloth.ai/install.sh | sh ``` Unsloth commencera à configurer l’environnement et à installer les paquets requis comme indiqué ci-dessous. Tapez **Y** et appuyez sur `Entrée` quand on vous demande si vous souhaitez autoriser Studio à démarrer maintenant. Cela lancera Unsloth sur votre **8888** port local.

{% hint style="info" %} Si vous avez choisi de ne pas lancer Unsloth pendant le processus d’installation, vous pouvez toujours démarrer l’application Unsloth en utilisant `unsloth studio -p 8888` . Si vous souhaitez que votre instance Unsloth soit accessible par des clients en dehors de votre PC/ordinateur, ajoutez `-H 0.0.0.0` à la commande `unsloth studio` . {% endhint %} #### Étape 2 : Démarrer Unsloth Ouvrez le navigateur de votre choix et saisissez `http://127.0.0.1:8888` dans la barre d’URL. Si c’est la première fois que vous installez Unsloth, vous serez redirigé vers la page du mot de passe où vous devrez créer un nouveau mot de passe. Ensuite, Unsloth devrait maintenant s’ouvrir sur la page de chat comme indiqué ci-dessous.

{% endtab %} {% tab title="Windows" %} #### Étape 1 : Configurer Unsloth Ouvrez le menu Démarrer, recherchez `PowerShell`, et lancez-le. Copiez et saisissez la commande d’installation : ```powershell irm https://unsloth.ai/install.ps1 | iex ``` l’installation commencera automatiquement. Une fois l’installation terminée, PowerShell vous demandera si vous souhaitez démarrer Unsloth Studio**.**

Vous pouvez également le lancer avec la commande suivante : ```bash unsloth studio -H 0.0.0.0 -p 8888 ``` {% hint style="info" %} Si vous souhaitez que votre instance soit accessible par des clients en dehors de votre PC/ordinateur.\ Ajoutez `-H 0.0.0.0` à la commande `unsloth studio` . {% endhint %} #### Étape 2 : Démarrer Unsloth Ouvrez `http://127.0.0.1:8888` dans votre navigateur. Au premier lancement, créez un nouveau mot de passe pour continuer vers la page de chat. **Unsloth Studio** est maintenant installé et prêt à l’emploi.

{% endtab %} {% tab title="Linux, WSL" %} #### Étape 1 : Configurer Unsloth {% tabs %} {% tab title="Linux" %} Ouvrez votre application de terminal. Vous pouvez la lancer en appuyant sur `Ctrl + Alt + T`, ou en recherchant `Terminal` dans le menu des applications de votre système. {% endtab %} {% tab title="WSL" %} Cliquez sur le menu Démarrer de Windows, tapez le nom de votre distribution installée (par ex. `Ubuntu`), puis ouvrez-la. {% hint style="warning" %} Sur **WSL**, assurez-vous que vos **pilotes NVIDIA** sont installés sur **Windows** (pas à l’intérieur de WSL) et que le **kit d’outils CUDA** est installé dans votre distribution WSL. Voir les exigences système ci-dessous pour plus de détails. {% endhint %} {% endtab %} {% endtabs %} Pour installer, copiez et exécutez la commande d’installation : ```bash curl -fsSL https://unsloth.ai/install.sh | sh ``` Puis : 1. Cliquez à l’intérieur de la fenêtre du terminal 2. Collez la commande avec `Ctrl + Shift + V` 3. Appuyez sur `Entrée` Unsloth commencera à configurer l’environnement et à installer les paquets requis comme indiqué ci-dessous. Tapez **Y** et appuyez sur `Entrée` quand on vous demande si vous souhaitez autoriser Studio à démarrer maintenant. Cela lancera Unsloth sur votre **8888** port local.

{% endtab %} {% endtabs %} ### Guide de chargement du modèle + API {% stepper %} {% step %} #### Sélectionner le modèle Avant d’utiliser l’API, chargez un modèle depuis le menu déroulant **Sélectionner le modèle** dans le coin supérieur gauche de la page Chat.

Dans ce guide, nous utiliserons : `unsloth/gemma-4-26B-A4B-it-GGUF` avec la `UD-Q4_K_XL` quantification recommandée. {% endstep %} {% step %} #### Tester le modèle Avant d’utiliser le client, envoyez un court message :

{% hint style="info" %} Cela confirme que le modèle a été chargé correctement et qu’il est prêt à répondre. {% endhint %} {% endstep %} {% step %} #### **clé API Unsloth** Dans Studio, ouvrez **Paramètres → API** pour afficher ou créer votre clé API.

Traitez votre clé API comme un mot de passe et évitez de l’exposer dans des captures d’écran ou des dépôts. {% endstep %} {% endstepper %} ## ⚙️ Connecter Claude Code Maintenant que nous avons configuré le LLM local pour Claude Code, nous configurons Claude Code pour fonctionner avec Unsloth ou llama.cpp. Nous commençons par définir les variables d’environnement suivantes. Ces variables ne persisteront pas entre les sessions par défaut. {% tabs %} {% tab title="MacOS, Linux, WSL" %} **Configuration :** Définissez l’URL de l’API locale : ```bash export ANTHROPIC_BASE_URL="http://localhost:8888" ``` Copiez votre clé depuis Unsloth Studio → Paramètres → API, puis définissez-la : ```bash export ANTHROPIC_AUTH_TOKEN="sk-unsloth-xxxxxxxxxxxx" ``` Facultatif : utilisez par défaut le nom du modèle actuellement chargé dans Unsloth. ```bash export ANTHROPIC_MODEL="gemma-4-26B-A4B-it-GGUF" ``` Le nom du modèle doit correspondre au modèle actuellement chargé dans Unsloth Studio. {% endtab %} {% tab title="Windows" %} **Configuration :** Définissez l’URL de l’API locale dans Powershell : ```powershell $env:ANTHROPIC_BASE_URL = "http://localhost:8888" ``` Copiez votre clé depuis **Unsloth Studio → Paramètres → API**, puis définissez-la : ```powershell $env:ANTHROPIC_AUTH_TOKEN = "sk-unsloth-xxxxxxxxxxxx" ``` **Facultatif :** Utilisez le nom du modèle actuellement chargé dans Unsloth comme valeur par défaut. ```powershell $env:ANTHROPIC_MODEL = "gemma-4-26B-A4B-it-GGUF" ``` {% hint style="info" %} Le nom du modèle doit être celui actuellement chargé dans Unsloth Studio. {% endhint %} {% endtab %} {% endtabs %} ### Démarrer Claude Code Démarrez Claude Code avec le modèle actuellement chargé dans Unsloth. Nous utiliserons `gemma-4-26B-A4B-it-GGUF`, mais vous pouvez utiliser n’importe quel modèle compatible avec Unsloth. ```shellscript claude --model unsloth/gemma-4-26B-A4B-it-GGUF ``` Claude Code devrait s’ouvrir et afficher le modèle sélectionné.

{% hint style="warning" %} Voir [#fixing-90-slower-inference-in-claude-code](#fixing-90-slower-inference-in-claude-code "mention") d’abord pour corriger le fait que les modèles ouverts soient 90 % plus lents en raison de l’invalidation du cache KV. {% endhint %} Essayez ce prompt pour rechercher et classer des jeux de données SFT de haute qualité. {% code overflow="wrap" %} ``` Vous ne pouvez travailler que dans project/. Ne recherchez pas CLAUDE.md — c’est ici. Utilisez la recherche web pour trouver 10 vrais jeux de données d’instructions/chat/SFT sur Hugging Face, résumez brièvement vos découvertes et expliquez pourquoi chaque jeu de données est pertinent pour le SFT au fur et à mesure de vos recherches, puis créez sft_report.md comme un rapport Markdown soigné contenant le classement, le nom du jeu de données, le créateur, 3 à 5 balises pertinentes, un court résumé en français simple et pourquoi il est utile pour le SFT. Gardez tout concis et lisible, sans énormes vidages de métadonnées, descriptions brutes collées, longues listes de balises ou jeux de données non pertinents. La tâche est terminée une fois que sft_report.md contient 10 entrées de jeux de données propres et bien rédigées, et terminez par : « Successfully finetuned a model with Unsloth! » ``` {% endcode %} Après avoir soumis le prompt, l’agent recherchera sur le web, évaluera les résultats et écrira le rapport final. Cela peut prendre quelques minutes. Certains workflows peuvent nécessiter que vous approuviez des actions ou répondiez à des invites de suivi.

{% hint style="info" %} Certains workflows peuvent nécessiter que vous approuviez des actions ou répondiez à des invites de suivi. {% endhint %} Une fois terminé, le `sft_report.md` généré ressemblera à ceci.

{% hint style="warning" %} Si vous voyez `Unable to connect to API (ConnectionRefused)` , n’oubliez pas de désactiver `ANTHROPIC_BASE_URL` via `unset ANTHROPIC_BASE_URL` Si vous trouvez que les modèles ouverts sont 90 % plus lents, [voyez d’abord ici](#fixing-90-slower-inference-in-claude-code) pour corriger l’invalidation du cache KV. {% endhint %} ## 🦙 Tutoriel Llama.cpp Avant de commencer, nous devons d’abord terminer la configuration du modèle spécifique que vous allez utiliser. Nous utilisons `llama.cpp` qui est un framework open source pour exécuter des LLMs sur vos appareils Mac, Linux, Windows, etc. Llama.cpp contient `llama-server` qui vous permet de servir et de déployer des LLMs efficacement. Le modèle sera servi sur le port 8001, avec tous les outils de l’agent acheminés via un point de terminaison unique compatible OpenAI. #### Tutoriel Qwen3.5 Nous utiliserons [Qwen3.5](/docs/fr/modeles/qwen3.5.md)-35B-A3B et des paramètres spécifiques pour des tâches de codage rapides et précises. Si vous n’avez pas assez de VRAM et voulez un **plus intelligent** model, **Qwen3.5-27B** est un excellent choix, mais il sera environ 2 fois plus lent, ou vous pouvez utiliser d’autres variantes de Qwen3.5 comme 9B, 4B ou 2B. {% hint style="info" %} Utilisez Qwen3.5-27B si vous voulez un **plus intelligent** modèle ou si vous n’avez pas assez de VRAM. Il sera cependant environ 2 fois plus lent que le 35B-A3B. Ou vous pouvez utiliser [**Qwen3-Coder-Next**](/docs/fr/modeles/qwen3-coder-next.md) qui est fantastique si vous avez suffisamment de VRAM. {% endhint %} {% stepper %} {% step %} #### Installer llama.cpp Nous devons installer `llama.cpp` pour déployer/servir des LLMs locaux à utiliser dans Claude Code, etc. Nous suivons les instructions de compilation officielles pour des liaisons GPU correctes et des performances maximales. Modifiez `-DGGML_CUDA=ON` en `-DGGML_CUDA=OFF` si vous n’avez pas de GPU ou si vous souhaitez simplement une inférence CPU. **Pour les appareils Apple Mac / Metal**, définissez `-DGGML_CUDA=OFF` puis continuez comme d'habitude - la prise en charge de Metal est activée par défaut. ```bash apt-get update apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y git clone https://github.com/ggml-org/llama.cpp cmake llama.cpp -B llama.cpp/build \ -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split cp llama.cpp/build/bin/llama-* llama.cpp ```

{% endstep %} {% step %} #### Télécharger et utiliser des modèles en local Téléchargez le modèle via `huggingface_hub` en Python (après installation via `pip install huggingface_hub hf_transfer`). Nous utilisons le **UD-Q4\_K\_XL** quant pour le meilleur compromis entre taille et précision. Vous pouvez trouver tous les téléversements Unsloth GGUF dans notre [Collection ici](/docs/fr/commencer/unsloth-model-catalog.md). Si les téléchargements se bloquent, voir [Hugging Face Hub, débogage XET](/docs/fr/bases/troubleshooting-and-faqs/hugging-face-hub-xet-debugging.md) ```bash hf download unsloth/Qwen3.5-35B-A3B-GGUF \ --local-dir unsloth/Qwen3.5-35B-A3B-GGUF \ --include "*UD-Q4_K_XL*" # Utilisez "*UD-Q2_K_XL*" pour Dynamic 2bit ```

{% hint style="success" %} Nous avons utilisé `unsloth/Qwen3.5-35B-A3B-GGUF` , mais vous pouvez utiliser une autre variante comme 27B ou n’importe quel autre modèle comme `unsloth/`[`Qwen3-Coder-Next`](/docs/fr/modeles/qwen3-coder-next.md)`-GGUF`. {% endhint %}

{% endstep %} {% step %} #### Démarrer le serveur Llama Pour déployer Qwen3.5 pour des charges de travail agentiques, nous utilisons `llama-server`. Nous appliquons [les paramètres d’échantillonnage recommandés par Qwen](/docs/fr/modeles/qwen3.5.md#recommended-settings) pour le mode réflexion : `temp 0.6`, `top_p 0.95` , `top-k 20`. Gardez à l’esprit que ces valeurs changent si vous utilisez le mode sans réflexion ou d’autres tâches. Exécutez cette commande dans un nouveau terminal (utilisez `tmux` ou ouvrez un nouveau terminal). Ce qui suit devrait **tenir parfaitement dans un GPU de 24 Go (RTX 4090) (utilise 23 Go)** `--fit on` fera aussi un déchargement automatique, mais si vous constatez de mauvaises performances, réduisez `--ctx-size` . {% hint style="info" %} Nous avons utilisé `--cache-type-k q8_0 --cache-type-v q8_0` pour la quantification du cache KV afin d’utiliser moins de VRAM. Pour la précision complète, utilisez `--cache-type-k bf16 --cache-type-v bf16` . Remarque : le cache KV bf16 peut être légèrement plus lent sur certaines machines. {% endhint %} ```bash ./llama.cpp/llama-server \ --model unsloth/Qwen3.5-35B-A3B-GGUF/Qwen3.5-35B-A3B-UD-Q4_K_XL.gguf \ --alias "unsloth/Qwen3.5-35B-A3B" \ --temp 0.6 \ --top-p 0.95 \ --top-k 20 \ --min-p 0.00 \ --port 8001 \ --kv-unified \\ --cache-type-k q8_0 --cache-type-v q8_0 ``` {% hint style="success" %} Vous pouvez également désactiver la réflexion pour Qwen3.5, ce qui peut améliorer les performances pour les tâches de codage agentique. Pour désactiver la réflexion avec llama.cpp, ajoutez ceci à la commande llama-server : `--chat-template-kwargs "{\"enable_thinking\": false}"`

{% endhint %} {% endstep %} {% endstepper %} ### Démarrer Claude Code avec llama-server {% hint style="success" %} Nous avons utilisé `unsloth/GLM-4.7-Flash-GGUF` , mais vous pouvez utiliser n’importe quoi comme `unsloth/Qwen3.6-27B-GGUF`. {% endhint %} {% hint style="warning" %} Voir [#fixing-90-slower-inference-in-claude-code](#fixing-90-slower-inference-in-claude-code "mention") d’abord pour corriger le fait que les modèles ouverts soient 90 % plus lents en raison de l’invalidation du cache KV. {% endhint %} Accédez à votre dossier de projet (`mkdir project ; cd project`) et exécutez : ```bash claude --model unsloth/GLM-4.7-Flash ``` Pour utiliser Qwen3.6-35B-A3B, remplacez simplement par : ```bash claude --model unsloth/Qwen3.6-35B-A3B ```

Pour configurer Claude Code afin d’exécuter des commandes sans aucune approbation, faites **(ATTENTION cela fera en sorte que Claude Code agisse et exécute le code comme bon lui semble, sans aucune approbation !)** {% code overflow="wrap" %} ```bash claude --model unsloth/GLM-4.7-Flash --dangerously-skip-permissions ``` {% endcode %} Essayez ce prompt pour installer et exécuter un simple fine-tuning Unsloth : {% code overflow="wrap" %} ``` Vous ne pouvez travailler que dans le répertoire courant project/. Ne recherchez pas CLAUDE.md - c’est ici. Installez Unsloth via un environnement virtuel avec uv. Utilisez `python -m venv unsloth_env` puis `source unsloth_env/bin/activate` si possible. Voir https://unsloth.ai/docs/get-started/install/pip-install pour savoir comment faire (récupérez-le et lisez-le). Puis lancez une exécution simple de fine-tuning Unsloth décrite dans https://github.com/unslothai/unsloth. Vous avez accès à 1 GPU. ``` {% endcode %}

Après avoir attendu un peu, Unsloth sera installé dans un venv via uv, puis chargé :

et enfin vous verrez un modèle fine-tuné avec succès avec Unsloth !