# Comment exécuter des LLMs locaux avec Claude Code

Ce guide étape par étape vous montre comment connecter des LLMs ouverts et des API à Claude Code entièrement en local, avec captures d’écran à l’appui. Exécutez-le avec n’importe quel modèle ouvert comme Qwen3.5, DeepSeek et Gemma.

Pour ce tutoriel, nous utiliserons [**Qwen3.5**](https://unsloth.ai/docs/fr/modeles/qwen3.5) et [GLM-4.7-Flash](https://unsloth.ai/docs/fr/modeles/glm-4.7-flash). Ce sont tous deux les modèles agentiques et de codage MoE 35B les plus puissants en mars 2026 (qui fonctionne très bien sur un appareil avec 24 Go de RAM/mémoire unifiée) pour affiner de manière autonome un LLM avec [Unsloth](https://github.com/unslothai/unsloth). Vous pouvez le remplacer par [n’importe quel autre modèle](https://unsloth.ai/docs/fr/modeles/tutorials), il suffit de mettre à jour les noms des modèles dans vos scripts.

<a href="#qwen3.5-tutorial" class="button secondary">Tutoriel Qwen3.5</a><a href="#glm-4.7-flash-tutorial" class="button secondary">Tutoriel GLM-4.7-Flash</a><a href="#claude-code-tutorial" class="button primary" data-icon="claude">Tutoriel Claude Code</a>

Pour les quantifications de modèles, nous utiliserons Unsloth [Dynamic GGUFs](https://unsloth.ai/docs/fr/bases/unsloth-dynamic-2.0-ggufs) pour exécuter n’importe quel LLM quantifié, tout en conservant autant de précision que possible.

{% hint style="info" %}
Claude Code a beaucoup changé depuis janvier 2026. Il y a beaucoup plus de paramètres et de fonctionnalités nécessaires que vous devrez activer.
{% endhint %}

## 📖 Tutoriels de configuration des LLM

Avant de commencer, nous devons d’abord terminer la configuration du modèle spécifique que vous allez utiliser. Nous utilisons `llama.cpp` qui est un framework open source pour exécuter des LLMs sur vos appareils Mac, Linux, Windows, etc. Llama.cpp contient `llama-server` qui vous permet de servir et déployer efficacement des LLMs. Le modèle sera servi sur le port 8001, avec tous les outils d’agent routés via un seul point de terminaison compatible OpenAI.&#x20;

### Tutoriel Qwen3.5

Nous utiliserons [Qwen3.5](https://unsloth.ai/docs/fr/modeles/qwen3.5)-35B-A3B et des paramètres spécifiques pour des tâches de codage rapides et précises. Si vous n’avez pas assez de VRAM et souhaitez un modèle **plus intelligent** , **Qwen3.5-27B** est un excellent choix, mais il sera environ 2 fois plus lent, ou vous pouvez utiliser d’autres variantes de Qwen3.5 comme 9B, 4B ou 2B.

{% hint style="info" %}
Utilisez Qwen3.5-27B si vous voulez un **plus intelligent** modèle ou si vous n’avez pas assez de VRAM. Cependant, il sera environ 2 fois plus lent que 35B-A3B. Sinon, vous pouvez utiliser [**Qwen3-Coder-Next**](https://unsloth.ai/docs/fr/modeles/qwen3-coder-next) qui est fantastique si vous avez suffisamment de VRAM.
{% endhint %}

{% stepper %}
{% step %}

#### Installer llama.cpp

Nous devons installer `llama.cpp` pour déployer/servir des LLMs locaux à utiliser dans Claude Code, etc. Nous suivons les instructions officielles de compilation pour une liaison GPU correcte et des performances maximales. Modifiez `-DGGML_CUDA=ON` en `-DGGML_CUDA=OFF` si vous n’avez pas de GPU ou si vous voulez simplement une inférence CPU. **Pour les appareils Apple Mac / Metal**, définissez `-DGGML_CUDA=OFF` puis continuez comme d’habitude — la prise en charge de Metal est activée par défaut.

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

<figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2F4DmycqgjxOz6TOQd9PLJ%2Fimage.png?alt=media&#x26;token=c94db0b5-8e4a-4043-b2a3-c68bad93213e" alt="" width="563"><figcaption></figcaption></figure>
{% endstep %}

{% step %}

#### Télécharger et utiliser les modèles en local

Téléchargez le modèle via `huggingface_hub` en Python (après installation via `pip install huggingface_hub hf_transfer`). Nous utilisons la quantification **UD-Q4\_K\_XL** pour le meilleur équilibre entre taille et précision. Vous pouvez trouver tous les uploads GGUF d’Unsloth dans notre [collection ici](https://unsloth.ai/docs/fr/commencer/unsloth-model-catalog). Si les téléchargements se bloquent, voir [hugging-face-hub-xet-debugging](https://unsloth.ai/docs/fr/bases/troubleshooting-and-faqs/hugging-face-hub-xet-debugging "mention")

```bash
hf download unsloth/Qwen3.5-35B-A3B-GGUF \
    --local-dir unsloth/Qwen3.5-35B-A3B-GGUF \
    --include "*UD-Q4_K_XL*" # Utilisez "*UD-Q2_K_XL*" pour le Dynamic 2 bits
```

<figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FRfXofrNzl1ypjfMTz15o%2Fimage.png?alt=media&#x26;token=8009de90-cd11-46ed-85b5-fca5c07b66fc" alt=""><figcaption></figcaption></figure>

{% hint style="success" %}
Nous avons utilisé `unsloth/Qwen3.5-35B-A3B-GGUF` , mais vous pouvez utiliser une autre variante comme 27B ou n’importe quel autre modèle comme `unsloth/`[`Qwen3-Coder-Next`](https://unsloth.ai/docs/fr/modeles/qwen3-coder-next)`-GGUF`.
{% endhint %}

<figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FxlIrQGQ0cevb1ckkSFy5%2Fimage.png?alt=media&#x26;token=b1a42562-927a-4ad2-85f8-29c2993c46aa" alt="" width="563"><figcaption></figcaption></figure>
{% endstep %}

{% step %}

#### Démarrer le serveur Llama

Pour déployer Qwen3.5 pour des charges de travail agentiques, nous utilisons `llama-server`. Nous appliquons [les paramètres d’échantillonnage recommandés par Qwen](https://unsloth.ai/docs/fr/modeles/qwen3.5#recommended-settings) pour le mode réflexion : `temp 0.6`, `top_p 0.95` , `top-k 20`. Gardez à l’esprit que ces valeurs changent si vous utilisez le mode sans réflexion ou d’autres tâches.

Exécutez cette commande dans un nouveau terminal (utilisez `tmux` ou ouvrez un nouveau terminal). Ce qui suit devrait **tenir parfaitement dans un GPU de 24 Go (RTX 4090) (utilise 23 Go)** `--fit on` va aussi décharger automatiquement, mais si vous constatez de mauvaises performances, réduisez `--ctx-size` .

{% hint style="danger" %}
Nous avons utilisé `--cache-type-k q8_0 --cache-type-v q8_0` pour la quantification du cache KV afin de réduire l’utilisation de VRAM. Pour une précision complète, utilisez `--cache-type-k bf16 --cache-type-v bf16` D’après plusieurs rapports, Qwen3.5 dégrade la précision avec un cache KV `f16` , donc n’utilisez pas `--cache-type-k f16 --cache-type-v f16` qui est également activé par défaut dans llama.cpp. Notez que le cache KV bf16 peut être légèrement plus lent sur certaines machines.
{% endhint %}

```bash
./llama.cpp/llama-server \
    --model unsloth/Qwen3.5-35B-A3B-GGUF/Qwen3.5-35B-A3B-UD-Q4_K_XL.gguf \
    --alias "unsloth/Qwen3.5-35B-A3B" \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00 \
    --port 8001 \
    --kv-unified \
    --cache-type-k q8_0 --cache-type-v q8_0 \
    --flash-attn on --fit on \
    --ctx-size 131072 # à modifier selon les besoins
```

{% hint style="success" %}
Vous pouvez aussi désactiver la réflexion pour Qwen3.5, ce qui peut améliorer les performances pour les tâches de codage agentique. Pour désactiver la réflexion avec llama.cpp, ajoutez ceci à la commande llama-server :

`--chat-template-kwargs "{\"enable_thinking\": false}"`

<img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2F373wtRRbMcobtjV5e6xf%2Fkerkekke.png?alt=media&#x26;token=2cd3b8c7-93b6-41cb-8bce-41f1aee819eb" alt="" data-size="original">
{% endhint %}
{% endstep %}
{% endstepper %}

### Tutoriel GLM-4.7-Flash

{% stepper %}
{% step %}

#### Installer llama.cpp

Nous devons installer `llama.cpp` pour déployer/servir des LLMs locaux à utiliser dans Claude Code, etc. Nous suivons les instructions officielles de compilation pour une liaison GPU correcte et des performances maximales. Modifiez `-DGGML_CUDA=ON` en `-DGGML_CUDA=OFF` si vous n’avez pas de GPU ou si vous voulez simplement une inférence CPU. **Pour les appareils Apple Mac / Metal**, définissez `-DGGML_CUDA=OFF` puis continuez comme d’habitude — la prise en charge de Metal est activée par défaut.

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

<figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2F4DmycqgjxOz6TOQd9PLJ%2Fimage.png?alt=media&#x26;token=c94db0b5-8e4a-4043-b2a3-c68bad93213e" alt="" width="563"><figcaption></figcaption></figure>
{% endstep %}

{% step %}

#### Télécharger et utiliser les modèles en local

Téléchargez le modèle via `huggingface_hub` en Python (après installation via `pip install huggingface_hub hf_transfer`). Nous utilisons la quantification **UD-Q4\_K\_XL** pour le meilleur équilibre entre taille et précision. Vous pouvez trouver tous les uploads GGUF d’Unsloth dans notre [collection ici](https://unsloth.ai/docs/fr/commencer/unsloth-model-catalog). Si les téléchargements se bloquent, voir [hugging-face-hub-xet-debugging](https://unsloth.ai/docs/fr/bases/troubleshooting-and-faqs/hugging-face-hub-xet-debugging "mention")

{% hint style="success" %}
Nous avons utilisé `unsloth/GLM-4.7-Flash-GGUF` , mais vous pouvez utiliser n’importe quoi comme `unsloth/Qwen3-Coder-Next-GGUF` - voir [qwen3-coder-next](https://unsloth.ai/docs/fr/modeles/qwen3-coder-next "mention")
{% endhint %}

```python
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download

snapshot_download(
    repo_id = "unsloth/GLM-4.7-Flash-GGUF",
    local_dir = "unsloth/GLM-4.7-Flash-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)
```

<figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FxlIrQGQ0cevb1ckkSFy5%2Fimage.png?alt=media&#x26;token=b1a42562-927a-4ad2-85f8-29c2993c46aa" alt="" width="563"><figcaption></figcaption></figure>
{% endstep %}

{% step %}

#### Démarrer le serveur Llama

Pour déployer GLM-4.7-Flash pour des charges de travail agentiques, nous utilisons `llama-server`. Nous appliquons les paramètres d’échantillonnage recommandés par Z.ai (`temp 1.0`, `top_p 0.95`).

Exécutez cette commande dans un nouveau terminal (utilisez `tmux` ou ouvrez un nouveau terminal). Ce qui suit devrait **tenir parfaitement dans un GPU de 24 Go (RTX 4090) (utilise 23 Go)** `--fit on` va aussi décharger automatiquement, mais si vous constatez de mauvaises performances, réduisez `--ctx-size` .

{% hint style="danger" %}
Nous avons utilisé `--cache-type-k q8_0 --cache-type-v q8_0` pour la quantification du cache KV afin de réduire l’utilisation de VRAM. Si vous constatez une qualité réduite, vous pouvez utiliser à la place `bf16` mais cela doublera l’utilisation de VRAM : `--cache-type-k bf16 --cache-type-v bf16`
{% endhint %}

```bash
./llama.cpp/llama-server \
    --model unsloth/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf \
    --alias "unsloth/GLM-4.7-Flash" \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --port 8001 \
    --kv-unified \
    --cache-type-k q8_0 --cache-type-v q8_0 \
    --flash-attn on --fit on \
    --batch-size 4096 --ubatch-size 1024 \
    --ctx-size 131072 # à modifier selon les besoins
```

{% hint style="success" %}
Vous pouvez aussi désactiver la réflexion pour GLM-4.7-Flash, ce qui peut améliorer les performances pour les tâches de codage agentique. Pour désactiver la réflexion avec llama.cpp, ajoutez ceci à la commande llama-server :

`--chat-template-kwargs "{\"enable_thinking\": false}"`

<img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FyKf6guCV8snRaAV16Zxc%2FG_16XLgXUAEnSWH.jpg?alt=media&#x26;token=3b557c6d-3f6f-4515-ba9f-4cc8b50bcef1" alt="" data-size="original">
{% endhint %}
{% endstep %}
{% endstepper %}

## <i class="fa-claude">:claude:</i> Tutoriel Claude Code

{% hint style="danger" %}
Voir [#fixing-90-slower-inference-in-claude-code](#fixing-90-slower-inference-in-claude-code "mention") après l’installation de Claude Code pour corriger le fait que les modèles ouverts soient 90 % plus lents à cause de l’invalidation du cache KV.
{% endhint %}

Une fois que vous avez terminé les premières étapes de configuration de votre LLM local, il est temps de configurer Claude Code. Claude Code est l’outil de codage agentique d’Anthropic qui se trouve dans votre terminal, comprend votre base de code et gère des workflows Git complexes via le langage naturel.

#### **Installer Claude Code et l’exécuter en local**

{% tabs %}
{% tab title="Configurations Mac / Linux" %}

```bash
curl -fsSL https://claude.ai/install.sh | bash
# Ou via Homebrew : brew install --cask claude-code
```

**Configurer**

Définissez la variable d’environnement `ANTHROPIC_BASE_URL` pour rediriger Claude Code vers votre serveur `llama.cpp` local.

```bash
export ANTHROPIC_BASE_URL="http://localhost:8001"
```

Vous devrez peut-être aussi définir `ANTHROPIC_API_KEY` selon le serveur. Par exemple :

```bash
export ANTHROPIC_API_KEY='sk-no-key-required' ## ou 'sk-1234'
```

**Session vs persistant :** Les commandes ci-dessus s’appliquent uniquement au terminal actuel. Pour les conserver dans les nouveaux terminaux :

Ajoutez la ligne `export` à `~/.bashrc` (bash) ou `~/.zshrc` (zsh).

{% hint style="warning" %}
Si vous voyez `Unable to connect to API (ConnectionRefused)` , pensez à annuler `ANTHROPIC_BASE_URL`  via `unset ANTHROPIC_BASE_URL`
{% endhint %}

**Clé API manquante**

Si vous voyez cela, définissez `export ANTHROPIC_API_KEY='sk-no-key-required' ## ou 'sk-1234'`

{% hint style="info" %}
Si Claude Code vous demande encore de vous connecter au premier lancement, ajoutez `"hasCompletedOnboarding": true` et `"primaryApiKey": "sk-dummy-key"` en `~/.claude.json`. Pour l’extension VS Code, activez aussi **Disable Login Prompt** dans les paramètres (ou ajoutez `"claudeCode.disableLoginPrompt": true` en `settings.json`).
{% endhint %}
{% endtab %}

{% tab title="Configurations Windows" %}
Utilisez PowerShell pour toutes les commandes ci-dessous :

```powershell
irm https://claude.ai/install.ps1 | iex
```

**Configurer**

Définissez la variable d’environnement `ANTHROPIC_BASE_URL` pour rediriger Claude Code vers votre serveur `llama.cpp` serveur. Vous devez aussi utiliser `$env:CLAUDE_CODE_ATTRIBUTION_HEADER=0` voir ci-dessous.

```powershell
$env:ANTHROPIC_BASE_URL="http://localhost:8001"
```

{% hint style="danger" %}
Claude Code préfixe et modifie récemment un en-tête d’attribution Claude Code, ce qui invalide le cache KV. Voir cette [discussion LocalLlama](https://www.reddit.com/r/LocalLLaMA/comments/1r47fz0/claude_code_with_local_models_full_prompt/).

Pour résoudre cela, faites `$env:CLAUDE_CODE_ATTRIBUTION_HEADER=0` ou modifiez `~/.claude/settings.json` avec :

```
{
    ...
    "env": {
        "CLAUDE_CODE_ATTRIBUTION_HEADER" : "0",
        ...
    }
}
```

{% endhint %}

**Session vs persistant :** Les commandes ci-dessus s’appliquent uniquement au terminal actuel. Pour les conserver dans les nouveaux terminaux :

Exécutez `setx ANTHROPIC_BASE_URL "http://localhost:8001"` une fois, ou ajoutez la ligne `$env:` à votre `$PROFILE`.

{% hint style="info" %}
Si Claude Code vous demande encore de vous connecter au premier lancement, ajoutez `"hasCompletedOnboarding": true` et `"primaryApiKey": "sk-dummy-key"` en `~/.claude.json`. Pour l’extension VS Code, activez aussi **Disable Login Prompt** dans les paramètres (ou ajoutez `"claudeCode.disableLoginPrompt": true` en `settings.json`).
{% endhint %}
{% endtab %}
{% endtabs %}

### :detective:Corriger une inférence 90 % plus lente dans Claude Code

{% hint style="danger" %}
Claude Code préfixe et ajoute récemment un en-tête d’attribution Claude Code, ce qui **invalide le cache KV, rendant l’inférence 90 % plus lente avec les modèles locaux**. Voir cette [discussion LocalLlama](https://www.reddit.com/r/LocalLLaMA/comments/1r47fz0/claude_code_with_local_models_full_prompt/).
{% endhint %}

Pour résoudre cela, modifiez `~/.claude/settings.json` pour inclure `CLAUDE_CODE_ATTRIBUTION_HEADER` et définissez-le à 0 dans `"env"`

{% hint style="info" %}
Utiliser `export CLAUDE_CODE_ATTRIBUTION_HEADER=0` **NE FONCTIONNE PAS** !
{% endhint %}

Par exemple, faites `cat > ~/.claude/settings.json` puis ajoutez ce qui suit (une fois collé, appuyez sur ENTRÉE puis CTRL+D pour l’enregistrer). Si vous avez un `~/.claude/settings.json` fichier précédent, ajoutez simplement `"CLAUDE_CODE_ATTRIBUTION_HEADER" : "0"` à la section "env", et laissez le reste du fichier de configuration inchangé.

<pre><code>{
  "promptSuggestionEnabled": false,
  "env": {
    "CLAUDE_CODE_ENABLE_TELEMETRY": "0",
    "CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1",
    <a data-footnote-ref href="#user-content-fn-1">"CLAUDE_CODE_ATTRIBUTION_HEADER" : "0"</a>
  },
  "attribution": {
    "commit": "",
    "pr": ""
  },
  "plansDirectory" : "./plans",
  "prefersReducedMotion" : true,
  "terminalProgressBarEnabled" : false,
  "effortLevel" : "high"
}
</code></pre>

#### :star2:Exécuter Claude Code localement sur Linux / Mac / Windows

{% hint style="success" %}
Nous avons utilisé `unsloth/GLM-4.7-Flash-GGUF` , mais vous pouvez utiliser n’importe quoi comme `unsloth/Qwen3.5-35B-A3B-GGUF`.
{% endhint %}

{% hint style="danger" %}
Voir [#fixing-90-slower-inference-in-claude-code](#fixing-90-slower-inference-in-claude-code "mention") d’abord pour corriger le fait que les modèles ouverts soient 90 % plus lents à cause de l’invalidation du cache KV.
{% endhint %}

Accédez à votre dossier de projet (`mkdir project ; cd project`) et exécutez :

```bash
claude --model unsloth/GLM-4.7-Flash
```

Pour utiliser Qwen3.5-35B-A3B, remplacez simplement par :

```bash
claude --model unsloth/Qwen3.5-35B-A3B
```

<figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fnyc5BnXQiXPRZnyuYZt3%2Fimage.png?alt=media&#x26;token=72011cb6-abed-4a41-99b0-104ef5d0111f" alt=""><figcaption></figcaption></figure>

Pour configurer Claude Code afin d’exécuter les commandes sans aucune approbation, faites **(ATTENTION, cela permettra à Claude Code de faire et d’exécuter du code comme il le souhaite sans aucune approbation !)**

{% code overflow="wrap" %}

```bash
claude --model unsloth/GLM-4.7-Flash --dangerously-skip-permissions
```

{% endcode %}

Essayez cette invite pour installer et exécuter un simple fine-tuning Unsloth :

{% code overflow="wrap" %}

```
Vous ne pouvez travailler que dans le projet cwd/. Ne cherchez pas CLAUDE.md - c’est ici. Installez Unsloth via un environnement virtuel avec uv. Utilisez `python -m venv unsloth_env` puis `source unsloth_env/bin/activate` si possible. Voir https://unsloth.ai/docs/get-started/install/pip-install pour la procédure (récupérez-la et lisez-la). Ensuite, faites une simple exécution de fine-tuning Unsloth décrite dans https://github.com/unslothai/unsloth. Vous avez accès à 1 GPU.
```

{% endcode %}

<figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FBkpEsVssYZG9wHvvWMRH%2Fimage.png?alt=media&#x26;token=e1a8283f-49ed-4b78-8052-d8970f069d5b" alt=""><figcaption></figcaption></figure>

Après avoir attendu un peu, Unsloth sera installé dans un venv via uv, puis chargé :

<figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FHATFwDrR1gP44XFbzWcv%2Fimage.png?alt=media&#x26;token=6ff63733-686d-4b08-bdd5-66a6fa4aa34c" alt=""><figcaption></figcaption></figure>

et enfin, vous verrez un modèle fine-tuné avec succès grâce à Unsloth !

<figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FZjQ6askaixcYOMrr2qMi%2Fimage.png?alt=media&#x26;token=e0e0047d-b6a2-421f-a86b-68e093a3a17a" alt=""><figcaption></figcaption></figure>

**Extension IDE (VS Code / Cursor)**

Vous pouvez aussi utiliser Claude Code directement dans votre éditeur via l’extension officielle :

* [Installer pour VS Code](https://marketplace.visualstudio.com/items?itemName=anthropic.claude-code)
* [Installer pour Cursor](cursor:extension/anthropic.claude-code)
* [Documentation de Claude Code dans VS Code](https://code.claude.com/docs/en/vs-code)

Sinon, appuyez sur `Ctrl+Shift+X` (Windows/Linux) ou `Cmd+Shift+X` (Mac), recherchez **Claude Code**et cliquez sur **Installer**.

{% hint style="warning" %}
Si vous voyez `Unable to connect to API (ConnectionRefused)` , pensez à annuler `ANTHROPIC_BASE_URL`  via `unset ANTHROPIC_BASE_URL`
{% endhint %}

{% hint style="danger" %}
Si vous constatez que les modèles ouverts sont 90 % plus lents, voir [#claude-code-90-slower-inference](#claude-code-90-slower-inference "mention") d’abord pour corriger l’invalidation du cache KV.
{% endhint %}

[^1]: Doit être utilisé !
