# Comment exécuter des LLM locaux avec Claude Code

Ce guide étape par étape vous montre comment connecter des LLMs et des API ouverts à Claude Code entièrement en local, avec captures d’écran. Exécutez-le avec n’importe quel modèle ouvert comme Qwen3.6, DeepSeek et Gemma.

Pour ce tutoriel, nous utiliserons les modèles ouverts : [Gemma 4](/docs/fr/modeles/gemma-4.md) et [Qwen3.5](/docs/fr/modeles/qwen3.5.md) qui sont de solides modèles d’agentique et de codage (fonctionnent sur un appareil avec 24 Go de RAM/mémoire unifiée). Pour l’inférence, nous utiliserons [Unsloth Studio](https://github.com/unslothai/unsloth) et [`llama.cpp`](https://github.com/ggml-org/llama.cpp) vous permet d’exécuter/diffuser des LLMs sur macOS, Linux et Windows. Vous pouvez remplacer par [n’importe quel autre modèle](/docs/fr/modeles/tutorials.md), il suffit de mettre à jour les noms des modèles dans vos scripts.

<a href="/pages/6c4a155ae35df476974e25b66af4db620dffaf2c#claude-code-setup" class="button primary" data-icon="claude">Configuration de Claude Code</a><a href="/pages/6c4a155ae35df476974e25b66af4db620dffaf2c#quickstart-tutorials" class="button primary">📖 Tutoriel de configuration du modèle local</a>

Pour les quantifications du modèle, nous utiliserons Unsloth [GGUF dynamiques](/docs/fr/bases/unsloth-dynamic-2.0-ggufs.md) pour exécuter n’importe quel LLM quantifié, tout en conservant autant de précision que possible.

## <i class="fa-claude">:claude:</i> Configuration de Claude Code

Avant de configurer notre LLM local, nous devons installer Claude Code. Claude Code est un agent de codage basé sur le terminal qui comprend votre base de code et gère des workflows Git complexes en langage naturel.

{% tabs %}
{% tab title="macOS, Linux, WSL" %}

#### **Installer Claude Code :**

Collez ceci dans votre terminal pour installer Claude Code :

```bash
curl -fsSL https://claude.ai/install.sh | bash
```

Après l’installation, accédez à votre dossier de projet. Puis tapez `claude` dans le `shell` pour commencer.

```bash
cd ~/projects/my-project 
claude
```

{% endtab %}

{% tab title="Windows" %}

#### **Installer Claude Code :**

Entrez dans `PowerShell` pour installer Claude Code :

```powershell
irm https://claude.ai/install.ps1 | iex
```

Après l’installation, accédez à votre dossier de projet. Puis tapez `claude` dans le `powershell` pour commencer.

<pre class="language-powershell"><code class="lang-powershell"><strong>cd /path/to/your/project
</strong>claude
</code></pre>

<div data-with-frame="true"><figure><img src="/files/403bda08aa75e78e9f472a4424b85371322415a6" alt="" width="563"><figcaption></figcaption></figure></div>
{% endtab %}
{% endtabs %}

### :detective:Corriger une inférence 90 % plus lente dans Claude Code

{% hint style="warning" %}
Claude Code ajoute récemment un en-tête Claude Code Attribution au début et en ajoute un, ce qui **invalide le cache KV, rendant l’inférence 90 % plus lente avec les modèles locaux**.
{% endhint %}

Pour résoudre cela, modifiez `~/.claude/settings.json` pour inclure `CLAUDE_CODE_ATTRIBUTION_HEADER` et réglez-le sur 0 dans `"env"`

{% hint style="info" %}
L'utilisation de `export CLAUDE_CODE_ATTRIBUTION_HEADER=0` **NE** fonctionne PAS !
{% endhint %}

Par exemple, faites `cat > ~/.claude/settings.json` puis ajoutez le contenu ci-dessous (une fois collé, appuyez sur ENTRÉE puis CTRL+D pour l’enregistrer). Si vous avez déjà un `~/.claude/settings.json` fichier précédent, ajoutez simplement `"CLAUDE_CODE_ATTRIBUTION_HEADER" : "0"` à la section "env" et laissez le reste du fichier de configuration inchangé.

<pre class="language-json"><code class="lang-json">{
  "promptSuggestionEnabled": false,
  "env": {
    "CLAUDE_CODE_ENABLE_TELEMETRY": "0",
    "CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1",
    <a data-footnote-ref href="#user-content-fn-1">"CLAUDE_CODE_ATTRIBUTION_HEADER" : "0"</a>
  },
  "attribution": {
    "commit": "",
    "pr": ""
  },
  "plansDirectory" : "./plans",
  "prefersReducedMotion" : true,
  "terminalProgressBarEnabled" : false,
  "effortLevel" : "high"
}
</code></pre>

## 📖 Tutoriels de démarrage rapide

{% columns %}
{% column %}
Avant de commencer, nous devons d’abord terminer la configuration du modèle spécifique que vous allez utiliser. Nous utilisons [Unsloth](/docs/fr/nouveau/studio.md) (une interface web) et llama.cpp, qui sont des frameworks open source pour exécuter et diffuser des LLMs sur vos appareils Mac, Linux et Windows.

Unsloth dispose également de capacités uniques d’auto-réparation [appel d'outils](/docs/fr/nouveau/studio/chat.md#auto-healing-tool-calling) et [recherche web](/docs/fr/nouveau/studio/chat.md#code-execution) . Voir à droite Claude Code connecté à Unsloth :
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/1a2d152a014c5c542c774dac8c97d657a9f4124f" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

<a href="/pages/6c4a155ae35df476974e25b66af4db620dffaf2c#connect-claude-code" class="button primary" data-icon="claude">Connecter Claude Code</a><a href="/pages/6c4a155ae35df476974e25b66af4db620dffaf2c#unsloth-tutorial" class="button primary">🦥 Tutoriel Unsloth</a><a href="/pages/6c4a155ae35df476974e25b66af4db620dffaf2c#llama.cpp-tutorial" class="button primary"> Tutoriel llama.cpp</a>

## 🦥 Tutoriel Unsloth

Pour ce tutoriel, nous allons diffuser/connecter des modèles locaux à Claude Code via une interface utilisateur en utilisant [Unsloth](https://github.com/unslothai/unsloth). Unsloth fonctionne sur Windows, WSL, Linux et MacOS.&#x20;

{% columns %}
{% column %}

* Rechercher, télécharger, [exécuter des GGUF](/docs/fr/nouveau/studio.md#run-models-locally) et des modèles safetensor
* [**Auto-réparation** appel d’outils](/docs/fr/nouveau/studio.md#execute-code--heal-tool-calling) + **recherche web**
* [**Exécution de code**](/docs/fr/nouveau/studio.md#run-models-locally) (Python, Bash)
* [Inférence automatique](/docs/fr/nouveau/studio.md#model-arena) sélection des paramètres (temp, top-p, etc.)
* Inférence rapide CPU + GPU via llama.cpp
* [Entraîner des LLM](/docs/fr/nouveau/studio.md#no-code-training) 2x plus vite avec 70 % de VRAM en moins

Voir ci-dessous les instructions d’installation :
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/c1e3c98db9ff7047858e3dac518d5347113d27aa" alt=""><figcaption><p>Exemple de Qwen3.6 2-bit en cours d’exécution dans Unsloth.</p></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% tabs %}
{% tab title="MacOS" %}

#### Étape 1 : Configurer Unsloth

Lancez le `terminal` depuis Mac, puis installez Unsloth en saisissant la commande ci-dessous.

```bash
curl -fsSL https://unsloth.ai/install.sh | sh
```

Unsloth commencera à configurer l’environnement et à installer les paquets requis comme indiqué ci-dessous. Tapez **Y** et appuyez sur `Entrée` quand on vous demande si vous souhaitez autoriser Studio à démarrer maintenant. Cela lancera Unsloth sur votre **8888** port local.

<figure><img src="/files/00ed58c09f9f7e196ffec4cd2a6a281d68dd4280" alt="" width="375"><figcaption></figcaption></figure>

{% hint style="info" %}
Si vous avez choisi de ne pas lancer Unsloth pendant le processus d’installation, vous pouvez toujours démarrer l’application Unsloth en utilisant `unsloth studio -p 8888` . Si vous souhaitez que votre instance Unsloth soit accessible par des clients en dehors de votre PC/ordinateur, ajoutez `-H 0.0.0.0` à la commande `unsloth studio` .
{% endhint %}

#### Étape 2 : Démarrer Unsloth

Ouvrez le navigateur de votre choix et saisissez `http://127.0.0.1:8888`  dans la barre d’URL. Si c’est la première fois que vous installez Unsloth, vous serez redirigé vers la page du mot de passe où vous devrez créer un nouveau mot de passe. Ensuite, Unsloth devrait maintenant s’ouvrir sur la page de chat comme indiqué ci-dessous.

<figure><img src="/files/b66be28b24e0fe6f62367d4b52ae80b764d865ae" alt="" width="375"><figcaption></figcaption></figure>
{% endtab %}

{% tab title="Windows" %}

#### Étape 1 : Configurer Unsloth

Ouvrez le menu Démarrer, recherchez `PowerShell`, et lancez-le. Copiez et saisissez la commande d’installation :

```powershell
irm https://unsloth.ai/install.ps1 | iex
```

l’installation commencera automatiquement. Une fois l’installation terminée, PowerShell vous demandera si vous souhaitez démarrer Unsloth Studi&#x6F;**.**

<figure><img src="/files/00ed58c09f9f7e196ffec4cd2a6a281d68dd4280" alt="" width="375"><figcaption></figcaption></figure>

Vous pouvez également le lancer avec la commande suivante :

```bash
unsloth studio -H 0.0.0.0 -p 8888
```

{% hint style="info" %}
Si vous souhaitez que votre instance soit accessible par des clients en dehors de votre PC/ordinateur.\
Ajoutez `-H 0.0.0.0` à la commande `unsloth studio` .
{% endhint %}

#### Étape 2 : Démarrer Unsloth

Ouvrez `http://127.0.0.1:8888` dans votre navigateur. Au premier lancement, créez un nouveau mot de passe pour continuer vers la page de chat. **Unsloth Studio** est maintenant installé et prêt à l’emploi.

<figure><img src="/files/b66be28b24e0fe6f62367d4b52ae80b764d865ae" alt="" width="375"><figcaption></figcaption></figure>
{% endtab %}

{% tab title="Linux, WSL" %}

#### Étape 1 : Configurer Unsloth

{% tabs %}
{% tab title="Linux" %}
Ouvrez votre application de terminal. Vous pouvez la lancer en appuyant sur `Ctrl + Alt + T`, ou en recherchant `Terminal` dans le menu des applications de votre système.
{% endtab %}

{% tab title="WSL" %}
Cliquez sur le menu Démarrer de Windows, tapez le nom de votre distribution installée (par ex. `Ubuntu`), puis ouvrez-la.

{% hint style="warning" %}
Sur **WSL**, assurez-vous que vos **pilotes NVIDIA** sont installés sur **Windows** (pas à l’intérieur de WSL) et que le **kit d’outils CUDA** est installé dans votre distribution WSL. Voir les exigences système ci-dessous pour plus de détails.
{% endhint %}
{% endtab %}
{% endtabs %}

Pour installer, copiez et exécutez la commande d’installation :

```bash
curl -fsSL https://unsloth.ai/install.sh | sh
```

Puis :

1. Cliquez à l’intérieur de la fenêtre du terminal
2. Collez la commande avec `Ctrl + Shift + V`
3. Appuyez sur `Entrée`

Unsloth commencera à configurer l’environnement et à installer les paquets requis comme indiqué ci-dessous. Tapez **Y** et appuyez sur `Entrée` quand on vous demande si vous souhaitez autoriser Studio à démarrer maintenant. Cela lancera Unsloth sur votre **8888** port local.

<figure><img src="/files/91f1a4dc77de4dc01f63fbbe6da63dc852117234" alt=""><figcaption></figcaption></figure>

{% hint style="info" %}
Si vous avez choisi de ne pas lancer Unsloth pendant le processus d’installation, vous pouvez toujours démarrer l’application Unsloth en utilisant `unsloth studio -p 8888` . Si vous souhaitez que votre instance Unsloth soit accessible par des clients en dehors de votre PC/ordinateur, ajoutez `-H 0.0.0.0` à la commande `unsloth studio` .
{% endhint %}

#### Étape 2 : Démarrer Unsloth

Ouvrez le navigateur de votre choix et saisissez `http://127.0.0.1:8888`  dans la barre d’URL. Si c’est la première fois que vous installez Unsloth, vous serez redirigé vers la page du mot de passe où vous devrez créer un nouveau mot de passe. Ensuite, Unsloth devrait maintenant s’ouvrir sur la page de chat comme indiqué ci-dessous.

<figure><img src="/files/11b2aea44d2e2a1873a248975fd5b6ca451553cb" alt="" width="375"><figcaption></figcaption></figure>
{% endtab %}
{% endtabs %}

### Guide de chargement du modèle + API

{% stepper %}
{% step %}

#### Sélectionner le modèle

Avant d’utiliser l’API, chargez un modèle depuis le menu déroulant **Sélectionner le modèle** dans le coin supérieur gauche de la page Chat.

<figure><img src="/files/20a3e3fe38cf2dfd454794201dd3cc499546d855" alt=""><figcaption></figcaption></figure>

Dans ce guide, nous utiliserons : `unsloth/gemma-4-26B-A4B-it-GGUF` avec la `UD-Q4_K_XL` quantification recommandée.
{% endstep %}

{% step %}

#### Tester le modèle

Avant d’utiliser le client, envoyez un court message :

<div data-with-frame="true"><figure><img src="/files/55ba6f6b98ba57615a8791e0bec949b1a8cc9795" alt="" width="563"><figcaption></figcaption></figure></div>

{% hint style="info" %}
Cela confirme que le modèle a été chargé correctement et qu’il est prêt à répondre.
{% endhint %}
{% endstep %}

{% step %}

#### **clé API Unsloth**

Dans Studio, ouvrez **Paramètres → API** pour afficher ou créer votre clé API.

<figure><img src="/files/4cfccdbce7d628cd17ae882bafd9d2a1c70743a3" alt=""><figcaption></figcaption></figure>

Traitez votre clé API comme un mot de passe et évitez de l’exposer dans des captures d’écran ou des dépôts.
{% endstep %}
{% endstepper %}

## ⚙️ Connecter Claude Code

Maintenant que nous avons configuré le LLM local pour Claude Code, nous configurons Claude Code pour fonctionner avec Unsloth ou llama.cpp. Nous commençons par définir les variables d’environnement suivantes. Ces variables ne persisteront pas entre les sessions par défaut.&#x20;

{% tabs %}
{% tab title="MacOS, Linux, WSL" %}
**Configuration :** Définissez l’URL de l’API locale :

```bash
export ANTHROPIC_BASE_URL="http://localhost:8888"
```

Copiez votre clé depuis Unsloth Studio → Paramètres → API, puis définissez-la :

```bash
export ANTHROPIC_AUTH_TOKEN="sk-unsloth-xxxxxxxxxxxx"
```

Facultatif : utilisez par défaut le nom du modèle actuellement chargé dans Unsloth.

```bash
export ANTHROPIC_MODEL="gemma-4-26B-A4B-it-GGUF"
```

Le nom du modèle doit correspondre au modèle actuellement chargé dans Unsloth Studio.
{% endtab %}

{% tab title="Windows" %}
**Configuration :** Définissez l’URL de l’API locale dans Powershell :

```powershell
$env:ANTHROPIC_BASE_URL = "http://localhost:8888"
```

Copiez votre clé depuis **Unsloth Studio → Paramètres → API**, puis définissez-la :

```powershell
$env:ANTHROPIC_AUTH_TOKEN = "sk-unsloth-xxxxxxxxxxxx"
```

**Facultatif :** Utilisez le nom du modèle actuellement chargé dans Unsloth comme valeur par défaut.

```powershell
$env:ANTHROPIC_MODEL = "gemma-4-26B-A4B-it-GGUF"
```

{% hint style="info" %}
Le nom du modèle doit être celui actuellement chargé dans Unsloth Studio.&#x20;
{% endhint %}
{% endtab %}
{% endtabs %}

### Démarrer Claude Code

Démarrez Claude Code avec le modèle actuellement chargé dans Unsloth.

Nous utiliserons `gemma-4-26B-A4B-it-GGUF`, mais vous pouvez utiliser n’importe quel modèle compatible avec Unsloth.&#x20;

```shellscript
claude --model unsloth/gemma-4-26B-A4B-it-GGUF
```

Claude Code devrait s’ouvrir et afficher le modèle sélectionné.

<figure><img src="/files/0f755e162fb2a232dc5daae94537bb94d2e5d414" alt=""><figcaption></figcaption></figure>

{% hint style="warning" %}
Voir [#fixing-90-slower-inference-in-claude-code](#fixing-90-slower-inference-in-claude-code "mention") d’abord pour corriger le fait que les modèles ouverts soient 90 % plus lents en raison de l’invalidation du cache KV.
{% endhint %}

Essayez ce prompt pour rechercher et classer des jeux de données SFT de haute qualité.

{% code overflow="wrap" %}

```
Vous ne pouvez travailler que dans project/. Ne recherchez pas CLAUDE.md — c’est ici. Utilisez la recherche web pour trouver 10 vrais jeux de données d’instructions/chat/SFT sur Hugging Face, résumez brièvement vos découvertes et expliquez pourquoi chaque jeu de données est pertinent pour le SFT au fur et à mesure de vos recherches, puis créez sft_report.md comme un rapport Markdown soigné contenant le classement, le nom du jeu de données, le créateur, 3 à 5 balises pertinentes, un court résumé en français simple et pourquoi il est utile pour le SFT. Gardez tout concis et lisible, sans énormes vidages de métadonnées, descriptions brutes collées, longues listes de balises ou jeux de données non pertinents. La tâche est terminée une fois que sft_report.md contient 10 entrées de jeux de données propres et bien rédigées, et terminez par : « Successfully finetuned a model with Unsloth! »
```

{% endcode %}

Après avoir soumis le prompt, l’agent recherchera sur le web, évaluera les résultats et écrira le rapport final. Cela peut prendre quelques minutes.

Certains workflows peuvent nécessiter que vous approuviez des actions ou répondiez à des invites de suivi.

<figure><img src="/files/056631f2dab57a7d03f88950d5c1cf436905b257" alt="" width="563"><figcaption></figcaption></figure>

{% hint style="info" %}
Certains workflows peuvent nécessiter que vous approuviez des actions ou répondiez à des invites de suivi.
{% endhint %}

Une fois terminé, le `sft_report.md` généré ressemblera à ceci.

<figure><img src="/files/2dd86a47977f66371be2ffbd658fc36ad45673df" alt="" width="375"><figcaption></figcaption></figure>

{% hint style="warning" %}
Si vous voyez `Unable to connect to API (ConnectionRefused)` , n’oubliez pas de désactiver `ANTHROPIC_BASE_URL`  via `unset ANTHROPIC_BASE_URL`

Si vous trouvez que les modèles ouverts sont 90 % plus lents, [voyez d’abord ici](#fixing-90-slower-inference-in-claude-code) pour corriger l’invalidation du cache KV.
{% endhint %}

## 🦙 Tutoriel Llama.cpp

Avant de commencer, nous devons d’abord terminer la configuration du modèle spécifique que vous allez utiliser. Nous utilisons `llama.cpp` qui est un framework open source pour exécuter des LLMs sur vos appareils Mac, Linux, Windows, etc. Llama.cpp contient `llama-server` qui vous permet de servir et de déployer des LLMs efficacement. Le modèle sera servi sur le port 8001, avec tous les outils de l’agent acheminés via un point de terminaison unique compatible OpenAI.

#### Tutoriel Qwen3.5

Nous utiliserons [Qwen3.5](/docs/fr/modeles/qwen3.5.md)-35B-A3B et des paramètres spécifiques pour des tâches de codage rapides et précises. Si vous n’avez pas assez de VRAM et voulez un **plus intelligent** model, **Qwen3.5-27B** est un excellent choix, mais il sera environ 2 fois plus lent, ou vous pouvez utiliser d’autres variantes de Qwen3.5 comme 9B, 4B ou 2B.

{% hint style="info" %}
Utilisez Qwen3.5-27B si vous voulez un **plus intelligent** modèle ou si vous n’avez pas assez de VRAM. Il sera cependant environ 2 fois plus lent que le 35B-A3B. Ou vous pouvez utiliser [**Qwen3-Coder-Next**](/docs/fr/modeles/qwen3-coder-next.md) qui est fantastique si vous avez suffisamment de VRAM.
{% endhint %}

{% stepper %}
{% step %}

#### Installer llama.cpp

Nous devons installer `llama.cpp` pour déployer/servir des LLMs locaux à utiliser dans Claude Code, etc. Nous suivons les instructions de compilation officielles pour des liaisons GPU correctes et des performances maximales. Modifiez `-DGGML_CUDA=ON` en `-DGGML_CUDA=OFF` si vous n’avez pas de GPU ou si vous souhaitez simplement une inférence CPU. **Pour les appareils Apple Mac / Metal**, définissez `-DGGML_CUDA=OFF` puis continuez comme d'habitude - la prise en charge de Metal est activée par défaut.

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

<figure><img src="/files/8489c41d22962d53d645e04de3e77d0fdb8c5ead" alt="" width="563"><figcaption></figcaption></figure>
{% endstep %}

{% step %}

#### Télécharger et utiliser des modèles en local

Téléchargez le modèle via `huggingface_hub` en Python (après installation via `pip install huggingface_hub hf_transfer`). Nous utilisons le **UD-Q4\_K\_XL** quant pour le meilleur compromis entre taille et précision. Vous pouvez trouver tous les téléversements Unsloth GGUF dans notre [Collection ici](/docs/fr/commencer/unsloth-model-catalog.md). Si les téléchargements se bloquent, voir [Hugging Face Hub, débogage XET](/docs/fr/bases/troubleshooting-and-faqs/hugging-face-hub-xet-debugging.md)

```bash
hf download unsloth/Qwen3.5-35B-A3B-GGUF \
    --local-dir unsloth/Qwen3.5-35B-A3B-GGUF \
    --include "*UD-Q4_K_XL*" # Utilisez "*UD-Q2_K_XL*" pour Dynamic 2bit
```

<figure><img src="/files/0cf557e44436ae2657d5f79daa7252bb5fb2ad3f" alt=""><figcaption></figcaption></figure>

{% hint style="success" %}
Nous avons utilisé `unsloth/Qwen3.5-35B-A3B-GGUF` , mais vous pouvez utiliser une autre variante comme 27B ou n’importe quel autre modèle comme `unsloth/`[`Qwen3-Coder-Next`](/docs/fr/modeles/qwen3-coder-next.md)`-GGUF`.
{% endhint %}

<figure><img src="/files/9635896c595b463b0affa4ee51fec4b7d35107d4" alt="" width="563"><figcaption></figcaption></figure>
{% endstep %}

{% step %}

#### Démarrer le serveur Llama

Pour déployer Qwen3.5 pour des charges de travail agentiques, nous utilisons `llama-server`. Nous appliquons [les paramètres d’échantillonnage recommandés par Qwen](/docs/fr/modeles/qwen3.5.md#recommended-settings) pour le mode réflexion : `temp 0.6`, `top_p 0.95` , `top-k 20`. Gardez à l’esprit que ces valeurs changent si vous utilisez le mode sans réflexion ou d’autres tâches.

Exécutez cette commande dans un nouveau terminal (utilisez `tmux` ou ouvrez un nouveau terminal). Ce qui suit devrait **tenir parfaitement dans un GPU de 24 Go (RTX 4090) (utilise 23 Go)** `--fit on` fera aussi un déchargement automatique, mais si vous constatez de mauvaises performances, réduisez `--ctx-size` .

{% hint style="info" %}
Nous avons utilisé `--cache-type-k q8_0 --cache-type-v q8_0` pour la quantification du cache KV afin d’utiliser moins de VRAM. Pour la précision complète, utilisez `--cache-type-k bf16 --cache-type-v bf16` . Remarque : le cache KV bf16 peut être légèrement plus lent sur certaines machines.
{% endhint %}

```bash
./llama.cpp/llama-server \
    --model unsloth/Qwen3.5-35B-A3B-GGUF/Qwen3.5-35B-A3B-UD-Q4_K_XL.gguf \
    --alias "unsloth/Qwen3.5-35B-A3B" \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00 \
    --port 8001 \
    --kv-unified \\
    --cache-type-k q8_0 --cache-type-v q8_0
```

{% hint style="success" %}
Vous pouvez également désactiver la réflexion pour Qwen3.5, ce qui peut améliorer les performances pour les tâches de codage agentique. Pour désactiver la réflexion avec llama.cpp, ajoutez ceci à la commande llama-server :

`--chat-template-kwargs "{\"enable_thinking\": false}"`

<img src="/files/af2da0988740ecad8c97e69623c6b1aad14e64dd" alt="" data-size="original">
{% endhint %}
{% endstep %}
{% endstepper %}

### Démarrer Claude Code avec llama-server

{% hint style="success" %}
Nous avons utilisé `unsloth/GLM-4.7-Flash-GGUF` , mais vous pouvez utiliser n’importe quoi comme `unsloth/Qwen3.6-27B-GGUF`.
{% endhint %}

{% hint style="warning" %}
Voir [#fixing-90-slower-inference-in-claude-code](#fixing-90-slower-inference-in-claude-code "mention") d’abord pour corriger le fait que les modèles ouverts soient 90 % plus lents en raison de l’invalidation du cache KV.
{% endhint %}

Accédez à votre dossier de projet (`mkdir project ; cd project`) et exécutez :

```bash
claude --model unsloth/GLM-4.7-Flash
```

Pour utiliser Qwen3.6-35B-A3B, remplacez simplement par :

```bash
claude --model unsloth/Qwen3.6-35B-A3B
```

<div data-with-frame="true"><figure><img src="/files/5c0dabaa7de19c125f865e83bf0492727b9be965" alt="" width="563"><figcaption></figcaption></figure></div>

Pour configurer Claude Code afin d’exécuter des commandes sans aucune approbation, faites **(ATTENTION cela fera en sorte que Claude Code agisse et exécute le code comme bon lui semble, sans aucune approbation !)**

{% code overflow="wrap" %}

```bash
claude --model unsloth/GLM-4.7-Flash --dangerously-skip-permissions
```

{% endcode %}

Essayez ce prompt pour installer et exécuter un simple fine-tuning Unsloth :

{% code overflow="wrap" %}

```
Vous ne pouvez travailler que dans le répertoire courant project/. Ne recherchez pas CLAUDE.md - c’est ici. Installez Unsloth via un environnement virtuel avec uv. Utilisez `python -m venv unsloth_env` puis `source unsloth_env/bin/activate` si possible. Voir https://unsloth.ai/docs/get-started/install/pip-install pour savoir comment faire (récupérez-le et lisez-le). Puis lancez une exécution simple de fine-tuning Unsloth décrite dans https://github.com/unslothai/unsloth. Vous avez accès à 1 GPU.
```

{% endcode %}

<div data-with-frame="true"><figure><img src="/files/73f08ccb37b4fa132c66093b45e8591af4cfabe1" alt="" width="563"><figcaption></figcaption></figure></div>

Après avoir attendu un peu, Unsloth sera installé dans un venv via uv, puis chargé :

<div data-with-frame="true"><figure><img src="/files/b26dbca2e26dcb0548949abc4a3f6c327e459775" alt="" width="563"><figcaption></figcaption></figure></div>

et enfin vous verrez un modèle fine-tuné avec succès avec Unsloth !

<div data-with-frame="true"><figure><img src="/files/6219f850d6cac0c3b7fe7dddc64638e56c8e0052" alt="" width="563"><figcaption></figcaption></figure></div>

{% hint style="warning" %}
Si vous voyez `Unable to connect to API (ConnectionRefused)` , n’oubliez pas de désactiver `ANTHROPIC_BASE_URL`  via `unset ANTHROPIC_BASE_URL`

Si vous trouvez que les modèles ouverts sont 90 % plus lents, [voyez d’abord ici](#fixing-90-slower-inference-in-claude-code) pour corriger l’invalidation du cache KV.
{% endhint %}

[^1]: À utiliser obligatoirement !


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/fr/bases/claude-code.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
