> For the complete documentation index, see [llms.txt](https://unsloth.ai/docs/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://unsloth.ai/docs/fr/nouveau/studio/chat.md).

# Comment exécuter des modèles avec Unsloth Studio

[Unsloth Studio](/docs/fr/nouveau/studio.md) vous permet d’exécuter des modèles d’IA 100 % hors ligne sur votre ordinateur. Exécutez des formats de modèles comme GGUF et safetensors depuis Hugging Face ou depuis vos fichiers locaux.

* **Fonctionne sur toutes les configurations MacOS, CPU, Windows, Linux et WSL ! Aucune GPU requise**
* [**Appel d’outils auto-réparateur**](#auto-healing-tool-calling)**,** avancé [**recherche web**](#advanced-web-search), [**exécution de code**](#code-execution)
* Utilisez Unsloth comme une inférence compatible OpenAI [**point de terminaison API**](/docs/fr/notions-de-base/api.md) ou connectez un [fournisseur](broken://pages/9185e636c3380b1a3138a9ee58e22a13296ea0d5)
* Recherche + Téléchargement + Exécution + [Comparer](#model-arena) n’importe quel modèle comme des GGUF, des adaptateurs LoRA, des safetensors, etc.
* [**Paramètre d’inférence automatique**](#auto-parameter-tuning) ajustement (temp, top-p, etc.) et modification des modèles de chat
* Téléversez des images, de l’audio, des PDF, du code, des DOCX et bien d’autres types de fichiers pour discuter avec.

<div data-with-frame="true"><figure><img src="/files/5b73218a32955029943d07713e050847da7e3e01" alt="" width="563"><figcaption></figcaption></figure></div>

### Utilisation du Chat Unsloth Studio

{% hint style="success" %}
Le Chat Unsloth Studio fonctionne automatiquement sur **des configurations multi-GPU** pour l’inférence.
{% endhint %}

{% columns %}
{% column %}

#### Exécution de code

Unsloth Studio permet aux LLM d’exécuter Bash et Python, pas seulement JavaScript. Il isole aussi des programmes comme Claude Artifacts afin que les modèles puissent tester du code, générer des fichiers et vérifier les réponses avec un calcul réel.

Cela rend les réponses des modèles plus fiables et plus précises.
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/8d3032a7bd41a3a58d8581c0b9c8febe68e48077" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% columns %}
{% column %}

#### Appel d’outils auto-réparateur

Unsloth Studio ne se contente pas de permettre [l’appel d’outils](#id-50-tool-calling-accuracy), mais corrige aussi automatiquement les appels d’outils mal formés ou cassés de 50 %.

Cela signifie que vous obtiendrez toujours des sorties d’inférence **sans** appels d’outils cassés.&#x20;

Par ex., Qwen3.5-4B a recherché plus de 20 sites web et cité des sources, avec la recherche web effectuée à l’intérieur de sa trace de réflexion.
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/b03f506381fed38c517bc09e2e726bc0013f23f4" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% columns %}
{% column %}

#### Recherche web avancée

La recherche web d’Unsloth visite réellement les pages directement pour collecter des informations et des données pertinentes, et ne se contente pas de parcourir des résumés de sites web. Cela fournit des résultats avec des informations et un contexte beaucoup plus précis / approfondis.
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/5b73218a32955029943d07713e050847da7e3e01" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% columns %}
{% column %}

#### Utilisez Unsloth comme un point de terminaison API

Vous pouvez désormais utiliser des LLM locaux via des outils comme [Claude Code](/docs/fr/notions-de-base/claude-code.md) et [Codex](/docs/fr/notions-de-base/codex.md) en le connectant au [point de terminaison API](#use-unsloth-as-an-api-endpoint). Cela signifie que vous pourrez exécuter directement des modèles Qwen et Gemma dans ces outils avec l’inférence d’Unsloth, qui inclut des fonctionnalités comme l’appel d’outils auto-réparateur, la recherche web, etc.
{% endcolumn %}

{% column %}

<figure><img src="/files/1a2d152a014c5c542c774dac8c97d657a9f4124f" alt=""><figcaption></figcaption></figure>
{% endcolumn %}
{% endcolumns %}

{% columns %}
{% column %}

#### Paramètres d’inférence automatiques

Les paramètres d’inférence comme **la température**, **top-p**, **top-k**, [**MTP**](/docs/fr/modeles/qwen3.6.md#mtp-guide) sont automatiquement préconfigurés pour les nouveaux modèles comme Qwen3.5 afin que vous puissiez obtenir les meilleurs résultats sans vous soucier des réglages. Vous pouvez aussi ajuster les paramètres manuellement et modifier le prompt système.

L’ajustement de la longueur du contexte n’est plus nécessaire avec le contexte auto intelligent de llama.cpp, qui n’utilise que le contexte dont vous avez besoin sans charger quoi que ce soit en plus.
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/85fc8084702579bd11c56183ae0b99d11cafcf65" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% columns %}
{% column %}

#### Connecter des fournisseurs

[Unsloth se connecte](broken://pages/9185e636c3380b1a3138a9ee58e22a13296ea0d5) à OpenAI, Anthropic, Ollama, llama.cpp, vLLM et d’autres.

Ajoutez des clés API ou des URL de serveur de modèles, puis utilisez des modèles externes dans la même interface de chat que les modèles locaux + cloud. Exécutez avec [la mise en cache des prompts](broken://pages/9185e636c3380b1a3138a9ee58e22a13296ea0d5#prompt-caching), l’appel d’outils, la réflexion et des fonctionnalités natives du fournisseur comme la [recherche web](#web-search-and-thinking) et [exécution de code](#code-execution).
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/85fc8084702579bd11c56183ae0b99d11cafcf65" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% columns %}
{% column %}

#### Rechercher et exécuter des modèles

Vous pouvez rechercher et télécharger n’importe quel modèle via Hugging Face ou utiliser des fichiers locaux.

Studio prend en charge un large éventail de types de modèles, notamment **GGUF**, les modèles vision-langage et text-to-speech. Exécutez les derniers modèles comme [Qwen3.5](/docs/fr/modeles/qwen3.5.md) ou NVIDIA [Nemotron 3](/docs/fr/modeles/nemotron-3.md).

Téléversez des images, de l’audio, des PDF, du code, des DOCX et bien d’autres types de fichiers pour discuter avec.
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/2885112f766f1614a56fe25756dd558b131aa3f2" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% columns %}
{% column %}

#### Espace de travail de chat

Saisissez des prompts, joignez des documents, des images (webp, png), des fichiers de code, des txt ou de l’audio en contexte supplémentaire, et voyez les réponses du modèle en temps réel.

Activez ou désactivez : Réflexion + Recherche web.
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/2f8142ea99489385496d6332e8bdf629d599584f" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

### **+50 % de précision dans l’appel d’outils**

Unsloth offre plusieurs fonctionnalités uniques qui améliorent l’appel d’outils, notamment :

* Les appels d’outils sur tous les modèles dans Unsloth sont **30 % à 80 % plus précis**.
* La recherche web récupère le contenu web réel au lieu de simples résumés.
* Le nombre maximum d’appels d’outils autorisés est **supérieur à 25.**
* Les appels d’outils se terminent de manière plus fiable, réduisant les boucles et les appels répétés.
* Une logique améliorée de réparation et de déduplication des appels d’outils aide à empêcher les fuites XML dans les sorties.

Voir les résultats des tests avec `unsloth/Qwen3.5-4B-GGUF (UD-Q4_K_XL)` avec la recherche web, l’exécution de code et la réflexion activées :

| Métrique                                      | Appel d’outils normal | Appel d’outils Unsloth |
| --------------------------------------------- | --------------------- | ---------------------- |
| Fuites XML dans la réponse                    | 10/10                 | 0/10                   |
| Récupérations d’URL utilisées                 | 0                     | 4/10 exécutions        |
| Exécutions avec les noms de chansons corrects | 0/10                  | 2/10                   |
| Moy. d’appels d’outils                        | 5.5                   | 3.8                    |
| Temps de réponse moyen                        | 12,3 s                | 9,8 s                  |

### Arena de modèles

Le Chat Studio vous permet de comparer côte à côte n’importe quels deux modèles en utilisant le même prompt. Par ex., comparez le modèle de base et l’adaptateur LoRA. L’inférence chargera d’abord un modèle, puis le second (l’inférence parallèle est en cours de développement).

<div data-with-frame="true"><figure><img src="/files/a2e0d4bfd76d0287d9b02f802fd667c9e1ac821e" alt="" width="563"><figcaption></figcaption></figure></div>

{% columns %}
{% column %}
Après l’entraînement, vous pouvez comparer le modèle de base et le modèle affiné côte à côte avec le même prompt pour voir ce qui a changé et si les résultats se sont améliorés.

Ce flux de travail facilite la visualisation de la manière dont votre fine-tuning a modifié les réponses du modèle et de savoir s’il a amélioré les résultats pour votre cas d’utilisation.
{% endcolumn %}

{% column %}

<div align="center" data-with-frame="true"><figure><img src="/files/363f22dc6187049e754bdae94b495a45c68bb1b9" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% hint style="success" %}
Le Chat Unsloth Studio fonctionne automatiquement sur **des configurations multi-GPU** pour l’inférence.
{% endhint %}

### Utilisation d’anciens / modèles GGUF existants

{% columns %}
{% column %}
**Mise à jour du 1er avril :** Vous pouvez désormais sélectionner un dossier existant à partir duquel Unsloth peut détecter.

**Mise à jour du 27 mars :** Unsloth Studio **détecte automatiquement les modèles plus anciens / déjà existants** téléchargés depuis Hugging Face, LM Studio, etc.
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/089d4b6412408ae0b8fd66eecc20eac7aa886d13" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

**Instructions manuelles :** Unsloth Studio détecte les modèles téléchargés dans le cache de votre Hugging Face Hub `(C:\Users{votre_nom_d_utilisateur}.cache\huggingface\hub)`. Si vous avez téléchargé des modèles GGUF via LM Studio, notez qu’ils sont stockés dans `C:\Users\{votre_nom_d_utilisateur}.cache\lm-studio\models` ***OU*** `C:\Users{votre_nom_d_utilisateur}\lm-studio\models` et ne sont pas visibles par défaut pour llama.cpp - vous devrez déplacer ou copier ces fichiers .gguf dans le répertoire de cache de votre Hugging Face Hub (ou dans un autre chemin accessible à llama.cpp) pour qu’Unsloth Studio puisse les charger.

Après avoir affiné un modèle ou un adaptateur dans Studio, vous pouvez l’exporter en GGUF et exécuter l’inférence locale avec **llama.cpp** directement dans le Chat Studio. Unsloth Studio est propulsé par llama.cpp et Hugging Face.

### Ajout de fichiers comme contexte

Le Chat Studio prend en charge les entrées multimodales directement dans la conversation. Vous pouvez joindre des documents, des images ou de l’audio comme contexte supplémentaire pour un prompt.

<div data-with-frame="true"><figure><img src="/files/23726c6bd636565d1a3e66276e12b90752273f88" alt="" width="563"><figcaption></figcaption></figure></div>

Cela facilite les tests de la manière dont un modèle gère des entrées du monde réel telles que des PDF, des captures d’écran ou du matériel de référence. Les fichiers sont traités localement et inclus comme contexte pour le modèle.

### **Suppression des fichiers de modèle**

Vous pouvez supprimer d’anciens fichiers de modèle soit depuis l’icône de corbeille dans la recherche de modèles, soit en supprimant le dossier du modèle en cache correspondant dans le répertoire de cache Hugging Face par défaut. Par défaut, Hugging Face utilise `~/.cache/huggingface/hub/` sur macOS/Linux/WSL et `C:\Users\<username>\.cache\huggingface\hub\` sur Windows.

* **MacOS, Linux, WSL :** `~/.cache/huggingface/hub/`
* **Windows :** `%USERPROFILE%\.cache\huggingface\hub\`

Si `HF_HUB_CACHE` ou `HF_HOME` est défini, utilisez cet emplacement à la place. Sur Linux et WSL, `XDG_CACHE_HOME` peut également modifier la racine du cache par défaut.

### **Unsloth ne détecte pas ou n’utilise pas mon GPU**

Si le modèle n’utilise pas votre GPU spécifiquement pour Docker, essayez :

Télécharger manuellement la dernière image :

```bash
 docker pull unsloth/unsloth:latest
```

* Démarrez le conteneur avec l’accès GPU :
  * `docker run`: `--gpus all`
  * Docker Compose : `capabilities: [gpu]`
* Sur Linux, assurez-vous que le NVIDIA Container Toolkit est installé.
* Sur Windows :
  * Vérifiez que `nvcc --version` correspond à la version CUDA indiquée dans `nvidia-smi`
  * Suivez : <https://docs.docker.com/desktop/features/gpu/>


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/fr/nouveau/studio/chat.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
