# Comment exécuter des modèles avec Unsloth Studio

[Unsloth Studio](/docs/fr/nouveau/studio.md) vous permet d’exécuter des modèles d’IA à 100 % hors ligne sur votre ordinateur. Exécutez des formats de modèles comme GGUF et safetensors depuis Hugging Face ou à partir de vos fichiers locaux.

* **Fonctionne sur toutes les configurations MacOS, CPU, Windows, Linux et WSL ! Aucun GPU requis**
* [**Appel d’outils auto-réparateur**](#auto-healing-tool-calling)**,** avancé [**recherche web**](#advanced-web-search), [**exécution de code**](#code-execution)
* Utiliser Unsloth comme un endpoint d’inférence compatible OpenAI [**API**](broken://pages/d7ed99d74f1997aa8747da14938bbaee3f09d15b)
* Recherche + Téléchargement + Exécution + [Comparer](#model-arena) n’importe quel modèle comme les GGUF, adaptateurs LoRA, safetensors, etc.
* [**Paramètre d’inférence automatique**](#auto-parameter-tuning) ajustement (temp, top-p, etc.) et modification des modèles de chat
* Importez des images, de l’audio, des PDF, du code, des fichiers DOCX et d’autres types de fichiers pour discuter avec.

<div data-with-frame="true"><figure><img src="/files/5b73218a32955029943d07713e050847da7e3e01" alt="" width="563"><figcaption></figcaption></figure></div>

### Utilisation de Unsloth Studio Chat

{% hint style="success" %}
Unsloth Studio Chat fonctionne automatiquement sur les configurations **multi-GPU** pour l’inférence.
{% endhint %}

{% columns %}
{% column %}

#### Exécution de code

Unsloth Studio permet aux LLM d’exécuter Bash et Python, pas seulement JavaScript. Il isole également des programmes comme Claude Artifacts, afin que les modèles puissent tester du code, générer des fichiers et vérifier les réponses avec un véritable calcul.

Cela rend les réponses des modèles plus fiables et plus précises.
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/8d3032a7bd41a3a58d8581c0b9c8febe68e48077" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% columns %}
{% column %}

#### Appel d’outils auto-réparateur

Unsloth Studio ne permet pas seulement [l’appel d’outils](#id-50-tool-calling-accuracy), mais corrige aussi automatiquement les appels d’outils malformés ou cassés de 50 %.

Cela signifie que vous obtiendrez toujours des sorties d’inférence **sans** appels d’outils cassés.&#x20;

Par ex. Qwen3.5-4B a recherché plus de 20 sites web et cité des sources, avec la recherche web effectuée dans sa trace de réflexion.
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/b03f506381fed38c517bc09e2e726bc0013f23f4" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% columns %}
{% column %}

#### Recherche web avancée

La recherche web d’Unsloth visite réellement les pages directement pour collecter des informations et des données pertinentes, et ne se contente pas d’analyser des résumés de sites web. Cela fournit des sorties avec des informations et un contexte beaucoup plus précis et approfondis.
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/5b73218a32955029943d07713e050847da7e3e01" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% columns %}
{% column %}

#### Utiliser Unsloth comme endpoint API

Vous pouvez désormais utiliser des LLM locaux via des outils comme [Claude Code](/docs/fr/bases/claude-code.md) et [Codex](/docs/fr/bases/codex.md) en le connectant à l’endpoint API d’Unsloth. Cela signifie que vous pourrez exécuter directement des modèles Qwen et Gemma dans ces outils avec l’inférence d’Unsloth, qui inclut des fonctionnalités comme l’appel d’outils auto-réparateur, la recherche web, etc.
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/87d90286dd2bf0babf9327f2ce55e2c0c40c7cdf" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% columns %}
{% column %}

#### Rechercher et exécuter des modèles

Vous pouvez rechercher et télécharger n’importe quel modèle via Hugging Face ou utiliser des fichiers locaux.

Studio prend en charge un large éventail de types de modèles, notamment **GGUF**, les modèles vision-langage et de synthèse vocale. Exécutez les derniers modèles comme [Qwen3.5](/docs/fr/modeles/qwen3.5.md) ou NVIDIA [Nemotron 3](/docs/fr/modeles/nemotron-3.md).

Importez des images, de l’audio, des PDF, du code, des fichiers DOCX et d’autres types de fichiers pour discuter avec.
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/2885112f766f1614a56fe25756dd558b131aa3f2" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% columns %}
{% column %}

#### Paramètres d’inférence automatiques

Les paramètres d’inférence comme **température**, **top-p**, **top-k** sont automatiquement prédéfinis pour les nouveaux modèles comme Qwen3.5 afin que vous puissiez obtenir les meilleurs résultats sans vous soucier des réglages. Vous pouvez aussi ajuster les paramètres manuellement et modifier le prompt système.

L’ajustement de la longueur du contexte n’est plus nécessaire avec le contexte auto intelligent de llama.cpp, qui n’utilise que le contexte dont vous avez besoin sans charger quoi que ce soit de supplémentaire.
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/85fc8084702579bd11c56183ae0b99d11cafcf65" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% columns %}
{% column %}

#### Espace de travail du chat

Saisissez des prompts, joignez des documents, images (webp, png), fichiers de code, txt ou audio comme contexte supplémentaire, et voyez les réponses du modèle en temps réel.

Activer ou désactiver : réflexion + recherche web.
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/2f8142ea99489385496d6332e8bdf629d599584f" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

### **+50 % de précision dans l’appel d’outils**

Unsloth propose plusieurs fonctionnalités uniques qui améliorent l’appel d’outils, notamment :

* Les appels d’outils dans tous les modèles d’Unsloth sont **30 % à 80 % plus précis**.
* La recherche web récupère le contenu réel des pages web au lieu de simples résumés.
* Le nombre maximum d’appels d’outils autorisés est **supérieur à 25.**
* Les appels d’outils se terminent de manière plus fiable, réduisant les boucles et les appels répétés.
* Une meilleure logique de réparation et de déduplication des appels d’outils aide à empêcher les fuites de XML dans les sorties.

Voir les résultats des tests avec `unsloth/Qwen3.5-4B-GGUF (UD-Q4_K_XL)` avec la recherche web, l’exécution de code et la réflexion activées :

| Métrique                                      | Appel d’outils normal | Appel d’outils Unsloth |
| --------------------------------------------- | --------------------- | ---------------------- |
| Fuites XML dans la réponse                    | 10/10                 | 0/10                   |
| Récupérations d’URL utilisées                 | 0                     | 4/10 exécutions        |
| Exécutions avec les noms de chansons corrects | 0/10                  | 2/10                   |
| Moy. d’appels d’outils                        | 5.5                   | 3.8                    |
| Temps de réponse moyen                        | 12,3 s                | 9,8 s                  |

### Arène des modèles

Studio Chat vous permet de comparer côte à côte deux modèles quelconques en utilisant le même prompt. Par ex. comparez le modèle de base et l’adaptateur LoRa. L’inférence chargera d’abord un modèle, puis le second (l’inférence parallèle est en cours de développement).

<div data-with-frame="true"><figure><img src="/files/a2e0d4bfd76d0287d9b02f802fd667c9e1ac821e" alt="" width="563"><figcaption></figcaption></figure></div>

{% columns %}
{% column %}
Après l’entraînement, vous pouvez comparer côte à côte le modèle de base et le modèle affiné avec le même prompt pour voir ce qui a changé et si les résultats se sont améliorés.

Ce flux de travail facilite l’observation de la manière dont votre fine-tuning a modifié les réponses du modèle et de savoir s’il a amélioré les résultats pour votre cas d’usage.
{% endcolumn %}

{% column %}

<div align="center" data-with-frame="true"><figure><img src="/files/363f22dc6187049e754bdae94b495a45c68bb1b9" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% hint style="success" %}
Unsloth Studio Chat fonctionne automatiquement sur **multi-GPU** pour l’inférence.
{% endhint %}

### Utilisation d’anciens modèles GGUF / modèles existants

{% columns %}
{% column %}
**Mise à jour du 1er avril :** Vous pouvez maintenant sélectionner un dossier existant à partir duquel Unsloth doit le détecter.

**Mise à jour du 27 mars :** Unsloth Studio **détecte automatiquement les modèles anciens / préexistants** téléchargés depuis Hugging Face, LM Studio, etc.
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/089d4b6412408ae0b8fd66eecc20eac7aa886d13" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

**Instructions manuelles :** Unsloth Studio détecte les modèles téléchargés dans votre cache Hugging Face Hub `(C:\Users{your_username}.cache\huggingface\hub)`. Si vous avez téléchargé des modèles GGUF via LM Studio, notez qu’ils sont stockés dans `C:\Users\{your_username}.cache\lm-studio\models` ***OU*** `C:\Users{your_username}\lm-studio\models` et ne sont pas visibles par défaut pour llama.cpp - vous devrez déplacer ou copier ces fichiers .gguf dans le répertoire du cache Hugging Face Hub (ou dans un autre chemin accessible à llama.cpp) pour qu’Unsloth Studio puisse les charger.

Après avoir affiné un modèle ou un adaptateur dans Studio, vous pouvez l’exporter en GGUF et exécuter une inférence locale avec **llama.cpp** directement dans Studio Chat. Unsloth Studio est propulsé par llama.cpp et Hugging Face.

### Ajout de fichiers comme contexte

Studio Chat prend en charge les entrées multimodales directement dans la conversation. Vous pouvez joindre des documents, des images ou de l’audio comme contexte supplémentaire pour un prompt.

<div data-with-frame="true"><figure><img src="/files/23726c6bd636565d1a3e66276e12b90752273f88" alt="" width="563"><figcaption></figcaption></figure></div>

Cela facilite le test de la manière dont un modèle gère des entrées réelles telles que des PDF, des captures d’écran ou du matériel de référence. Les fichiers sont traités localement et inclus comme contexte pour le modèle.

### **Suppression de fichiers de modèle**

Vous pouvez supprimer d’anciens fichiers de modèle soit depuis l’icône de corbeille dans la recherche de modèles, soit en supprimant le dossier du modèle mis en cache correspondant dans le répertoire de cache Hugging Face par défaut. Par défaut, Hugging Face utilise `~/.cache/huggingface/hub/` sur macOS/Linux/WSL et `C:\Users\<username>\.cache\huggingface\hub\` sur Windows.

* **MacOS, Linux, WSL :** `~/.cache/huggingface/hub/`
* **Windows :** `%USERPROFILE%\.cache\huggingface\hub\`

Si `HF_HUB_CACHE` ou `HF_HOME` est défini, utilisez cet emplacement à la place. Sur Linux et WSL, `XDG_CACHE_HOME` peut aussi modifier la racine de cache par défaut.

### **Unsloth ne détecte pas ou n’utilise pas mon GPU**

Si le modèle n’utilise pas votre GPU, en particulier pour Docker, essayez :

Tirer manuellement la dernière image :

```bash
 docker pull unsloth/unsloth:latest
```

* Démarrer le conteneur avec l’accès GPU :
  * `docker run`: `--gpus all`
  * Docker Compose : `capabilities: [gpu]`
* Sous Linux, assurez-vous que le NVIDIA Container Toolkit est installé.
* Sous Windows :
  * Vérifiez que `nvcc --version` correspond à la version CUDA affichée dans `nvidia-smi`
  * Suivez : <https://docs.docker.com/desktop/features/gpu/>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/fr/nouveau/studio/chat.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
