# Comment exécuter des modèles avec Unsloth Studio

[Unsloth Studio](https://unsloth.ai/docs/fr/nouveau/studio) vous permet d’exécuter des modèles d’IA 100 % hors ligne sur votre ordinateur. Exécutez des formats de modèles comme GGUF et safetensors depuis Hugging Face ou depuis vos fichiers locaux.

* **Fonctionne sur toutes les configurations MacOS, CPU, Windows, Linux, WSL ! Aucun GPU requis**
* **Rechercher + Télécharger + Exécuter** n’importe quel modèle comme des GGUF, des adaptateurs LoRA, des safetensors, etc.
* [**Comparer**](#model-arena) deux sorties de modèles différentes côte à côte
* [**Appel d’outils avec auto-réparation**](#auto-healing-tool-calling) / recherche web, [**exécution de code**](#code-execution) et appel d’API compatibles OpenAI
* [**Paramètre d’inférence automatique**](#auto-parameter-tuning) réglage fin (temp, top-p, etc.) et modification des modèles de chat
* Téléchargez des images, des fichiers audio, des PDF, du code, des DOCX et d’autres types de fichiers pour discuter avec.

<div data-with-frame="true"><figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Ft1WkYzHmOVMXumiz71N0%2Ftoolcalling%20chat%20preview.png?alt=media&#x26;token=a1741a6c-bf24-4df8-9f27-ce21b868dbdf" alt="" width="563"><figcaption></figcaption></figure></div>

### Utilisation de Unsloth Studio Chat

{% columns %}
{% column %}

#### Rechercher et exécuter des modèles

Vous pouvez rechercher et télécharger n’importe quel modèle via Hugging Face ou utiliser des fichiers locaux.

Studio prend en charge une large gamme de types de modèles, notamment **GGUF**, les modèles vision-langage et text-to-speech. Exécutez les derniers modèles comme [Qwen3.5](https://unsloth.ai/docs/fr/modeles/qwen3.5) ou NVIDIA [Nemotron 3](https://unsloth.ai/docs/fr/modeles/nemotron-3).

Téléchargez des images, des fichiers audio, des PDF, du code, des DOCX et d’autres types de fichiers pour discuter avec.
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FBf3UDywdNSlvCBhUuVsp%2FScreenshot%202026-03-17%20at%2012.34.23%E2%80%AFAM.png?alt=media&#x26;token=b6127cbf-76f7-48da-b869-3760ed5e9b42" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% hint style="success" %}
Unsloth Studio Chat fonctionne automatiquement sur les configurations **multi-GPU** pour l’inférence.
{% endhint %}

{% columns %}
{% column %}

#### Exécution de code

Unsloth Studio permet aux LLM d’exécuter Bash et Python, pas seulement JavaScript. Il isole également des programmes comme Claude Artifacts afin que les modèles puissent tester du code, générer des fichiers et vérifier les réponses avec un calcul réel.

Cela rend les réponses des modèles plus fiables et plus précises.
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fel6jjv4rUTRCRwcRpIr7%2Flong%20code%20exec.png?alt=media&#x26;token=9d3d5930-0fdc-4d97-941c-983e5629296d" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% columns %}
{% column %}

#### Appel d’outils avec auto-réparation

Unsloth Studio permet non seulement l’appel d’outils et la recherche web, mais corrige aussi automatiquement toute erreur pouvant survenir.

Cela signifie que vous obtiendrez toujours des sorties d’inférence **sans** appel d’outils défectueux.&#x20;

Par ex. Qwen3.5-4B a recherché plus de 20 sites web et cité ses sources, avec la recherche web effectuée dans sa trace de réflexion.
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FXPQGEEr1YoKofrTatAKK%2Ftoolcallingif.gif?alt=media&#x26;token=25d68698-fb13-4c46-99b2-d39fb025df08" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% columns %}
{% column %}

#### Réglage automatique des paramètres

Les paramètres d’inférence comme **la température**, **top-p**, **top-k** sont automatiquement prédéfinis pour les nouveaux modèles comme Qwen3.5 afin que vous puissiez obtenir les meilleurs résultats sans vous soucier des réglages. Vous pouvez aussi ajuster les paramètres manuellement et modifier le prompt système.

L’ajustement de la longueur du contexte n’est plus nécessaire avec le contexte auto intelligent de llama.cpp, qui n’utilise que le contexte nécessaire sans rien charger de superflu.
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FAQKsjtynvCXKtadvKhq1%2FRecording%202026-03-13%20114257.gif?alt=media&#x26;token=b5bfff0c-8189-4358-9344-08d0ae17782a" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% columns %}
{% column %}

#### Espace de travail de chat

Saisissez des prompts, joignez n’importe quels documents, images (webp, png), fichiers de code, txt ou audio comme contexte supplémentaire, et voyez les réponses du modèle en temps réel.

Activer ou désactiver : réflexion + recherche web.
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FHlOKWnSB6slhE1EXgAeZ%2Fimage.png?alt=media&#x26;token=b5bdfe4e-fe0e-4a2a-9eba-b04b15a79018" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

### Arène des modèles

Studio Chat vous permet de comparer n’importe quels deux modèles côte à côte en utilisant le même prompt. Par exemple, comparez le modèle de base et l’adaptateur LoRa. L’inférence chargera d’abord un modèle, puis le second (l’inférence parallèle est en cours de développement).

<div data-with-frame="true"><figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FC3xjqlunbpUr7nx6sQ4j%2Fimage.png?alt=media&#x26;token=65501d63-1346-4a1e-b055-c94294a24305" alt="" width="563"><figcaption></figcaption></figure></div>

{% columns %}
{% column %}
Après l’entraînement, vous pouvez comparer les modèles de base et affiné côte à côte avec le même prompt pour voir ce qui a changé et si les résultats se sont améliorés.

Ce flux de travail permet de voir facilement comment votre fine-tuning a modifié les réponses du modèle et s’il a amélioré les résultats pour votre cas d’usage.
{% endcolumn %}

{% column %}

<div align="center" data-with-frame="true"><figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FVgnE7eMPQk2vaFboJ4BU%2Fmodel%20arena%20closeup.png?alt=media&#x26;token=8b0a910b-440c-4859-a846-0060e61e157b" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% hint style="success" %}
Unsloth Studio Chat fonctionne automatiquement sur **multi-GPU** pour l’inférence.
{% endhint %}

### Utilisation d’anciens modèles GGUF / modèles existants

{% columns %}
{% column %}
**Mise à jour du 1er avril :** Vous pouvez désormais sélectionner un dossier existant à partir duquel Unsloth pourra détecter les modèles.

**Mise à jour du 27 mars :** Unsloth Studio détecte maintenant **automatiquement les anciens modèles / modèles déjà existants** téléchargés depuis Hugging Face, LM Studio, etc.
{% endcolumn %}

{% column %}

<figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FBn3Fs1cchFchl328wSOs%2FScreenshot%202026-04-05%20at%205.43.57%E2%80%AFAM.png?alt=media&#x26;token=cc57ec6e-653a-4824-8e8d-a6bfbcd27493" alt=""><figcaption></figcaption></figure>
{% endcolumn %}
{% endcolumns %}

**Instructions manuelles :** Unsloth Studio détecte les modèles téléchargés dans le cache de votre Hugging Face Hub `(C:\Users{your_username}.cache\huggingface\hub)`. Si vous avez téléchargé des modèles GGUF via LM Studio, notez qu’ils sont stockés dans `C:\Users\{your_username}.cache\lm-studio\models` ***OU*** `C:\Users{your_username}\lm-studio\models` et ne sont pas visibles par défaut pour llama.cpp - vous devrez déplacer ou copier ces fichiers .gguf dans le répertoire cache de votre Hugging Face Hub (ou dans un autre chemin accessible à llama.cpp) pour qu’Unsloth Studio puisse les charger.

Après avoir affiné un modèle ou un adaptateur dans Studio, vous pouvez l’exporter en GGUF et exécuter l’inférence locale avec **llama.cpp** directement dans Studio Chat. Unsloth Studio est propulsé par llama.cpp et Hugging Face.

### Ajout de fichiers comme contexte

Studio Chat prend en charge les entrées multimodales directement dans la conversation. Vous pouvez joindre des documents, des images ou de l’audio comme contexte supplémentaire pour un prompt.

<div data-with-frame="true"><figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FSitddQpGkOwUvirMem5P%2Fimage.png?alt=media&#x26;token=43b7af91-ea86-4279-a787-b4b444640d82" alt="" width="563"><figcaption></figcaption></figure></div>

Cela facilite les tests de la manière dont un modèle traite des entrées réelles telles que des PDF, des captures d’écran ou du matériel de référence. Les fichiers sont traités localement et inclus comme contexte pour le modèle.

### **Suppression des fichiers de modèle**

Vous pouvez supprimer d’anciens fichiers de modèle soit via l’icône de corbeille dans la recherche de modèles, soit en supprimant le dossier de cache du modèle concerné dans le répertoire de cache Hugging Face par défaut. Par défaut, Hugging Face utilise `~/.cache/huggingface/hub/` sur macOS/Linux/WSL et `C:\Users\<username>\.cache\huggingface\hub\` sur Windows.

* **MacOS, Linux, WSL :** `~/.cache/huggingface/hub/`
* **Windows :** `%USERPROFILE%\.cache\huggingface\hub\`

Si `HF_HUB_CACHE` ou `HF_HOME` est défini, utilisez plutôt cet emplacement. Sur Linux et WSL, `XDG_CACHE_HOME` peut également modifier la racine de cache par défaut.

### **Unsloth ne détecte pas ou n’utilise pas mon GPU**

Si le modèle n’utilise pas votre GPU, en particulier pour Docker, essayez :

Télécharger manuellement la dernière image :

```bash
 docker pull unsloth/unsloth:latest
```

* Démarrer le conteneur avec accès au GPU :
  * `docker run`: `--gpus all`
  * Docker Compose : `capabilities: [gpu]`
* Sous Linux, assurez-vous que NVIDIA Container Toolkit est installé.
* Sous Windows :
  * Vérifiez que `nvcc --version` correspond à la version CUDA affichée dans `nvidia-smi`
  * Suivez : <https://docs.docker.com/desktop/features/gpu/>
