# Comment exécuter des LLM locaux avec Docker : guide étape par étape

Vous pouvez désormais exécuter n'importe quel modèle, y compris Unsloth [GGUF dynamiques](/docs/fr/bases/unsloth-dynamic-2.0-ggufs.md), sur Mac, Windows ou Linux avec une seule ligne de code ou **aucun code** du tout. Nous avons collaboré avec Docker pour simplifier le déploiement des modèles, et Unsloth alimente désormais la plupart des modèles GGUF sur Docker.

Avant de commencer, assurez-vous de consulter [exigences matérielles](#hardware-info--performance) et [nos conseils](#hardware-info--performance) pour optimiser les performances lors de l'exécution de LLM sur votre appareil.

<a href="/pages/18ff82c8ec22aac46f659c98c536562dad45be0b#method-1-docker-terminal" class="button primary">Tutoriel Docker Terminal</a><a href="#method-2-docker-desktop-no-code" class="button primary">Tutoriel Docker sans code</a>

Pour commencer, exécutez OpenAI [gpt-oss](/docs/fr/modeles/gpt-oss-how-to-run-and-fine-tune.md) avec une seule commande :

```bash
docker model run ai/gpt-oss:20B
```

Ou pour exécuter un [modèle Unsloth](/docs/fr/commencer/unsloth-model-catalog.md) / quant depuis Hugging Face :

```bash
docker model run hf.co/unsloth/gpt-oss-20b-GGUF:F16
```

{% hint style="success" %}
Vous n'avez pas besoin de Docker Desktop, Docker CE suffit pour exécuter les modèles.
{% endhint %}

#### **Pourquoi Unsloth + Docker ?**

Nous collaborons avec des labs de modèles comme Google Gemma pour corriger les bugs des modèles et améliorer la précision. Nos GGUF dynamiques surpassent systématiquement les autres méthodes de quantification, vous offrant une inférence précise et efficace.

Si vous utilisez Docker, vous pouvez exécuter des modèles instantanément sans configuration. Docker utilise [Docker Model Runner](https://github.com/docker/model-runner) (DMR), qui vous permet d'exécuter des LLM aussi facilement que des conteneurs sans problèmes de dépendances. DMR utilise les modèles Unsloth et `llama.cpp` sous le capot pour une inférence rapide, efficace et à jour.

## :gear: Infos Matériel + Performance

Pour de meilleures performances, visez à ce que votre VRAM + RAM combinées soient au moins égales à la taille du modèle quantifié que vous téléchargez. Si vous en avez moins, le modèle fonctionnera toujours, mais beaucoup plus lentement.

Assurez-vous également que votre appareil dispose de suffisamment d'espace disque pour stocker le modèle. Si votre modèle tient à peine en mémoire, vous pouvez vous attendre à environ \~5 tokens/s, selon la taille du modèle.

Disposer de RAM/VRAM supplémentaire améliorera la vitesse d'inférence, et une VRAM additionnelle permettra le plus grand gain de performances (à condition que l'ensemble du modèle tienne)

{% hint style="info" %}
**Exemple :** Si vous téléchargez gpt-oss-20b (F16) et que le modèle fait 13,8 Go, assurez-vous que votre espace disque et votre RAM + VRAM > 13,8 Go.
{% endhint %}

**Recommandations de quantification :**

* Pour les modèles de moins de 30 milliards de paramètres, utilisez au moins 4 bits (Q4).
* Pour les modèles de 70 milliards de paramètres ou plus, utilisez un minimum de quantification 2 bits (par ex., UD\_Q2\_K\_XL).

## ⚡ Tutoriels pas à pas

Ci-dessous se trouvent **deux façons** d'exécuter des modèles avec Docker : l'une en utilisant le [terminal](#method-1-docker-terminal), et l'autre en utilisant [Docker Desktop](#method-2-docker-desktop-no-code) sans code :

### Méthode n°1 : Docker Terminal

{% stepper %}
{% step %}

#### Installer Docker

Docker Model Runner est déjà disponible dans **les deux** [Docker Desktop](https://docs.docker.com/ai/model-runner/get-started/#docker-desktop) et [**Docker CE**](https://docs.docker.com/ai/model-runner/get-started/#docker-engine)**.**
{% endstep %}

{% step %}

#### Exécuter le modèle

Choisissez un modèle à exécuter, puis lancez la commande via le terminal.

* Parcourez le catalogue vérifié des modèles de confiance disponibles sur [Docker Hub](https://hub.docker.com/r/ai) ou [La page Hugging Face d'Unsloth](https://huggingface.co/unsloth) .
* Allez dans le Terminal pour exécuter les commandes. Pour vérifier si vous avez `docker` installé, vous pouvez taper 'docker' et appuyer sur Entrée.
* Docker Hub lance par défaut Unsloth Dynamic 4-bit, cependant vous pouvez choisir votre propre niveau de quantification (voir l'étape n°3).

Par exemple, pour exécuter OpenAI `gpt-oss-20b` en une seule commande :

```bash
docker model run ai/gpt-oss:20B
```

Ou pour exécuter un [Unsloth](/docs/fr/commencer/unsloth-model-catalog.md) gpt-oss quant depuis Hugging Face :

```bash
docker model run hf.co/unsloth/gpt-oss-20b-GGUF:UD-Q8_K_XL
```

**Voici à quoi devrait ressembler l'exécution de gpt-oss-20b via CLI :**

<div><figure><img src="/files/2166e664b4eae5fa45eedfbea1c9ad066a3ff27a" alt="" width="563"><figcaption><p>gpt-oss-20b depuis Docker Hub</p></figcaption></figure> <figure><img src="/files/b499bde85c313bfb9170d79954f1728bbe303ee4" alt="" width="563"><figcaption><p>gpt-oss-20b avec la quantification UD-Q8_K_XL d'Unsloth</p></figcaption></figure></div>
{% endstep %}

{% step %}

#### Pour exécuter un niveau de quantification spécifique :

Si vous souhaitez exécuter une quantification spécifique d'un modèle, ajoutez `:` et le nom de la quantification au modèle (par ex., `Q4` pour Docker ou `UD-Q4_K_XL`). Vous pouvez voir toutes les quantifications disponibles sur la page Docker Hub de chaque modèle. par ex. voir les quantifications listées pour gpt-oss [ici](https://hub.docker.com/r/ai/gpt-oss#gptoss).

La même chose s'applique aux quants Unsloth sur Hugging Face : visitez la [page HF du modèle](https://huggingface.co/unsloth/gpt-oss-20b-GGUF?show_file_info=gpt-oss-20b-Q2_K_L.gguf), choisissez une quantification, puis exécutez quelque chose comme : `docker model run hf.co/unsloth/gpt-oss-20b-GGUF:Q2_K_L`

<div><figure><img src="/files/0fec9ef1cf522bab4867efd64a38b5dfe51cabe9" alt="" width="563"><figcaption><p>Niveaux de quantification gpt-oss sur <a href="https://hub.docker.com/r/ai/gpt-oss#gptoss">Docker Hub</a></p></figcaption></figure> <figure><img src="/files/f4365df8b1572fb4eb536b1e295f6bf4084c55a8" alt="" width="563"><figcaption><p>Niveaux de quantification Unsloth gpt-oss sur<a href="https://huggingface.co/unsloth/gpt-oss-20b-GGUF"> Hugging Face</a></p></figcaption></figure></div>
{% endstep %}
{% endstepper %}

### Méthode n°2 : Docker Desktop (sans code)

{% stepper %}
{% step %}

#### Installer Docker Desktop

Docker Model Runner est déjà disponible dans [Docker Desktop](https://docs.docker.com/ai/model-runner/get-started/#docker-desktop).

1. Choisissez un modèle à exécuter, ouvrez Docker Desktop, puis cliquez sur l'onglet modèles.
2. Cliquez sur 'Add models +' ou Docker Hub. Recherchez le modèle.

Parcourez le catalogue de modèles vérifiés disponible sur [Docker Hub](https://hub.docker.com/r/ai).

<div><figure><img src="/files/a78b03e8f5909b031bf2896425d874e739590e60" alt=""><figcaption><p>#1. Cliquez sur l'onglet 'Models' puis sur 'Add models +'</p></figcaption></figure> <figure><img src="/files/ae2ceaebd8014f256c88a8995f1aa76f27242d80" alt=""><figcaption><p>#2. Recherchez le modèle souhaité.</p></figcaption></figure></div>
{% endstep %}

{% step %}

#### Télécharger le modèle

Cliquez sur le modèle que vous souhaitez exécuter pour voir les quantifications disponibles.

* Les quantifications vont de 1 à 16 bits. Pour les modèles de moins de 30 milliards de paramètres, utilisez au moins 4 bits (`Q4`).
* Choisissez une taille qui correspond à votre matériel : idéalement, votre mémoire unifiée combinée, RAM ou VRAM devrait être égale ou supérieure à la taille du modèle. Par exemple, un modèle de 11 Go fonctionne bien sur 12 Go de mémoire unifiée.

<div><figure><img src="/files/c669fee1d59b4aa574374c71597a8a8e1a251e90" alt=""><figcaption><p>#3. Sélectionnez la quantification que vous souhaitez télécharger.</p></figcaption></figure> <figure><img src="/files/8d4a1c0d667403592f66c1c7f3ba4037c9bafa23" alt=""><figcaption><p>#4. Attendez que le modèle ait fini de se télécharger, puis exécutez-le.</p></figcaption></figure></div>
{% endstep %}

{% step %}

#### Exécuter le modèle

Tapez n'importe quelle invite dans la case 'Ask a question' et utilisez le LLM comme vous utiliseriez ChatGPT.

<figure><img src="/files/f98c4b745f2a78cac22247e51b58aa72a7e89e31" alt="" width="563"><figcaption><p>Un exemple d'exécution de Qwen3-4B <code>UD-Q8_K_XL</code></p></figcaption></figure>
{% endstep %}
{% endstepper %}

#### **Pour exécuter les modèles les plus récents :**

Vous pouvez exécuter n'importe quel nouveau modèle sur Docker tant qu'il est pris en charge par `llama.cpp` ou `vllm` et disponible sur Docker Hub.

### Qu'est-ce que Docker Model Runner ?

Le Docker Model Runner (DMR) est un outil open source qui vous permet de télécharger et d'exécuter des modèles d'IA aussi facilement que vous exécutez des conteneurs. GitHub : <https://github.com/docker/model-runner>

Il fournit un runtime cohérent pour les modèles, similaire à la façon dont Docker a standardisé le déploiement d'applications. Sous le capot, il utilise des backends optimisés (comme `llama.cpp`) pour une inférence fluide et efficace en ressources sur votre machine.

Que vous soyez chercheur, développeur ou amateur, vous pouvez désormais :

* Exécuter des modèles ouverts localement en quelques secondes.
* Éviter l'enfer des dépendances, tout est géré dans Docker.
* Partager et reproduire des configurations de modèles sans effort.


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/fr/modeles/tutorials/how-to-run-llms-with-docker.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
