dockerComment exécuter des LLM locaux avec Docker : Guide étape par étape

Apprenez comment exécuter des grands modèles de langage (LLM) avec Docker & Unsloth sur votre appareil local.

Vous pouvez désormais exécuter n'importe quel modèle, y compris Unsloth GGUF dynamiques, sur Mac, Windows ou Linux avec une seule ligne de code ou aucun code du tout. Nous avons collaboré avec Docker pour simplifier le déploiement des modèles, et Unsloth alimente désormais la plupart des modèles GGUF sur Docker.

Avant de commencer, assurez-vous de consulter exigences matérielles et nos conseils pour optimiser les performances lors de l'exécution de LLM sur votre appareil.

Tutoriel Docker TerminalTutoriel Docker sans code

Pour commencer, exécutez OpenAI gpt-oss avec une seule commande :

docker model run ai/gpt-oss:20B

Ou pour exécuter un modèle Unsloth / quant depuis Hugging Face :

docker model run hf.co/unsloth/gpt-oss-20b-GGUF:F16
circle-check

Pourquoi Unsloth + Docker ?

Nous collaborons avec des labs de modèles comme Google Gemma pour corriger les bugs des modèles et améliorer la précision. Nos GGUF dynamiques surpassent systématiquement les autres méthodes de quantification, vous offrant une inférence précise et efficace.

Si vous utilisez Docker, vous pouvez exécuter des modèles instantanément sans configuration. Docker utilise Docker Model Runnerarrow-up-right (DMR), qui vous permet d'exécuter des LLM aussi facilement que des conteneurs sans problèmes de dépendances. DMR utilise les modèles Unsloth et llama.cpp sous le capot pour une inférence rapide, efficace et à jour.

⚙️ Infos Matériel + Performance

Pour de meilleures performances, visez à ce que votre VRAM + RAM combinées soient au moins égales à la taille du modèle quantifié que vous téléchargez. Si vous en avez moins, le modèle fonctionnera toujours, mais beaucoup plus lentement.

Assurez-vous également que votre appareil dispose de suffisamment d'espace disque pour stocker le modèle. Si votre modèle tient à peine en mémoire, vous pouvez vous attendre à environ ~5 tokens/s, selon la taille du modèle.

Disposer de RAM/VRAM supplémentaire améliorera la vitesse d'inférence, et une VRAM additionnelle permettra le plus grand gain de performances (à condition que l'ensemble du modèle tienne)

circle-info

Exemple : Si vous téléchargez gpt-oss-20b (F16) et que le modèle fait 13,8 Go, assurez-vous que votre espace disque et votre RAM + VRAM > 13,8 Go.

Recommandations de quantification :

  • Pour les modèles de moins de 30 milliards de paramètres, utilisez au moins 4 bits (Q4).

  • Pour les modèles de 70 milliards de paramètres ou plus, utilisez un minimum de quantification 2 bits (par ex., UD_Q2_K_XL).

⚡ Tutoriels pas à pas

Ci-dessous se trouvent deux façons d'exécuter des modèles avec Docker : l'une en utilisant le terminal, et l'autre en utilisant Docker Desktop sans code :

Méthode n°1 : Docker Terminal

1

Installer Docker

Docker Model Runner est déjà disponible dans les deux Docker Desktoparrow-up-right et Docker CEarrow-up-right.

2

Exécuter le modèle

Choisissez un modèle à exécuter, puis lancez la commande via le terminal.

  • Parcourez le catalogue vérifié des modèles de confiance disponibles sur Docker Hubarrow-up-right ou La page Hugging Face d'Unslotharrow-up-right .

  • Allez dans le Terminal pour exécuter les commandes. Pour vérifier si vous avez docker installé, vous pouvez taper 'docker' et appuyer sur Entrée.

  • Docker Hub lance par défaut Unsloth Dynamic 4-bit, cependant vous pouvez choisir votre propre niveau de quantification (voir l'étape n°3).

Par exemple, pour exécuter OpenAI gpt-oss-20b en une seule commande :

Ou pour exécuter un Unsloth gpt-oss quant depuis Hugging Face :

Voici à quoi devrait ressembler l'exécution de gpt-oss-20b via CLI :

gpt-oss-20b depuis Docker Hub
gpt-oss-20b avec la quantification UD-Q8_K_XL d'Unsloth
3

Pour exécuter un niveau de quantification spécifique :

Si vous souhaitez exécuter une quantification spécifique d'un modèle, ajoutez : et le nom de la quantification au modèle (par ex., Q4 pour Docker ou UD-Q4_K_XL). Vous pouvez voir toutes les quantifications disponibles sur la page Docker Hub de chaque modèle. par ex. voir les quantifications listées pour gpt-oss iciarrow-up-right.

La même chose s'applique aux quants Unsloth sur Hugging Face : visitez la page HF du modèlearrow-up-right, choisissez une quantification, puis exécutez quelque chose comme : docker model run hf.co/unsloth/gpt-oss-20b-GGUF:Q2_K_L

Niveaux de quantification gpt-oss sur Docker Hubarrow-up-right
Niveaux de quantification Unsloth gpt-oss sur Hugging Facearrow-up-right

Méthode n°2 : Docker Desktop (sans code)

1

Installer Docker Desktop

Docker Model Runner est déjà disponible dans Docker Desktoparrow-up-right.

  1. Choisissez un modèle à exécuter, ouvrez Docker Desktop, puis cliquez sur l'onglet modèles.

  2. Cliquez sur 'Add models +' ou Docker Hub. Recherchez le modèle.

Parcourez le catalogue de modèles vérifiés disponible sur Docker Hubarrow-up-right.

#1. Cliquez sur l'onglet 'Models' puis sur 'Add models +'
#2. Recherchez le modèle souhaité.
2

Télécharger le modèle

Cliquez sur le modèle que vous souhaitez exécuter pour voir les quantifications disponibles.

  • Les quantifications vont de 1 à 16 bits. Pour les modèles de moins de 30 milliards de paramètres, utilisez au moins 4 bits (Q4).

  • Choisissez une taille qui correspond à votre matériel : idéalement, votre mémoire unifiée combinée, RAM ou VRAM devrait être égale ou supérieure à la taille du modèle. Par exemple, un modèle de 11 Go fonctionne bien sur 12 Go de mémoire unifiée.

#3. Sélectionnez la quantification que vous souhaitez télécharger.
#4. Attendez que le modèle ait fini de se télécharger, puis exécutez-le.
3

Exécuter le modèle

Tapez n'importe quelle invite dans la case 'Ask a question' et utilisez le LLM comme vous utiliseriez ChatGPT.

Un exemple d'exécution de Qwen3-4B UD-Q8_K_XL

Pour exécuter les modèles les plus récents :

Vous pouvez exécuter n'importe quel nouveau modèle sur Docker tant qu'il est pris en charge par llama.cpp ou vllm et disponible sur Docker Hub.

Qu'est-ce que Docker Model Runner ?

Le Docker Model Runner (DMR) est un outil open source qui vous permet de télécharger et d'exécuter des modèles d'IA aussi facilement que vous exécutez des conteneurs. GitHub : https://github.com/docker/model-runnerarrow-up-right

Il fournit un runtime cohérent pour les modèles, similaire à la façon dont Docker a standardisé le déploiement d'applications. Sous le capot, il utilise des backends optimisés (comme llama.cpp) pour une inférence fluide et efficace en ressources sur votre machine.

Que vous soyez chercheur, développeur ou amateur, vous pouvez désormais :

  • Exécuter des modèles ouverts localement en quelques secondes.

  • Éviter l'enfer des dépendances, tout est géré dans Docker.

  • Partager et reproduire des configurations de modèles sans effort.

Mis à jour

Ce contenu vous a-t-il été utile ?