Comment exécuter des LLM locaux avec Docker : Guide étape par étape

Apprenez comment exécuter des grands modèles de langage (LLM) avec Docker & Unsloth sur votre appareil local.

Vous pouvez désormais exécuter n'importe quel modèle, y compris Unsloth GGUF dynamiques, sur Mac, Windows ou Linux avec une seule ligne de code ou aucun code du tout. Nous avons collaboré avec Docker pour simplifier le déploiement des modèles, et Unsloth alimente désormais la plupart des modèles GGUF sur Docker.

Avant de commencer, assurez-vous de consulter exigences matérielles et nos conseils pour optimiser les performances lors de l'exécution de LLM sur votre appareil.

Tutoriel Docker Terminal Tutoriel Docker sans code

Pour commencer, exécutez OpenAI gpt-oss avec une seule commande :

docker model run ai/gpt-oss:20B

Ou pour exécuter un modèle Unsloth / quant depuis Hugging Face :

docker model run hf.co/unsloth/gpt-oss-20b-GGUF:F16

Vous n'avez pas besoin de Docker Desktop, Docker CE suffit pour exécuter les modèles.

Pourquoi Unsloth + Docker ?

Nous collaborons avec des labs de modèles comme Google Gemma pour corriger les bugs des modèles et améliorer la précision. Nos GGUF dynamiques surpassent systématiquement les autres méthodes de quantification, vous offrant une inférence précise et efficace.

Si vous utilisez Docker, vous pouvez exécuter des modèles instantanément sans configuration. Docker utilise Docker Model Runner (DMR), qui vous permet d'exécuter des LLM aussi facilement que des conteneurs sans problèmes de dépendances. DMR utilise les modèles Unsloth et llama.cpp sous le capot pour une inférence rapide, efficace et à jour.

⚙️ Infos Matériel + Performance

Pour de meilleures performances, visez à ce que votre VRAM + RAM combinées soient au moins égales à la taille du modèle quantifié que vous téléchargez. Si vous en avez moins, le modèle fonctionnera toujours, mais beaucoup plus lentement.

Assurez-vous également que votre appareil dispose de suffisamment d'espace disque pour stocker le modèle. Si votre modèle tient à peine en mémoire, vous pouvez vous attendre à environ ~5 tokens/s, selon la taille du modèle.

Disposer de RAM/VRAM supplémentaire améliorera la vitesse d'inférence, et une VRAM additionnelle permettra le plus grand gain de performances (à condition que l'ensemble du modèle tienne)

Exemple : Si vous téléchargez gpt-oss-20b (F16) et que le modèle fait 13,8 Go, assurez-vous que votre espace disque et votre RAM + VRAM > 13,8 Go.

Recommandations de quantification :

Pour les modèles de moins de 30 milliards de paramètres, utilisez au moins 4 bits (Q4).
Pour les modèles de 70 milliards de paramètres ou plus, utilisez un minimum de quantification 2 bits (par ex., UD_Q2_K_XL).

⚡ Tutoriels pas à pas

Ci-dessous se trouvent deux façons d'exécuter des modèles avec Docker : l'une en utilisant le terminal, et l'autre en utilisant Docker Desktop sans code :

Méthode n°1 : Docker Terminal

Installer Docker

Docker Model Runner est déjà disponible dans les deux Docker Desktop et Docker CE.

Exécuter le modèle

Choisissez un modèle à exécuter, puis lancez la commande via le terminal.

Parcourez le catalogue vérifié des modèles de confiance disponibles sur Docker Hub ou La page Hugging Face d'Unsloth .
Allez dans le Terminal pour exécuter les commandes. Pour vérifier si vous avez docker installé, vous pouvez taper 'docker' et appuyer sur Entrée.
Docker Hub lance par défaut Unsloth Dynamic 4-bit, cependant vous pouvez choisir votre propre niveau de quantification (voir l'étape n°3).

Par exemple, pour exécuter OpenAI gpt-oss-20b en une seule commande :

docker model run ai/gpt-oss:20B

Ou pour exécuter un Unsloth gpt-oss quant depuis Hugging Face :

docker model run hf.co/unsloth/gpt-oss-20b-GGUF:UD-Q8_K_XL

Voici à quoi devrait ressembler l'exécution de gpt-oss-20b via CLI :

Pour exécuter un niveau de quantification spécifique :

Si vous souhaitez exécuter une quantification spécifique d'un modèle, ajoutez : et le nom de la quantification au modèle (par ex., Q4 pour Docker ou UD-Q4_K_XL). Vous pouvez voir toutes les quantifications disponibles sur la page Docker Hub de chaque modèle. par ex. voir les quantifications listées pour gpt-oss ici.

La même chose s'applique aux quants Unsloth sur Hugging Face : visitez la page HF du modèle, choisissez une quantification, puis exécutez quelque chose comme : docker model run hf.co/unsloth/gpt-oss-20b-GGUF:Q2_K_L

Méthode n°2 : Docker Desktop (sans code)

Installer Docker Desktop

Docker Model Runner est déjà disponible dans Docker Desktop.

Choisissez un modèle à exécuter, ouvrez Docker Desktop, puis cliquez sur l'onglet modèles.
Cliquez sur 'Add models +' ou Docker Hub. Recherchez le modèle.

Parcourez le catalogue de modèles vérifiés disponible sur Docker Hub.

Télécharger le modèle

Cliquez sur le modèle que vous souhaitez exécuter pour voir les quantifications disponibles.

Les quantifications vont de 1 à 16 bits. Pour les modèles de moins de 30 milliards de paramètres, utilisez au moins 4 bits (Q4).
Choisissez une taille qui correspond à votre matériel : idéalement, votre mémoire unifiée combinée, RAM ou VRAM devrait être égale ou supérieure à la taille du modèle. Par exemple, un modèle de 11 Go fonctionne bien sur 12 Go de mémoire unifiée.

Exécuter le modèle

Tapez n'importe quelle invite dans la case 'Ask a question' et utilisez le LLM comme vous utiliseriez ChatGPT.

Pour exécuter les modèles les plus récents :

Vous pouvez exécuter n'importe quel nouveau modèle sur Docker tant qu'il est pris en charge par llama.cpp ou vllm et disponible sur Docker Hub.

Qu'est-ce que Docker Model Runner ?

Le Docker Model Runner (DMR) est un outil open source qui vous permet de télécharger et d'exécuter des modèles d'IA aussi facilement que vous exécutez des conteneurs. GitHub : https://github.com/docker/model-runner

Il fournit un runtime cohérent pour les modèles, similaire à la façon dont Docker a standardisé le déploiement d'applications. Sous le capot, il utilise des backends optimisés (comme llama.cpp) pour une inférence fluide et efficace en ressources sur votre machine.

Que vous soyez chercheur, développeur ou amateur, vous pouvez désormais :

Exécuter des modèles ouverts localement en quelques secondes.
Éviter l'enfer des dépendances, tout est géré dans Docker.
Partager et reproduire des configurations de modèles sans effort.

PrécédentDevstral SuivantDeepSeek-V3-0324

Mis à jour il y a 3 mois

Ce contenu vous a-t-il été utile ?

hashtagPourquoi Unsloth + Docker ?

hashtag⚙️ Infos Matériel + Performance

hashtag⚡ Tutoriels pas à pas

hashtagMéthode n°1 : Docker Terminal

hashtagInstaller Docker

hashtagExécuter le modèle

hashtagPour exécuter un niveau de quantification spécifique :

hashtagMéthode n°2 : Docker Desktop (sans code)

hashtagInstaller Docker Desktop

hashtagTélécharger le modèle

hashtagExécuter le modèle

hashtagPour exécuter les modèles les plus récents :

hashtagQu'est-ce que Docker Model Runner ?

Pourquoi Unsloth + Docker ?

⚙️ Infos Matériel + Performance

⚡ Tutoriels pas à pas

Méthode n°1 : Docker Terminal

Installer Docker

Exécuter le modèle

Pour exécuter un niveau de quantification spécifique :

Méthode n°2 : Docker Desktop (sans code)

Installer Docker Desktop

Télécharger le modèle

Exécuter le modèle

Pour exécuter les modèles les plus récents :

Qu'est-ce que Docker Model Runner ?