arrow-pointerComment exécuter les GGUF d'image diffusion dans ComfyUI

Guide pour exécuter les modèles Unsloth Diffusion GGUF dans ComfyUI.

ComfyUI est une interface graphique open-source, une API et un backend pour modèles de diffusion qui utilise une interface basée sur des nœuds (graphe/organigramme). ComfyUIarrow-up-right est la façon la plus populaire d'exécuter des workflows pour des modèles d'image comme Qwen-Image-Edit ou FLUX.

GGUF est l'un des formats les meilleurs et les plus efficaces pour exécuter des modèles de diffusion localement, et Unsloth Dynamic Les GGUF utilisent une quantification intelligente pour préserver la précision même à faible nombre de bits.

Vous apprendrez comment installer ComfyUI (Windows, Linux, macOS), construire des workflows et ajuster hyperparamètres dans ce tutoriel pas à pas.

Prérequis et exigences

Vous n'avez pas besoin d'un GPU pour exécuter des GGUFs de diffusion, seulement d'un CPU avec de la RAM. La VRAM n'est pas requise mais accélérera considérablement l'inférence. Pour de meilleurs résultats, assurez-vous que votre mémoire utilisable totale (RAM + VRAM / unifiée) soit légèrement supérieure à la taille du GGUF ; par exemple, le 4 bits (Q4_K_M) unsloth/Qwen-Image-Edit-2511-GGUF fait 13,1 Go, donc vous devriez avoir au moins ~13,2 Go de mémoire combinée. Vous pouvez trouver tous les GGUFs de diffusion Unsloth dans notre collectionarrow-up-right.

Nous recommandons une quantification d'au moins 3 bits pour les modèles de diffusion, car leurs couches, en particulier les composants vision, sont très sensibles à la quantification. Les quantifications dynamiques d'Unsloth rehaussent les couches importantes pour récupérer autant de précision que possible.

📖 Tutoriel ComfyUI

ComfyUI représente l'ensemble du pipeline de génération d'images comme un graphe de nœuds connectés. Ce guide se concentrera sur les machines avec CUDA, mais les instructions pour construire sur Apple ou CPU sont similaires.

#1. Installation & Configuration

Pour installer ComfyUI, vous pouvez télécharger l'application de bureau sur les appareils Windows ou Mac iciarrow-up-right. Sinon, pour configurer ComfyUI afin d'exécuter des modèles GGUF, exécutez ce qui suit :

mkdir comfy_ggufs
cd comfy_ggufs
python -m venv .venv
source .venv/bin/activate

git clone https://github.com/comfyanonymous/ComfyUI.git
cd ComfyUI
pip install -r requirements.txt

cd custom_nodes
git clone https://github.com/city96/ComfyUI-GGUF
cd ComfyUI-GGUF
pip install -r requirements.txt
cd ../..

#2. Télécharger les modèles

Les modèles de diffusion nécessitent généralement 3 modèles. Un Variational AutoEncoder (VAE) qui encode l'espace pixel de l'image en espace latent, un encodeur de texte pour traduire le texte en embeddings d'entrée, et le transformeur de diffusion proprement dit. Vous pouvez trouver tous les GGUF de diffusion Unsloth dans notre Collection iciarrow-up-right.

Le modèle de diffusion et l'encodeur de texte peuvent être au format GGUF tandis que nous utilisons typiquement safetensors pour le VAE. Téléchargeons les modèles que nous utiliserons.

Voir les téléversements GGUF pour : Qwen-Image-Edit-2511arrow-up-right, FLUX.2-devarrow-up-right et Qwen-Image-Layeredarrow-up-right

circle-exclamation

Ces fichiers doivent être dans les dossiers corrects pour que ComfyUI puisse les voir. De plus, la tour vision dans le fichier mmproj doit utiliser le même préfixe que l'encodeur de texte.

Téléchargez également des images de référence à utiliser plus tard.

Workflow et hyperparamètres

Vous pouvez aussi consulter notre Run GGUFs in ComfyUI Guide.

Accédez au répertoire ComfyUI et exécutez :

Cela lancera un serveur web qui vous permettra d'accéder à https://127.0.0.1:8188 . Si vous exécutez cela sur le cloud, vous devrez vous assurer que le transfert de port est configuré pour y accéder depuis votre machine locale.

Les workflows sont sauvegardés en tant que fichiers JSON intégrés dans les images de sortie (métadonnées PNG) ou en tant que .json fichiers. Vous pouvez :

  • Glisser-déposer une image dans ComfyUI pour charger son workflow

  • Exporter/importer des workflows via le menu

  • Partager des workflows sous forme de fichiers JSON

Vous trouverez ci-dessous deux exemples de fichiers JSON FLUX 2 que vous pouvez télécharger et utiliser :

dans l'image. Empiler trop de mots-clés peut nuire aux résultats au lieu de les rendre plus spécifiques.

Au lieu de configurer le workflow depuis zéro, vous pouvez télécharger le workflow ici. unsloth_flux2_t2i_gguf.json unsloth_qwen_image_2512.json

fichier que vous venez de télécharger. Il devrait ressembler à ce qui suit :

#3. Inférence

#4. Inférence

ComfyUI est hautement personnalisable. Vous pouvez mélanger des modèles et créer des pipelines extrêmement complexes. Pour une configuration basique de texte vers image, nous devons charger le modèle, spécifier le prompt et les détails d'image, et décider d'une stratégie d'échantillonnage.

Téléverser les modèles + Définir le prompt flux2-dev-Q4_K_M.ggufqwen-image-2512-Q4_K_M.gguf Mistral-Small-3.2-24B-Instruct-2506-UD-Q4_K_XL.ggufQwen2.5-VL-7B-Instruct-UD-Q4_K_XL.gguf flux2-vae.safetensors.

Vous pouvez définir n'importe quel prompt que vous souhaitez. Puisque le classifier free guidance est intégré au modèle, nous n'avons pas besoin de spécifier un prompt négatif.

Vous pouvez définir n'importe quel prompt que vous souhaitez, et aussi spécifier un prompt négatif. Le prompt négatif aide en indiquant au modèle ce dont il doit s'éloigner.

Flux2-dev prend en charge différentes tailles d'image. Vous pouvez créer des formes rectangulaires en réglant les valeurs de largeur et de hauteur. Pour les paramètres du sampler, vous pouvez expérimenter avec différents samplers autre que euler, et plus ou moins d'étapes d'échantillonnage. Changez le réglage RandomNoise de randomize à fixed si vous voulez voir comment différents paramètres affectent les résultats.

paramètre de randomize à fixed si vous voulez voir comment différents réglages modifient les sorties.

Cliquez sur Run et une image sera générée en 45-60 secondes. Cette image de sortie peut être sauvegardée. La partie intéressante est que les métadonnées de l'ensemble du workflow Comfy sont sauvegardées dans l'image. Vous pouvez partager et n'importe qui peut voir comment elle a été créée en la chargeant dans l'UI.

Si vous rencontrez des images floues/mauvaises, augmentez shift à 12-13 ! résout la plupart des problèmes d'images de mauvaise qualité.

Une fonctionnalité clé de Flux2 est la génération multi-références où vous pouvez fournir plusieurs images à utiliser pour aider à contrôler la génération. Cette fois chargez le unsloth_flux2_i2i_gguf.json. Nous utiliserons les mêmes modèles, la seule différence cette fois-ci est l'ajout de nœuds supplémentaires pour sélectionner les images de référence, que nous avons téléchargées précédemment. Vous remarquerez que le prompt fait référence à la fois à pour l'unet. L'autre différence cette fois est l'ajout de nœuds supplémentaires pour sélectionner les images de référence, que nous avons téléchargées plus tôt. Vous remarquerez que le prompt fait référence à la fois à et et image 2

🎯 Workflow et hyperparamètres

Pour les workflows texte-vers-image, nous devons spécifier un prompt, les paramètres d'échantillonnage, la taille de l'image, l'échelle de guidance et toute configuration d'optimisation.

Échantillonnage

Échantillonnage fonctionne différemment des LLM. Au lieu d'échantillonner un jeton à la fois, nous échantillonnons l'image entière sur plusieurs étapes. À chaque étape, l'image est progressivement « débruitée », ce qui signifie que lorsque vous exécutez plus d'étapes, l'image a tendance à être de meilleure qualité. Il existe également différents algorithmes d'échantillonnage allant des algorithmes du premier ordre et du deuxième ordre aux algorithmes déterministes et stochastiques. Pour ce tutoriel, nous utiliserons euler, un sampler standard qui équilibre qualité et rapidité.

Guidance

Guidance est un autre hyperparamètre important pour les modèles de diffusion. Il existe de nombreuses variantes de guidance mais les deux formes les plus largement utilisées sont le classifier free guidance (CFG) et la distillation de guidance. Le concept de classifier free guidance provient de Classifier-Free Diffusion Guidancearrow-up-right. Historiquement, vous aviez besoin d'un modèle de classificateur séparé pour guider le modèle afin qu'il corresponde à la condition d'entrée, mais cet article montre en fait que le CFG utilise la différence entre les prédictions conditionnelles et inconditionnelles du modèle pour former une direction de guidance.

En pratique ce n'est pas une prédiction inconditionnelle mais une prédiction de prompt négatif, c'est-à-dire un prompt que nous ne voulons absolument pas et dont nous devons nous éloigner. Lors de l'utilisation du CFG vous n'avez pas besoin d'un modèle séparé, mais vous avez besoin d'une seconde étape d'inférence à partir du prompt inconditionnel ou négatif. D'autres modèles ont le CFG intégré durant l'entraînement, mais vous pouvez toujours régler la force de la guidance. Ceci est séparé du CFG car il ne nécessite pas une seconde étape d'inférence, mais c'est toujours un hyperparamètre ajustable pour définir l'intensité de son effet.

Conclusion

En résumé, vous définissez un prompt pour dire au modèle ce qu'il doit produire, l'encodeur de texte encode le texte, le VAE encode l'image, les deux embeddings sont traités par le modèle de diffusion selon les paramètres d'échantillonnage + la guidance, et enfin la sortie est décodée par le VAE ce qui donne une image exploitable.

Concepts clés & glossaire

  • Latent: Représentation compressée de l'image (sur laquelle le modèle opère).

  • Conditionnement: Informations texte/image qui guident la génération.

  • Modèle de diffusion / UNet: Réseau neuronal qui effectue le débruitage.

  • VAE: Encodeur/décodeur entre l'espace des pixels et l'espace latent.

  • CLIP (encodeur de texte): Convertit un prompt en embeddings.

  • Sampler: Algorithme qui débruite itérativement le latent.

  • Scheduler: Contrôle le calendrier du bruit sur les étapes.

  • Nœuds: Opérations (charger le modèle, encoder le texte, échantillonner, décoder, etc.).

  • Arêtes: Données circulant entre les nœuds.

Mis à jour

Ce contenu vous a-t-il été utile ?