💟Comment exécuter Qwen-Image-2512 localement dans ComfyUI

Tutoriel étape par étape pour exécuter Qwen-Image-2512 sur votre appareil local avec ComfyUI.

Qwen-Image-2512 est la mise à jour de décembre des modèles fondamentaux de Qwen pour la génération d'images à partir de texte. Le modèle est le modèle de diffusion open-source le plus performant et ce guide vous apprendra à l'exécuter localement via Unsloth GGUF et ComfyUI.

Qwen-Image-2512 fonctionnalités : des personnes au rendu plus réaliste ; des détails plus riches dans les paysages/textures ; et un rendu du texte plus précis. Téléversements : GGUF • FP8 • BnB 4 bits

Les quantifications utilisent Unsloth Dynamic méthodologie qui relève certaines couches importantes à une précision supérieure pour récupérer plus de précision. Merci à Qwen d'avoir permis le support Unsloth dès le jour 0.

📖 Tutoriel ComfyUI

Pour l'exécuter, vous n'avez pas besoin d'un GPU, un CPU avec de la RAM suffit. Pour de meilleurs résultats, assurez-vous que votre mémoire totale utilisable (RAM + VRAM / unifiée) est supérieure à la taille GGUF ; par exemple 4 bits (Q4_K_M) unsloth/Qwen-Image-Edit-2512-GGUF fait 13,1 Go, donc vous devriez avoir 13,2+ Go de mémoire combinée.

ComfyUI est une interface graphique open-source, une API et un back-end pour modèles de diffusion qui utilise une interface basée sur des nœuds (graphe/organigramme). Ce guide se concentrera sur les machines avec CUDA, mais les instructions pour construire sur Apple ou CPU sont similaires.

#1. Installation & Configuration

Pour installer ComfyUI, vous pouvez télécharger l'application de bureau sur les appareils Windows ou Mac ici. Sinon, pour configurer ComfyUI afin d'exécuter des modèles GGUF, exécutez ce qui suit :

mkdir comfy_ggufs
cd comfy_ggufs
python -m venv .venv
source .venv/bin/activate

git clone https://github.com/Comfy-Org/ComfyUI.git
cd ComfyUI
pip install -r requirements.txt

cd custom_nodes
git clone https://github.com/city96/ComfyUI-GGUF
cd ComfyUI-GGUF
pip install -r requirements.txt
cd ../..

#2. Télécharger les modèles

Les modèles de diffusion nécessitent généralement 3 modèles. Un Variational AutoEncoder (VAE) qui encode l'espace pixel de l'image en espace latent, un encodeur de texte pour traduire le texte en embeddings d'entrée, et le transformeur de diffusion proprement dit. Vous pouvez trouver tous les GGUF de diffusion Unsloth dans notre Collection ici.

Le modèle de diffusion et l'encodeur de texte peuvent être au format GGUF tandis que nous utilisons généralement safetensors pour le VAE. Selon le dépôt de Qwen, nous utiliserons Qwen2.5-VL et non Qwen3-VL. Téléchargeons les modèles que nous utiliserons (Remarque : vous pouvez aussi utiliser notre téléversement FP8 dans ComfyUI) :

cd models

## Modèles de diffusion
curl -L -C - -o unet/qwen-image-2512-Q4_K_M.gguf \
  https://huggingface.co/unsloth/Qwen-Image-2512-GGUF/resolve/main/qwen-image-2512-Q4_K_M.gguf
curl -L -C - -o unet/qwen-image-edit-2511-Q4_K_M.gguf \
  https://huggingface.co/unsloth/Qwen-Image-Edit-2511-GGUF/resolve/main/qwen-image-edit-2511-Q4_K_M.gguf
 
## Encodeur de texte + Vision Tower + VAE   
curl -L -C - -o text_encoders/Qwen2.5-VL-7B-Instruct-UD-Q4_K_XL.gguf \
  https://huggingface.co/unsloth/Qwen2.5-VL-7B-Instruct-GGUF/resolve/main/Qwen2.5-VL-7B-Instruct-UD-Q4_K_XL.gguf
curl -L -C - -o text_encoders/Qwen2.5-VL-7B-Instruct-mmproj-BF16.gguf \
  https://huggingface.co/unsloth/Qwen2.5-VL-7B-Instruct-GGUF/resolve/main/mmproj-BF16.gguf
curl -L -C - -o vae/qwen_image_vae.safetensors \
  https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/resolve/main/split_files/vae/qwen_image_vae.safetensors

Voir les téléversements GGUF pour : Qwen-Image-2512, Qwen-Image-Edit-2511, et Qwen-Image-Layered

Le format du VAE et du modèle de diffusion peut être différent des checkpoints diffusers si vous utilisez des checkpoints autres que ceux ci-dessus. N'utilisez que des checkpoints compatibles avec ComfyUI.

Ces fichiers doivent être dans les dossiers corrects pour que ComfyUI puisse les voir. De plus, la vision tower stockée dans le fichier mmproj doit utiliser le même préfixe que l'encodeur de texte.

Téléchargez également des images de référence qui seront utilisées plus tard :

curl -L -C - -o ../input/sloth1.jpg \
    "https://unsloth.ai/cgi/image/_1d5a5685-2d88-44ca-b50f-ba432cd646ef_9CGCY8lvw4D9JkOdueqsk.jpeg?width=1920&quality=80&format=jpeg"

curl -L -C - -o ../input/sloth2.jpg \
    "https://unsloth.ai/cgi/image/UnSloth_GPU_Front_-_Confetti_ArcSk-MR4MMN215UutOFZ.png?width=1920&quality=80&format=jpeg"

#3. Workflow et hyperparamètres

Pour plus d'infos vous pouvez également consulter notre Run GGUFs in ComfyUI Guide.

Allez dans le répertoire principal de ComfyUI et exécutez :

python main.py

python main.py --cpu pour exécuter avec le CPU, mais ce sera lent.

Cela lancera un serveur web qui vous permettra d'accéder à https://127.0.0.1:8188 . Si vous exécutez cela sur le cloud, vous devrez vous assurer que le transfert de port est configuré pour y accéder depuis votre machine locale.

Les workflows sont sauvegardés en tant que fichiers JSON intégrés dans les images de sortie (métadonnées PNG) ou en tant que .json fichiers. Vous pouvez :

Glisser-déposer une image dans ComfyUI pour charger son workflow
Exporter/importer des workflows via le menu
Partager des workflows sous forme de fichiers JSON

Ci-dessous se trouvent deux exemples de fichiers json pour Qwen-Image-2512 et Qwen-Image-Edit-2511 que vous pouvez télécharger et utiliser :

13KB

unsloth_qwen_image_2512.json

Ouvrir

Pour notre workflow, nous utilisons par défaut 1024×1024 comme compromis pratique. Bien que le modèle prenne en charge la résolution native (1328×1328), générer en natif augmente généralement le temps d'exécution de ~50%. Puisque GGUF ajoute une surcharge et 40 étapes est une exécution relativement longue, 1024×1024 maintient un temps de génération raisonnable. Si nécessaire, vous pouvez augmenter la résolution à 1328.

Pour des résultats plus réalistes, évitez des mots-clés comme « photoréaliste » ou « rendu numérique » ou « rendu 3D » et utilisez plutôt des termes comme « photographie ».

Pour les prompts négatifs, il est préférable d'utiliser une approche de type PNL : décrivez en langage naturel ce que vous ne souhaitez pas

19KB

unsloth_qwen_image_edit_2511.json

Ouvrir

dans l'image. Empiler trop de mots-clés peut nuire aux résultats au lieu de les rendre plus spécifiques.

Au lieu de configurer le workflow depuis zéro, vous pouvez télécharger le workflow ici. Chargez-le dans la page du navigateur en cliquant sur le logo Comfy -> Fichier -> Ouvrir -> Puis choisissez le unsloth_qwen_image_2512.json

fichier que vous venez de télécharger. Il devrait ressembler à ce qui suit :

Ce workflow est basé sur le workflow officiel publié par ComfyUI sauf qu'il utilise l'extension de chargement GGUF, et il est simplifié pour illustrer la fonctionnalité de texte vers image.

#4. Inférence

ComfyUI est hautement personnalisable. Vous pouvez mélanger des modèles et créer des pipelines extrêmement complexes. Pour une configuration basique de texte vers image, nous devons charger le modèle, spécifier le prompt et les détails d'image, et décider d'une stratégie d'échantillonnage.

Téléverser les modèles + Définir le prompt Nous avons déjà téléchargé les modèles, donc nous devons juste choisir les bons. Pour Unet Loader choisissezqwen-image-2512-Q4_K_M.gguf , pour CLIPLoader choisissezQwen2.5-VL-7B-Instruct-UD-Q4_K_XL.gguf , et pour Load VAE choisissez.

Pour des résultats plus réalistes, évitez des mots-clés comme « photoréaliste » ou « rendu numérique » ou « rendu 3D » et utilisez plutôt des termes comme « photographie ».

qwen_image_vae.safetensors

Pour les prompts négatifs, il est préférable d'utiliser une approche de type PNL : décrivez en langage naturel ce que vous ne souhaitez pas

Vous pouvez définir n'importe quel prompt que vous souhaitez, et aussi spécifier un prompt négatif. Le prompt négatif aide en indiquant au modèle ce dont il doit s'éloigner.

Taille d'image + paramètres du sampler La série Qwen Image prend en charge différentes tailles d'image. Vous pouvez créer des formes rectangulaires en réglant les valeurs de largeur et hauteur. Pour les paramètres du sampler, vous pouvez expérimenter avec des samplers différents de euler, et plus ou moins d'étapes d'échantillonnage. Le workflow a les étapes réglées à 40, mais pour des tests rapides 20 peut suffire. Changez le contrôle après génération

paramètre de randomize à fixed si vous voulez voir comment différents réglages modifient les sorties.

Exécuter

Cliquez sur Exécuter et une image sera générée en environ 1 minute (30 secondes pour 20 étapes). Cette image de sortie peut être sauvegardée. La partie intéressante est que les métadonnées de l'ensemble du workflow comfy sont sauvegardées dans l'image. Vous pouvez partager et n'importe qui peut voir comment elle a été créée en la chargeant dans l'UI.

Si vous rencontrez des images floues/mauvaises, augmentez shift à 12-13 ! résout la plupart des problèmes d'images de mauvaise qualité.

Génération multi-références Une fonctionnalité clé de Qwen-Image-Edit-2511 est la génération multi-références où vous pouvez fournir plusieurs images pour aider à contrôler la génération. Cette fois chargez leunsloth_qwen_image_edit_2511.json Nous avons déjà téléchargé les modèles, donc nous devons juste choisir les bons. Pour Unet Loader choisissez . Nous utiliserons la plupart des mêmes modèles mais en changeant pour qwen-image-edit-2511-Q4_K_M.gguf pour l'unet. L'autre différence cette fois est l'ajout de nœuds supplémentaires pour sélectionner les images de référence, que nous avons téléchargées plus tôt. Vous remarquerez que le prompt fait référence à la fois à image 1 et image 2

Résultat final réalisé à partir des images à droite :🤗 D

iffusers Tutoriel Nous avons également téléversé une version quantifiée Dynamic 4-bit BitsandBytes qui peut être exécutée avec la bibliothèque diffusers

paramètre de randomize à fixed si vous voulez voir comment différents réglages modifient les sorties. de Hugging Face. Encore une fois, elle utilise Unsloth Dynamic où les couches importantes sont relevées à une précision supérieure. Qwen-Image-2512-unsloth-bnb-4bit

avec le code ci-dessous :
from diffusers import DiffusionPipeline

import torch
    pipe = DiffusionPipeline.from_pretrained(
    "unsloth/Qwen-Image-2512-unsloth-bnb-4bit",
torch_dtype=torch.bfloat16,

).to('cuda')
# décommentez si vous manquez de mémoire 

# pipe.enable_model_cpu_offload()
    output = pipe(
    prompt="un paresseux kawaii jouant de la batterie",
    negative_prompt="flou, hors de focus",
    num_inference_steps=20,
)

true_cfg_scale=4.0,
# Sauvegarder la sortie
image = output.images[0]

image.save('sample.png') 🎨

Tutoriel stable-diffusion.cpp Si vous souhaitez exécuter le modèle dans stable-diffusion.cpp, vous pouvez suivre notre guide pas à pas ici.

PrécédentNVIDIA Nemotron 3 Nano Suivantstable-diffusion.cpp Tutorial

Mis à jour il y a 1 mois

Ce contenu vous a-t-il été utile ?

hashtag📖 Tutoriel ComfyUI

hashtag#1. Installation & Configuration

hashtag#2. Télécharger les modèles

hashtag#3. Workflow et hyperparamètres

hashtagCe workflow est basé sur le workflow officiel publié par ComfyUI sauf qu'il utilise l'extension de chargement GGUF, et il est simplifié pour illustrer la fonctionnalité de texte vers image.

hashtagVous pouvez définir n'importe quel prompt que vous souhaitez, et aussi spécifier un prompt négatif. Le prompt négatif aide en indiquant au modèle ce dont il doit s'éloigner.

hashtagparamètre de randomize à fixed si vous voulez voir comment différents réglages modifient les sorties.

hashtagSi vous rencontrez des images floues/mauvaises, augmentez shift à 12-13 ! résout la plupart des problèmes d'images de mauvaise qualité.

hashtagRésultat final réalisé à partir des images à droite :🤗 D

hashtagimage.save('sample.png') 🎨

📖 Tutoriel ComfyUI

#1. Installation & Configuration

#2. Télécharger les modèles

#3. Workflow et hyperparamètres

Ce workflow est basé sur le workflow officiel publié par ComfyUI sauf qu'il utilise l'extension de chargement GGUF, et il est simplifié pour illustrer la fonctionnalité de texte vers image.

Vous pouvez définir n'importe quel prompt que vous souhaitez, et aussi spécifier un prompt négatif. Le prompt négatif aide en indiquant au modèle ce dont il doit s'éloigner.

paramètre de randomize à fixed si vous voulez voir comment différents réglages modifient les sorties.

Si vous rencontrez des images floues/mauvaises, augmentez shift à 12-13 ! résout la plupart des problèmes d'images de mauvaise qualité.

Résultat final réalisé à partir des images à droite :🤗 D

image.save('sample.png') 🎨