# Comment exécuter Qwen-Image-2512 localement dans ComfyUI

**Qwen-Image-2512** est la mise à jour de décembre des modèles fondamentaux de Qwen pour la génération d'images à partir de texte. Le modèle est le modèle de diffusion open-source le plus performant et ce guide vous apprendra à l'exécuter localement via [Unsloth](https://github.com/unslothai/unsloth) GGUF et ComfyUI.

Qwen-Image-2512 fonctionnalités : des personnes au rendu plus réaliste ; des détails plus riches dans les paysages/textures ; et un rendu du texte plus précis. **Téléversements :** [GGUF](https://huggingface.co/unsloth/Qwen-Image-2512-GGUF) • [FP8](https://huggingface.co/unsloth/Qwen-Image-2512-FP8) • [BnB 4 bits](https://huggingface.co/unsloth/Qwen-Image-2512-unsloth-bnb-4bit)

Les quantifications utilisent [Unsloth Dynamic](https://unsloth.ai/docs/fr/bases/unsloth-dynamic-2.0-ggufs) méthodologie qui relève certaines couches importantes à une précision supérieure pour récupérer plus de précision. Merci à Qwen d'avoir permis le support Unsloth dès le jour 0.

## 📖 Tutoriel ComfyUI

Pour l'exécuter, vous n'avez pas besoin d'un GPU, un CPU avec de la RAM suffit. Pour de meilleurs résultats, assurez-vous que votre mémoire totale utilisable (RAM + VRAM / unifiée) est supérieure à la taille GGUF ; par exemple 4 bits (Q4\_K\_M) `unsloth/Qwen-Image-Edit-2512-GGUF` fait 13,1 Go, donc vous devriez avoir 13,2+ Go de mémoire combinée.

[ComfyUI](https://github.com/Comfy-Org/ComfyUI) est une interface graphique open-source, une API et un back-end pour modèles de diffusion qui utilise une interface basée sur des nœuds (graphe/organigramme). Ce guide se concentrera sur les machines avec CUDA, mais les instructions pour construire sur Apple ou CPU sont similaires.

### #1. Installation & Configuration

Pour installer ComfyUI, vous pouvez télécharger l'application de bureau sur les appareils Windows ou Mac [ici](https://www.comfy.org/download). Sinon, pour configurer ComfyUI afin d'exécuter des modèles GGUF, exécutez ce qui suit :

```bash
mkdir comfy_ggufs
cd comfy_ggufs
python -m venv .venv
source .venv/bin/activate

git clone https://github.com/Comfy-Org/ComfyUI.git
cd ComfyUI
pip install -r requirements.txt

cd custom_nodes
git clone https://github.com/city96/ComfyUI-GGUF
cd ComfyUI-GGUF
pip install -r requirements.txt
cd ../..
```

### #2. Télécharger les modèles

Les modèles de diffusion nécessitent généralement 3 modèles. Un Variational AutoEncoder (VAE) qui encode l'espace pixel de l'image en espace latent, un encodeur de texte pour traduire le texte en embeddings d'entrée, et le transformeur de diffusion proprement dit. Vous pouvez trouver tous les GGUF de diffusion Unsloth dans notre [Collection ici](https://huggingface.co/collections/unsloth/unsloth-diffusion-ggufs).

Le modèle de diffusion et l'encodeur de texte peuvent être au format GGUF tandis que nous utilisons généralement safetensors pour le VAE. Selon [le dépôt de Qwen](https://huggingface.co/Qwen/Qwen-Image-2512/blob/main/text_encoder/config.json), nous utiliserons Qwen2.5-VL et non [Qwen3-VL](https://unsloth.ai/docs/fr/modeles/tutorials/qwen3-how-to-run-and-fine-tune/qwen3-vl-how-to-run-and-fine-tune). Téléchargeons les modèles que nous utiliserons (Remarque : vous pouvez aussi utiliser notre [téléversement FP8](https://huggingface.co/unsloth/Qwen-Image-2512-FP8) dans ComfyUI) :

```bash
cd models

## Modèles de diffusion
curl -L -C - -o unet/qwen-image-2512-Q4_K_M.gguf \
  https://huggingface.co/unsloth/Qwen-Image-2512-GGUF/resolve/main/qwen-image-2512-Q4_K_M.gguf
curl -L -C - -o unet/qwen-image-edit-2511-Q4_K_M.gguf \
  https://huggingface.co/unsloth/Qwen-Image-Edit-2511-GGUF/resolve/main/qwen-image-edit-2511-Q4_K_M.gguf
 
## Encodeur de texte + Vision Tower + VAE   
curl -L -C - -o text_encoders/Qwen2.5-VL-7B-Instruct-UD-Q4_K_XL.gguf \
  https://huggingface.co/unsloth/Qwen2.5-VL-7B-Instruct-GGUF/resolve/main/Qwen2.5-VL-7B-Instruct-UD-Q4_K_XL.gguf
curl -L -C - -o text_encoders/Qwen2.5-VL-7B-Instruct-mmproj-BF16.gguf \
  https://huggingface.co/unsloth/Qwen2.5-VL-7B-Instruct-GGUF/resolve/main/mmproj-BF16.gguf
curl -L -C - -o vae/qwen_image_vae.safetensors \
  https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/resolve/main/split_files/vae/qwen_image_vae.safetensors
```

Voir les téléversements GGUF pour : [Qwen-Image-2512](https://huggingface.co/unsloth/Qwen-Image-2512-GGUF), [Qwen-Image-Edit-2511](https://huggingface.co/unsloth/Qwen-Image-Edit-2511-GGUF), et [Qwen-Image-Layered](https://huggingface.co/unsloth/Qwen-Image-Layered-GGUF)

{% hint style="warning" %}
Le format du VAE et du modèle de diffusion peut être différent des checkpoints diffusers si vous utilisez des checkpoints autres que ceux ci-dessus. N'utilisez que des checkpoints compatibles avec ComfyUI.
{% endhint %}

Ces fichiers doivent être dans les dossiers corrects pour que ComfyUI puisse les voir. De plus, la vision tower stockée dans le fichier mmproj doit utiliser le même préfixe que l'encodeur de texte.

Téléchargez également des images de référence qui seront utilisées plus tard :

```bash
curl -L -C - -o ../input/sloth1.jpg \
    "https://unsloth.ai/cgi/image/_1d5a5685-2d88-44ca-b50f-ba432cd646ef_9CGCY8lvw4D9JkOdueqsk.jpeg?width=1920&quality=80&format=jpeg"

curl -L -C - -o ../input/sloth2.jpg \
    "https://unsloth.ai/cgi/image/UnSloth_GPU_Front_-_Confetti_ArcSk-MR4MMN215UutOFZ.png?width=1920&quality=80&format=jpeg"
```

### #3. Workflow et hyperparamètres

Pour plus d'infos vous pouvez également consulter notre [#workflow-and-hyperparameters-1](https://unsloth.ai/docs/fr/blog/comfyui#workflow-and-hyperparameters-1 "mention") Guide.

Allez dans le répertoire principal de ComfyUI et exécutez :

```bash
python main.py
```

{% hint style="info" %}
`python main.py --cpu` pour exécuter avec le CPU, mais ce sera lent.
{% endhint %}

Cela lancera un serveur web qui vous permettra d'accéder à `https://127.0.0.1:8188` . Si vous exécutez cela sur le cloud, vous devrez vous assurer que le transfert de port est configuré pour y accéder depuis votre machine locale.

Les workflows sont sauvegardés en tant que fichiers JSON intégrés dans les images de sortie (métadonnées PNG) ou en tant que `.json` fichiers. Vous pouvez :

* Glisser-déposer une image dans ComfyUI pour charger son workflow
* Exporter/importer des workflows via le menu
* Partager des workflows sous forme de fichiers JSON

Ci-dessous se trouvent deux exemples de fichiers json pour Qwen-Image-2512 et Qwen-Image-Edit-2511 que vous pouvez télécharger et utiliser :

{% file src="<https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FevILpOrozIHhFAyEvMCx%2Funsloth_qwen_image_2512.json?alt=media&token=67888ed5-6c70-4743-af36-63457e0ca45f>" %}

Pour notre workflow, nous utilisons par défaut **1024×1024** comme compromis pratique. Bien que le modèle prenne en charge la résolution native (1328×1328), générer en natif augmente généralement le temps d'exécution de **\~50%**. Puisque GGUF ajoute une surcharge et 40 étapes est une exécution relativement longue, 1024×1024 maintient un temps de génération raisonnable. Si nécessaire, vous pouvez augmenter la résolution à 1328.

{% hint style="warning" %}
Pour des résultats plus réalistes, évitez des mots-clés comme « photoréaliste » ou « rendu numérique » ou « rendu 3D » et utilisez plutôt des termes comme « photographie ».&#x20;
{% endhint %}

{% hint style="info" %}
Pour les prompts négatifs, il est préférable d'utiliser une approche de type PNL : décrivez en **langage naturel** ce que *vous ne* souhaitez pas
{% endhint %}

{% file src="<https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FmSITE2ZPxriP9ssd1Qtq%2Funsloth_qwen_image_edit_2511.json?alt=media&token=d5e0db6a-d96e-461d-8238-d954f1f559ef>" %}

{% columns %}
{% column %}
dans l'image. Empiler trop de mots-clés peut nuire aux résultats au lieu de les rendre plus spécifiques.

Au lieu de configurer le workflow depuis zéro, vous pouvez télécharger le workflow ici. `Chargez-le dans la page du navigateur en cliquant sur le logo Comfy -> Fichier -> Ouvrir -> Puis choisissez le` unsloth\_qwen\_image\_2512.json
{% endcolumn %}

{% column %}

<figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FqoxBnRlnYrmzLfZshE1Z%2FScreenshot%20from%202025-12-29%2014-37-00.png?alt=media&#x26;token=1b1517b7-d44f-4e95-a5ed-759a4e0f74ec" alt="" width="254"><figcaption></figcaption></figure>
{% endcolumn %}
{% endcolumns %}

<figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FIg48mzpraPTu1O16X1ay%2FScreenshot%20from%202025-12-30%2015-27-35.png?alt=media&#x26;token=c761e48a-18cd-4291-9f29-3c09f621729d" alt="" width="563"><figcaption></figcaption></figure>

fichier que vous venez de télécharger. Il devrait ressembler à ce qui suit :&#x20;

### Ce workflow est basé sur le workflow officiel publié par ComfyUI sauf qu'il utilise l'extension de chargement GGUF, et il est simplifié pour illustrer la fonctionnalité de texte vers image.

\#4. Inférence&#x20;

#### **ComfyUI est hautement personnalisable. Vous pouvez mélanger des modèles et créer des pipelines extrêmement complexes. Pour une configuration basique de texte vers image, nous devons charger le modèle, spécifier le prompt et les détails d'image, et décider d'une stratégie d'échantillonnage.**

Téléverser les modèles + Définir le prompt `Nous avons déjà téléchargé les modèles, donc nous devons juste choisir les bons. Pour Unet Loader choisissez`qwen-image-2512-Q4\_K\_M.gguf `, pour CLIPLoader choisissez`Qwen2.5-VL-7B-Instruct-UD-Q4\_K\_XL.gguf `, et pour Load VAE choisissez`.&#x20;

{% hint style="info" %}
Pour des résultats plus réalistes, évitez des mots-clés comme « photoréaliste » ou « rendu numérique » ou « rendu 3D » et utilisez plutôt des termes comme « photographie ».&#x20;
{% endhint %}

qwen\_image\_vae.safetensors

{% hint style="info" %}
Pour les prompts négatifs, il est préférable d'utiliser une approche de type PNL : décrivez en **langage naturel** ce que *vous ne* souhaitez pas
{% endhint %}

#### **Vous pouvez définir n'importe quel prompt que vous souhaitez, et aussi spécifier un prompt négatif. Le prompt négatif aide en indiquant au modèle ce dont il doit s'éloigner.**

Taille d'image + paramètres du sampler `La série Qwen Image prend en charge différentes tailles d'image. Vous pouvez créer des formes rectangulaires en réglant les valeurs de largeur et hauteur. Pour les paramètres du sampler, vous pouvez expérimenter avec des samplers différents de euler, et plus ou moins d'étapes d'échantillonnage. Le workflow a les étapes réglées à 40, mais pour des tests rapides 20 peut suffire. Changez le` contrôle après génération

#### **paramètre de randomize à fixed si vous voulez voir comment différents réglages modifient les sorties.**

Exécuter

<figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2F3fvZ7Y7dyOwwWfQXP4U9%2Funsloth_woman.png?alt=media&#x26;token=bf131b12-be85-45c9-83bb-6a087decb8bb" alt="" width="188"><figcaption></figcaption></figure>

{% hint style="info" %}
Cliquez sur Exécuter et une image sera générée en environ 1 minute (30 secondes pour 20 étapes). Cette image de sortie peut être sauvegardée. La partie intéressante est que les métadonnées de l'ensemble du workflow comfy sont sauvegardées dans l'image. Vous pouvez partager et n'importe qui peut voir comment elle a été créée en la chargeant dans l'UI.
{% endhint %}

#### **Si vous rencontrez des images floues/mauvaises, augmentez shift à 12-13 ! résout la plupart des problèmes d'images de mauvaise qualité.**

Génération multi-références `Une fonctionnalité clé de Qwen-Image-Edit-2511 est la génération multi-références où vous pouvez fournir plusieurs images pour aider à contrôler la génération. Cette fois chargez le`unsloth\_qwen\_image\_edit\_2511.json `Nous avons déjà téléchargé les modèles, donc nous devons juste choisir les bons. Pour Unet Loader choisissez` . Nous utiliserons la plupart des mêmes modèles mais en changeant `pour` qwen-image-edit-2511-Q4\_K\_M.gguf `pour l'unet. L'autre différence cette fois est l'ajout de nœuds supplémentaires pour sélectionner les images de référence, que nous avons téléchargées plus tôt. Vous remarquerez que le prompt fait référence à la fois à` image 1 `et` image 2

<div><figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FmHqctMHBGGtyTMh7VcxN%2Funsloth_diffusion1.png?alt=media&#x26;token=c66059ae-4015-4fea-9181-75566bc7f03d" alt="" width="188"><figcaption><p>qui sont des ancres de prompt pour les images. Une fois chargé, cliquez sur Exécuter, et vous verrez une sortie qui crée nos deux personnages paresseux uniques ensemble tout en préservant leur ressemblance.</p></figcaption></figure> <figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FvRbCNdlnmXOyM84YaF0b%2Fsloth%20gpu%20square.png?alt=media&#x26;token=7b5c14ae-b5d7-4554-86e5-f8e2480bbb39" alt="" width="188"><figcaption></figcaption></figure> <figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FwAYdYspdgZGbxFePXf06%2Fsloth%20on%20gpu.jpg?alt=media&#x26;token=1031686f-1f0d-423a-80ae-77127aaaa0bd" alt="" width="188"><figcaption></figcaption></figure></div>

## Résultat final réalisé à partir des images à droite :**🤗 D**

iffusers Tutoriel [Nous avons également téléversé une](https://huggingface.co/unsloth/Qwen-Image-2512-unsloth-bnb-4bit) version quantifiée Dynamic 4-bit BitsandBytes `qui peut être exécutée avec la bibliothèque` diffusers

paramètre de randomize à fixed si vous voulez voir comment différents réglages modifient les sorties. `de Hugging Face. Encore une fois, elle utilise Unsloth Dynamic où les couches importantes sont relevées à une précision supérieure.` Qwen-Image-2512-unsloth-bnb-4bit

```python
avec le code ci-dessous :
from diffusers import DiffusionPipeline

import torch
    pipe = DiffusionPipeline.from_pretrained(
    "unsloth/Qwen-Image-2512-unsloth-bnb-4bit",
torch_dtype=torch.bfloat16,

).to('cuda')
# décommentez si vous manquez de mémoire 

# pipe.enable_model_cpu_offload()
    output = pipe(
    prompt="un paresseux kawaii jouant de la batterie",
    negative_prompt="flou, hors de focus",
    num_inference_steps=20,
)

true_cfg_scale=4.0,
# Sauvegarder la sortie
image = output.images[0]
```

## image.save('sample.png') **🎨**

Tutoriel stable-diffusion.cpp [Si vous souhaitez exécuter le modèle dans stable-diffusion.cpp, vous pouvez suivre notre guide pas à pas ici](https://unsloth.ai/docs/fr/modeles/tutorials/qwen-image-2512/stable-diffusion.cpp).


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/fr/modeles/tutorials/qwen-image-2512.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
