🎨Exécuter Qwen-Image-2512 dans stable-diffusion.cpp Tutoriel

Tutoriel pour utiliser Qwen-Image-2512 dans stable-diffusion.cpp.

Qwen-Image-2512 est le nouveau modèle fondamental de Qwen de texte en image et vous pouvez désormais l'exécuter sur votre appareil local via stable-diffusion.cpp. Voir ci‑dessous pour les instructions :

📖 Tutoriel stable-diffusion.cpp

stable-diffusion.cpp est une bibliothèque open-source pour l'inférence efficace et locale de modèles d'image par diffusion écrite en pur C/C++.

Pour l'exécuter, vous n'avez pas besoin d'un GPU, un CPU avec de la RAM suffit. Pour de meilleurs résultats, assurez-vous que votre mémoire totale utilisable (RAM + VRAM / unifiée) est supérieure à la taille GGUF ; par exemple 4 bits (Q4_K_M) unsloth/Qwen-Image-Edit-2512-GGUF fait 13,1 Go, donc vous devriez avoir 13,2+ Go de mémoire combinée.

Le tutoriel se concentrera sur les machines disposant de CUDA, mais les instructions pour compiler sur Apple ou uniquement CPU sont similaires et disponibles dans le dépôt.

#1. Configurer l'environnement

Nous allons construire à partir des sources, donc nous devons d'abord nous assurer que vos outils de compilation sont installés

sudo apt update
sudo apt install -y git cmake build-essential pkg-config

Page des Releases peut proposer des binaires précompilés pour votre matériel si vous ne souhaitez pas passer par le processus de compilation.

Assurez-vous que les variables d'environnement CUDA sont définies :

export CUDA_HOME=/usr/local/cuda
export PATH="$CUDA_HOME/bin:$PATH"
export LD_LIBRARY_PATH="$CUDA_HOME/lib64:${LD_LIBRARY_PATH:-}"

Vous pouvez vérifier si elles sont correctement définies en exécutant :

nvcc --version  // si non trouvé, installez nvidia-cuda-toolkit
ldconfig -p | grep -E 'libcudart\.so|libcublas\.so'

Nous pouvons maintenant cloner le dépôt et construire :

git clone --recursive https://github.com/leejet/stable-diffusion.cpp
cd stable-diffusion.cpp

mkdir -p build
cd build

cmake .. -DCMAKE_BUILD_TYPE=Release -DSD_CUDA=ON
cmake --build . -j"$(nproc)"

Confirmez que sd-cli a été construit :

ls bin/sd-cli

#2. Télécharger les modèles

Les modèles de diffusion nécessitent généralement 3 composants. Un Variational AutoEncoder (VAE) qui encode l'espace des pixels d'image en espace latent, un encodeur de texte pour traduire le texte en embeddings d'entrée, et le transformeur de diffusion lui‑même. Le modèle de diffusion et l'encodeur de texte peuvent être au format GGUF tandis que nous utilisons généralement safetensors pour le VAE. Téléchargeons les modèles que nous allons utiliser :

cd .. 
mkdir models
mkdir outputs

## Modèles de diffusion
curl -L -C - -o models/qwen-image-2512-Q4_K_M.gguf \
  https://huggingface.co/unsloth/Qwen-Image-2512-GGUF/resolve/main/qwen-image-2512-Q4_K_M.gguf
curl -L -C - -o models/qwen-image-edit-2511-Q4_K_M.gguf \
  https://huggingface.co/unsloth/Qwen-Image-Edit-2511-GGUF/resolve/main/qwen-image-edit-2511-Q4_K_M.gguf
 
## Encodeur de texte + VAE   
curl -L -C - -o models/Qwen2.5-VL-7B-Instruct-UD-Q4_K_XL.gguf \
  https://huggingface.co/unsloth/Qwen2.5-VL-7B-Instruct-GGUF/resolve/main/Qwen2.5-VL-7B-Instruct-UD-Q4_K_XL.gguf
curl -L -C - -o models/qwen_image_vae.safetensors \
  https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/resolve/main/split_files/vae/qwen_image_vae.safetensors

Nous utilisons des variantes Q4 GGUF, mais vous pouvez essayer des quantifications plus petites ou plus grandes selon la quantité de VRAM/RAM dont vous disposez.

Le format du VAE et du modèle de diffusion peut être différent des checkpoints diffusers. N'utilisez que des checkpoints compatibles avec stable-diffusion.cpp et ComfyUI.

Workflow et hyperparamètres

Vous pouvez consulter notre documentation détaillée Run GGUFs in ComfyUI Guide.

#3. Inférence

Nous pouvons maintenant exécuter le binaire que nous avons construit. Voici un exemple de commande de base pour passer de texte à image :

./build/bin/sd-cli --diffusion-model models/qwen-image-2512-Q4_K_M.gguf \
    --vae models/qwen_image_vae.safetensors \
    --llm models/Qwen2.5-VL-7B-Instruct-UD-Q4_K_XL.gguf \
    --cfg-scale 2.5 --sampling-method euler -v --steps 40 \
    -H 1024 -W 1024 --diffusion-fa --flow-shift 3 \
    -p 'Photographie aérienne par drone d'un vaste champ de fleurs sauvages jaune vif avec le texte "Unsloth + Diffusion" épelé en fleurs lavande violet profond, contraste net entre le jaune et le violet, formes de lettres organiques et naturelles formées par des parterres de fleurs, lumière de l'heure dorée, paysage de campagne vallonné, perspective en haute altitude regardant directement vers le bas, photoréaliste, résolution 8K'  \
    --offload-to-cpu -o outputs/unsloth_diffusion.png

Pas besoin de --offload-to-cpu si vous avez suffisamment de VRAM.

PrécédentQwen-Image-2512 SuivantFunctionGemma

Mis à jour il y a 1 mois

Ce contenu vous a-t-il été utile ?

hashtag📖 Tutoriel stable-diffusion.cpp

hashtag#1. Configurer l'environnement

hashtag#2. Télécharger les modèles

hashtagWorkflow et hyperparamètres

hashtag#3. Inférence

📖 Tutoriel stable-diffusion.cpp

#1. Configurer l'environnement

#2. Télécharger les modèles

Workflow et hyperparamètres

#3. Inférence