🎨Exécuter Qwen-Image-2512 dans stable-diffusion.cpp Tutoriel

Tutoriel pour utiliser Qwen-Image-2512 dans stable-diffusion.cpp.

Qwen-Image-2512 est le nouveau modèle fondamental de Qwen de texte en image et vous pouvez désormais l'exécuter sur votre appareil local via stable-diffusion.cpp. Voir ci‑dessous pour les instructions :

📖 Tutoriel stable-diffusion.cpp

stable-diffusion.cpparrow-up-right est une bibliothèque open-source pour l'inférence efficace et locale de modèles d'image par diffusion écrite en pur C/C++.

Pour l'exécuter, vous n'avez pas besoin d'un GPU, un CPU avec de la RAM suffit. Pour de meilleurs résultats, assurez-vous que votre mémoire totale utilisable (RAM + VRAM / unifiée) est supérieure à la taille GGUF ; par exemple 4 bits (Q4_K_M) unsloth/Qwen-Image-Edit-2512-GGUF fait 13,1 Go, donc vous devriez avoir 13,2+ Go de mémoire combinée.

Le tutoriel se concentrera sur les machines disposant de CUDA, mais les instructions pour compiler sur Apple ou uniquement CPU sont similaires et disponibles dans le dépôt.

#1. Configurer l'environnement

Nous allons construire à partir des sources, donc nous devons d'abord nous assurer que vos outils de compilation sont installés

sudo apt update
sudo apt install -y git cmake build-essential pkg-config
circle-info

Page des Releasesarrow-up-right peut proposer des binaires précompilés pour votre matériel si vous ne souhaitez pas passer par le processus de compilation.

Assurez-vous que les variables d'environnement CUDA sont définies :

export CUDA_HOME=/usr/local/cuda
export PATH="$CUDA_HOME/bin:$PATH"
export LD_LIBRARY_PATH="$CUDA_HOME/lib64:${LD_LIBRARY_PATH:-}"

Vous pouvez vérifier si elles sont correctement définies en exécutant :

nvcc --version  // si non trouvé, installez nvidia-cuda-toolkit
ldconfig -p | grep -E 'libcudart\.so|libcublas\.so'

Nous pouvons maintenant cloner le dépôt et construire :

Confirmez que sd-cli a été construit :

#2. Télécharger les modèles

Les modèles de diffusion nécessitent généralement 3 composants. Un Variational AutoEncoder (VAE) qui encode l'espace des pixels d'image en espace latent, un encodeur de texte pour traduire le texte en embeddings d'entrée, et le transformeur de diffusion lui‑même. Le modèle de diffusion et l'encodeur de texte peuvent être au format GGUF tandis que nous utilisons généralement safetensors pour le VAE. Téléchargeons les modèles que nous allons utiliser :

Nous utilisons des variantes Q4 GGUF, mais vous pouvez essayer des quantifications plus petites ou plus grandes selon la quantité de VRAM/RAM dont vous disposez.

circle-exclamation

Workflow et hyperparamètres

Vous pouvez consulter notre documentation détaillée Run GGUFs in ComfyUI Guide.

#3. Inférence

Nous pouvons maintenant exécuter le binaire que nous avons construit. Voici un exemple de commande de base pour passer de texte à image :

circle-check

Mis à jour

Ce contenu vous a-t-il été utile ?