🎨Qwen-Image-2512 in stable-diffusion.cpp ausführen - Tutorial

Tutorial zur Verwendung von Qwen-Image-2512 in stable-diffusion.cpp.

Qwen-Image-2512 ist Qwens neues Text-zu-Bild-Grundlagenmodell und Sie können es jetzt lokal auf Ihrem Gerät über stable-diffusion.cpp ausführen. Siehe unten für Anweisungen:

📖 stable-diffusion.cpp Tutorial

stable-diffusion.cpp ist eine Open-Source-Bibliothek für effiziente und lokale Inferenz von Diffusions-Bildmodellen, geschrieben in reinem C/C++.

Zum Ausführen benötigen Sie keine GPU, ein CPU-System mit RAM reicht aus. Für beste Ergebnisse stellen Sie sicher, dass Ihr insgesamt nutzbarer Speicher (RAM + VRAM / unified) größer ist als die GGUF-Größe; z. B. 4-Bit (Q4_K_M) unsloth/Qwen-Image-Edit-2512-GGUF ist 13,1 GB groß, daher sollten Sie 13,2+ GB kombinierten Speicher haben.

Das Tutorial konzentriert sich auf Maschinen mit verfügbarem CUDA, aber Anweisungen zum Bauen auf Apple oder nur mit CPU sind ähnlich und im Repository verfügbar.

#1. Umgebung einrichten

Wir werden aus dem Quellcode bauen, daher müssen wir zuerst sicherstellen, dass Ihre Build-Software installiert ist

sudo apt update
sudo apt install -y git cmake build-essential pkg-config

Releases-Seite könnte vorgefertigte Binärdateien für Ihre Hardware bereitstellen, falls Sie den Build-Prozess nicht durchlaufen möchten.

Stellen Sie sicher, dass die CUDA-Umgebungsvariablen gesetzt sind:

export CUDA_HOME=/usr/local/cuda
export PATH="$CUDA_HOME/bin:$PATH"
export LD_LIBRARY_PATH="$CUDA_HOME/lib64:${LD_LIBRARY_PATH:-}"

Sie können bestätigen, ob sie korrekt gesetzt sind, indem Sie ausführen:

nvcc --version  // wenn nicht gefunden, nvidia-cuda-toolkit installieren
ldconfig -p | grep -E 'libcudart\.so|libcublas\.so'

Wir können jetzt das Repo klonen und bauen:

git clone --recursive https://github.com/leejet/stable-diffusion.cpp
cd stable-diffusion.cpp

mkdir -p build
cd build

cmake .. -DCMAKE_BUILD_TYPE=Release -DSD_CUDA=ON
cmake --build . -j"$(nproc)"

Bestätigen Sie, dass sd-cli gebaut wurde:

ls bin/sd-cli

#2. Modelle herunterladen

Diffusionsmodelle benötigen typischerweise 3 Komponenten. Einen Variational AutoEncoder (VAE), der den Bildpixelraum in den Latentraum kodiert, einen Text-Encoder, um Text in Eingabe-Embeddings zu übersetzen, und den eigentlichen Diffusions-Transformer. Sowohl das Diffusionsmodell als auch der Text-Encoder können im GGUF-Format vorliegen, während wir typischerweise safetensors für das VAE verwenden. Laden wir die Modelle herunter, die wir verwenden werden:

GPU_ARCHS="$ARCH" python3 setup.py install 
mkdir models
mkdir outputs

## Diffusionsmodelle
curl -L -C - -o models/qwen-image-2512-Q4_K_M.gguf \
  https://huggingface.co/unsloth/Qwen-Image-2512-GGUF/resolve/main/qwen-image-2512-Q4_K_M.gguf
curl -L -C - -o models/qwen-image-edit-2511-Q4_K_M.gguf \
  https://huggingface.co/unsloth/Qwen-Image-Edit-2511-GGUF/resolve/main/qwen-image-edit-2511-Q4_K_M.gguf
 
## Text-Encoder + VAE   
curl -L -C - -o models/Qwen2.5-VL-7B-Instruct-UD-Q4_K_XL.gguf \
  https://huggingface.co/unsloth/Qwen2.5-VL-7B-Instruct-GGUF/resolve/main/Qwen2.5-VL-7B-Instruct-UD-Q4_K_XL.gguf
curl -L -C - -o models/qwen_image_vae.safetensors \
  https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/resolve/main/split_files/vae/qwen_image_vae.safetensors

Wir verwenden Q4 GGUF-Varianten, aber Sie können je nach verfügbarem VRAM/RAM kleinere oder größere Quantisierungstypen ausprobieren.

Das Format des VAE und des Diffusionsmodells kann sich von den Diffusers-Checkpoints unterscheiden. Verwenden Sie nur Checkpoints, die mit stable-diffusion.cpp und ComfyUI kompatibel sind.

Workflow und Hyperparameter

Sie können unsere detaillierten Run GGUFs in ComfyUI Anleitung.

#3. Inferenz

Wir können jetzt die Binärdatei ausführen, die wir gebaut haben. Dies ist ein Beispiel für einen einfachen Text-zu-Bild-Befehl:

./build/bin/sd-cli --diffusion-model models/qwen-image-2512-Q4_K_M.gguf \
    --vae models/qwen_image_vae.safetensors \
    --llm models/Qwen2.5-VL-7B-Instruct-UD-Q4_K_XL.gguf \
    --cfg-scale 2.5 --sampling-method euler -v --steps 40 \
    -H 1024 -W 1024 --diffusion-fa --flow-shift 3 \
    -p 'Luftdrohnenfotografie eines weiten Feldes leuchtend gelber Wildblumen mit dem Text "Unsloth + Diffusion", geschrieben in tiefvioletten Lavendelfloren, starker Kontrast zwischen Gelb und Violett, natürliche organische Buchstabenformen gebildet durch Blumenbeete, Goldstunde-Beleuchtung, hügelige Landschaft, Perspektive aus großer Höhe direkt nach unten, fotorealistisch, 8K-Auflösung'  \
    --offload-to-cpu -o outputs/unsloth_diffusion.png

Nicht nötig für --offload-to-cpu wenn Sie genug VRAM haben.

VorherigeQwen-Image-2512 NächsteFunctionGemma

Zuletzt aktualisiert vor 1 Monat

War das hilfreich?

hashtag📖 stable-diffusion.cpp Tutorial

hashtag#1. Umgebung einrichten

hashtag#2. Modelle herunterladen

hashtagWorkflow und Hyperparameter

hashtag#3. Inferenz

📖 stable-diffusion.cpp Tutorial

#1. Umgebung einrichten

#2. Modelle herunterladen

Workflow und Hyperparameter

#3. Inferenz