🎨Qwen-Image-2512 in stable-diffusion.cpp ausführen - Tutorial

Tutorial zur Verwendung von Qwen-Image-2512 in stable-diffusion.cpp.

Qwen-Image-2512 ist Qwens neues Text-zu-Bild-Grundlagenmodell und Sie können es jetzt lokal auf Ihrem Gerät über stable-diffusion.cpp ausführen. Siehe unten für Anweisungen:

📖 stable-diffusion.cpp Tutorial

stable-diffusion.cpparrow-up-right ist eine Open-Source-Bibliothek für effiziente und lokale Inferenz von Diffusions-Bildmodellen, geschrieben in reinem C/C++.

Zum Ausführen benötigen Sie keine GPU, ein CPU-System mit RAM reicht aus. Für beste Ergebnisse stellen Sie sicher, dass Ihr insgesamt nutzbarer Speicher (RAM + VRAM / unified) größer ist als die GGUF-Größe; z. B. 4-Bit (Q4_K_M) unsloth/Qwen-Image-Edit-2512-GGUF ist 13,1 GB groß, daher sollten Sie 13,2+ GB kombinierten Speicher haben.

Das Tutorial konzentriert sich auf Maschinen mit verfügbarem CUDA, aber Anweisungen zum Bauen auf Apple oder nur mit CPU sind ähnlich und im Repository verfügbar.

#1. Umgebung einrichten

Wir werden aus dem Quellcode bauen, daher müssen wir zuerst sicherstellen, dass Ihre Build-Software installiert ist

sudo apt update
sudo apt install -y git cmake build-essential pkg-config
circle-info

Releases-Seitearrow-up-right könnte vorgefertigte Binärdateien für Ihre Hardware bereitstellen, falls Sie den Build-Prozess nicht durchlaufen möchten.

Stellen Sie sicher, dass die CUDA-Umgebungsvariablen gesetzt sind:

export CUDA_HOME=/usr/local/cuda
export PATH="$CUDA_HOME/bin:$PATH"
export LD_LIBRARY_PATH="$CUDA_HOME/lib64:${LD_LIBRARY_PATH:-}"

Sie können bestätigen, ob sie korrekt gesetzt sind, indem Sie ausführen:

nvcc --version  // wenn nicht gefunden, nvidia-cuda-toolkit installieren
ldconfig -p | grep -E 'libcudart\.so|libcublas\.so'

Wir können jetzt das Repo klonen und bauen:

Bestätigen Sie, dass sd-cli gebaut wurde:

#2. Modelle herunterladen

Diffusionsmodelle benötigen typischerweise 3 Komponenten. Einen Variational AutoEncoder (VAE), der den Bildpixelraum in den Latentraum kodiert, einen Text-Encoder, um Text in Eingabe-Embeddings zu übersetzen, und den eigentlichen Diffusions-Transformer. Sowohl das Diffusionsmodell als auch der Text-Encoder können im GGUF-Format vorliegen, während wir typischerweise safetensors für das VAE verwenden. Laden wir die Modelle herunter, die wir verwenden werden:

Wir verwenden Q4 GGUF-Varianten, aber Sie können je nach verfügbarem VRAM/RAM kleinere oder größere Quantisierungstypen ausprobieren.

circle-exclamation

Workflow und Hyperparameter

Sie können unsere detaillierten Run GGUFs in ComfyUI Anleitung.

#3. Inferenz

Wir können jetzt die Binärdatei ausführen, die wir gebaut haben. Dies ist ein Beispiel für einen einfachen Text-zu-Bild-Befehl:

circle-check

Zuletzt aktualisiert

War das hilfreich?