💟Wie man Qwen-Image-2512 lokal in ComfyUI ausführt
Schritt-für-Schritt-Tutorial zum Ausführen von Qwen-Image-2512 auf deinem lokalen Gerät mit ComfyUI.
Qwen-Image-2512 ist das Dezember-Update der text-zu-bild Grundlagenmodelle von Qwen. Das Modell ist das leistungsstärkste Open-Source-Diffusionsmodell und diese Anleitung zeigt Ihnen, wie Sie es lokal über Unsloth GGUF und ComfyUI ausführen.
Qwen-Image-2512 Funktionen: realistischere Personen; reichere Details in Landschaften/Texturen; und genauere Textdarstellung. Uploads: GGUF • FP8 • 4-Bit BnB
Die Quantisierungen verwenden Unsloth Dynamic Methodik, die wichtige Schichten in höhere Genauigkeit hochwandelt, um mehr Genauigkeit wiederherzustellen. Danke an Qwen für die Unsloth Day-0-Unterstützung.
📖 ComfyUI-Anleitung
Zum Ausführen benötigen Sie keine GPU, ein CPU-System mit RAM reicht aus. Für beste Ergebnisse stellen Sie sicher, dass Ihr insgesamt nutzbarer Speicher (RAM + VRAM / unified) größer ist als die GGUF-Größe; z. B. 4-Bit (Q4_K_M) unsloth/Qwen-Image-Edit-2512-GGUF ist 13,1 GB groß, daher sollten Sie 13,2+ GB kombinierten Speicher haben.
ComfyUI ist eine Open-Source-GUI, API und Backend für Diffusionsmodelle, die eine nodenbasierte (Graph/Flussdiagramm) Schnittstelle verwendet. Diese Anleitung konzentriert sich auf Maschinen mit CUDA, aber Anleitungen zum Bauen auf Apple- oder CPU-Systemen sind ähnlich.
#1. Installation & Einrichtung
Um ComfyUI zu installieren, können Sie die Desktop-App für Windows- oder Mac-Geräte herunterladen hier. Andernfalls führen Sie zur Einrichtung von ComfyUI zum Ausführen von GGUF-Modellen Folgendes aus:
mkdir comfy_ggufs
cd comfy_ggufs
python -m venv .venv
source .venv/bin/activate
git clone https://github.com/Comfy-Org/ComfyUI.git
cd ComfyUI
pip install -r requirements.txt
cd custom_nodes
git clone https://github.com/city96/ComfyUI-GGUF
cd ComfyUI-GGUF
pip install -r requirements.txt
cd ../..#2. Modelle herunterladen
Diffusionsmodelle benötigen typischerweise 3 Modelle. Einen Variational AutoEncoder (VAE), der den Bildpixelraum in den latenten Raum kodiert, einen Textencoder, der Text in Eingabe-Embeddings übersetzt, und den eigentlichen Diffusions-Transformer. Sie finden alle Unsloth-Diffusions-GGUFs in unserer Sammlung hier.
Sowohl das Diffusionsmodell als auch der Textencoder können im GGUF-Format vorliegen, während wir typischerweise safetensors für das VAE verwenden. Laut Qwens Reposollten wir Qwen2.5-VL verwenden und nicht Qwen3-VL. Laden wir die Modelle herunter, die wir verwenden werden (Hinweis: Sie können auch unsere FP8-Upload in ComfyUI verwenden):
Siehe GGUF-Uploads für: Qwen-Image-2512, Qwen-Image-Edit-2511, und Qwen-Image-Layered
Das Format des VAE und des Diffusionsmodells kann sich von den Diffusers-Checkpoints unterscheiden, wenn andere Checkpoints als die oben genannten verwendet werden. Verwenden Sie nur Checkpoints, die mit ComfyUI kompatibel sind.
Diese Dateien müssen in den richtigen Ordnern liegen, damit ComfyUI sie sehen kann. Zusätzlich muss der im mmproj gespeicherte Vision Tower denselben Präfix wie der Textencoder verwenden.
Laden Sie Referenzbilder herunter, die später verwendet werden sollen:
#3. Workflow und Hyperparameter
Für mehr Informationen können Sie auch unsere ausführliche Run GGUFs in ComfyUI Anleitung.
Wechseln Sie in das Hauptverzeichnis von ComfyUI und führen Sie aus:
python main.py --cpu um mit der CPU auszuführen, das wird aber langsam sein.
Dies startet einen Webserver, der Ihnen Zugriff erlaubt auf https://127.0.0.1:8188 . Wenn Sie dies in der Cloud ausführen, müssen Sie sicherstellen, dass Portweiterleitung eingerichtet ist, um von Ihrer lokalen Maschine darauf zugreifen zu können.
Workflows werden als JSON-Dateien gespeichert, die in Ausgabebilder (PNG-Metadaten) eingebettet sind oder als separate .json Dateien. Sie können:
Ein Bild per Drag & Drop in ComfyUI ziehen, um dessen Workflow zu laden
Workflows über das Menü exportieren/importieren
Workflows als JSON-Dateien teilen
Unten sind zwei Beispiele für Qwen-Image-2512 und Qwen-Image-Edit-2511 JSON-Dateien, die Sie herunterladen und verwenden können:
Für unseren Workflow verwenden wir standardmäßig 1024×1024 als praktischen Mittelweg. Während das Modell native Auflösung (1328×1328) unterstützt, erhöht das Generieren in nativer Auflösung typischerweise die Laufzeit um ~50%. Da GGUF Overhead hinzufügt und 40 Schritte ein relativ langer Lauf sind, hält 1024×1024 die Generierungszeit vernünftig. Bei Bedarf können Sie die Auflösung auf 1328 erhöhen.
Für realistischere Ergebnisse vermeiden Sie Schlüsselwörter wie „fotorealistisch“ oder „digitale Darstellung“ oder „3D-Rendering“ und verwenden stattdessen Begriffe wie „Fotografie“.
Für negative Prompts ist es am besten, einen NLP-ähnlichen Ansatz zu verwenden: Beschreiben Sie in natürlicher Sprache was Sie nicht im Bild haben möchten. Zu viele Schlüsselwörter können die Ergebnisse verschlechtern, statt sie spezifischer zu machen.
Anstatt den Workflow von Grund auf neu einzurichten, können Sie den Workflow hier herunterladen.
Laden Sie ihn auf der Browserseite, indem Sie auf das Comfy-Logo -> Datei -> Öffnen klicken -> Wählen Sie dann die unsloth_qwen_image_2512.json Datei, die Sie gerade heruntergeladen haben. Es sollte wie unten aussehen:


Dieser Workflow basiert auf dem offiziell veröffentlichten ComfyUI-Workflow, verwendet jedoch die GGUF-Loader-Erweiterung und ist vereinfacht, um die Text-zu-Bild-Funktionalität zu veranschaulichen.
#4. Inferenz
ComfyUI ist hochgradig anpassbar. Sie können Modelle mischen und extrem komplexe Pipelines erstellen. Für eine grundlegende Text-zu-Bild-Konfiguration müssen wir das Modell laden, Prompt- und Bilddetails angeben und eine Sampling-Strategie festlegen.
Modelle hochladen + Prompt setzen
Wir haben die Modelle bereits heruntergeladen, daher müssen wir nur die richtigen auswählen. Für Unet Loader wählen Sie qwen-image-2512-Q4_K_M.gguf, für CLIPLoader wählen Sie Qwen2.5-VL-7B-Instruct-UD-Q4_K_XL.gguf, und für Load VAE wählen Sie qwen_image_vae.safetensors.
Für realistischere Ergebnisse vermeiden Sie Schlüsselwörter wie „fotorealistisch“ oder „digitale Darstellung“ oder „3D-Rendering“ und verwenden stattdessen Begriffe wie „Fotografie“.
Sie können jeden gewünschten Prompt setzen und auch einen negativen Prompt angeben. Der negative Prompt hilft, dem Modell Richtungen zu geben, wovon es sich fernhalten soll.
Für negative Prompts ist es am besten, einen NLP-ähnlichen Ansatz zu verwenden: Beschreiben Sie in natürlicher Sprache was Sie nicht im Bild haben möchten. Zu viele Schlüsselwörter können die Ergebnisse verschlechtern, statt sie spezifischer zu machen.
Bildgröße + Sampler-Parameter
Die Qwen-Image-Modellreihe unterstützt verschiedene Bildgrößen. Sie können rechteckige Formen erzeugen, indem Sie die Werte für Breite und Höhe setzen. Für Sampler-Parameter können Sie mit verschiedenen Samplern außer Euler experimentieren und mehr oder weniger Sampling-Schritte wählen. Der Workflow hat die Schritte auf 40 gesetzt, aber für schnelle Tests könnten 20 ausreichend sein. Ändern Sie die control after generate Einstellung von randomize auf fixed, wenn Sie sehen möchten, wie verschiedene Einstellungen die Ausgaben verändern.
Ausführen
Klicken Sie auf Ausführen und ein Bild wird in etwa 1 Minute erzeugt (30 Sekunden bei 20 Schritten). Dieses Ausgabebild kann gespeichert werden. Der interessante Teil ist, dass die Metadaten für den gesamten Comfy-Workflow im Bild gespeichert werden. Sie können es teilen und jeder kann sehen, wie es erstellt wurde, indem er es in der UI lädt.

Wenn Sie verschwommene/schlechte Bilder erhalten, erhöhen Sie shift auf 12–13! Das löst die meisten Probleme mit schlechten Ausgaben.
Mehrfach-Referenz-Generierung
Eine wichtige Funktion von Qwen-Image-Edit-2511 ist die Mehrfach-Referenz-Generierung, bei der Sie mehrere Bilder bereitstellen können, um die Generierung zu steuern. Laden Sie dieses Mal die unsloth_qwen_image_edit_2511.json. Wir werden die meisten der gleichen Modelle verwenden, wechseln jedoch qwen-image-2512-Q4_K_M.gguf zu qwen-image-edit-2511-Q4_K_M.gguf für das Unet. Der andere Unterschied sind dieses Mal zusätzliche Knoten, um Referenzbilder auszuwählen, die wir zuvor heruntergeladen haben. Sie werden bemerken, dass der Prompt sich sowohl auf Bild 1 als auch Bild 2 bezieht, welche als Prompt-Anker für die Bilder fungieren. Sobald geladen, klicken Sie auf Ausführen, und Sie sehen eine Ausgabe, die unsere zwei einzigartigen Faultier-Charaktere zusammen erstellt, während deren Ähnlichkeit bewahrt wird.



🤗 Diffusers-Anleitung
Wir haben außerdem eine dynamisch 4-Bit BitsandBytes quantisierte Version hochgeladen, die in Hugging Faces diffusers Bibliothek ausgeführt werden kann. Auch hier verwendet sie Unsloth Dynamic, bei dem wichtige Schichten in höhere Genauigkeit hochgewandelt werden.
Ausführen Qwen-Image-2512-unsloth-bnb-4bit mit dem folgenden Code:
🎨 stable-diffusion.cpp-Anleitung
Wenn Sie das Modell in stable-diffusion.cpp ausführen möchten, können Sie unserer Schritt-für-Schritt-Anleitung hier.
Zuletzt aktualisiert
War das hilfreich?

