💟Wie man Qwen-Image-2512 lokal in ComfyUI ausführt

Schritt-für-Schritt-Tutorial zum Ausführen von Qwen-Image-2512 auf deinem lokalen Gerät mit ComfyUI.

Qwen-Image-2512 ist das Dezember-Update der text-zu-bild Grundlagenmodelle von Qwen. Das Modell ist das leistungsstärkste Open-Source-Diffusionsmodell und diese Anleitung zeigt Ihnen, wie Sie es lokal über Unslotharrow-up-right GGUF und ComfyUI ausführen.

Qwen-Image-2512 Funktionen: realistischere Personen; reichere Details in Landschaften/Texturen; und genauere Textdarstellung. Uploads: GGUFarrow-up-rightFP8arrow-up-right4-Bit BnBarrow-up-right

Die Quantisierungen verwenden Unsloth Dynamic Methodik, die wichtige Schichten in höhere Genauigkeit hochwandelt, um mehr Genauigkeit wiederherzustellen. Danke an Qwen für die Unsloth Day-0-Unterstützung.

📖 ComfyUI-Anleitung

Zum Ausführen benötigen Sie keine GPU, ein CPU-System mit RAM reicht aus. Für beste Ergebnisse stellen Sie sicher, dass Ihr insgesamt nutzbarer Speicher (RAM + VRAM / unified) größer ist als die GGUF-Größe; z. B. 4-Bit (Q4_K_M) unsloth/Qwen-Image-Edit-2512-GGUF ist 13,1 GB groß, daher sollten Sie 13,2+ GB kombinierten Speicher haben.

ComfyUIarrow-up-right ist eine Open-Source-GUI, API und Backend für Diffusionsmodelle, die eine nodenbasierte (Graph/Flussdiagramm) Schnittstelle verwendet. Diese Anleitung konzentriert sich auf Maschinen mit CUDA, aber Anleitungen zum Bauen auf Apple- oder CPU-Systemen sind ähnlich.

#1. Installation & Einrichtung

Um ComfyUI zu installieren, können Sie die Desktop-App für Windows- oder Mac-Geräte herunterladen hierarrow-up-right. Andernfalls führen Sie zur Einrichtung von ComfyUI zum Ausführen von GGUF-Modellen Folgendes aus:

mkdir comfy_ggufs
cd comfy_ggufs
python -m venv .venv
source .venv/bin/activate

git clone https://github.com/Comfy-Org/ComfyUI.git
cd ComfyUI
pip install -r requirements.txt

cd custom_nodes
git clone https://github.com/city96/ComfyUI-GGUF
cd ComfyUI-GGUF
pip install -r requirements.txt
cd ../..

#2. Modelle herunterladen

Diffusionsmodelle benötigen typischerweise 3 Modelle. Einen Variational AutoEncoder (VAE), der den Bildpixelraum in den latenten Raum kodiert, einen Textencoder, der Text in Eingabe-Embeddings übersetzt, und den eigentlichen Diffusions-Transformer. Sie finden alle Unsloth-Diffusions-GGUFs in unserer Sammlung hierarrow-up-right.

Sowohl das Diffusionsmodell als auch der Textencoder können im GGUF-Format vorliegen, während wir typischerweise safetensors für das VAE verwenden. Laut Qwens Repoarrow-up-rightsollten wir Qwen2.5-VL verwenden und nicht Qwen3-VL. Laden wir die Modelle herunter, die wir verwenden werden (Hinweis: Sie können auch unsere FP8-Uploadarrow-up-right in ComfyUI verwenden):

Siehe GGUF-Uploads für: Qwen-Image-2512arrow-up-right, Qwen-Image-Edit-2511arrow-up-right, und Qwen-Image-Layeredarrow-up-right

circle-exclamation

Diese Dateien müssen in den richtigen Ordnern liegen, damit ComfyUI sie sehen kann. Zusätzlich muss der im mmproj gespeicherte Vision Tower denselben Präfix wie der Textencoder verwenden.

Laden Sie Referenzbilder herunter, die später verwendet werden sollen:

#3. Workflow und Hyperparameter

Für mehr Informationen können Sie auch unsere ausführliche Run GGUFs in ComfyUI Anleitung.

Wechseln Sie in das Hauptverzeichnis von ComfyUI und führen Sie aus:

circle-info

python main.py --cpu um mit der CPU auszuführen, das wird aber langsam sein.

Dies startet einen Webserver, der Ihnen Zugriff erlaubt auf https://127.0.0.1:8188 . Wenn Sie dies in der Cloud ausführen, müssen Sie sicherstellen, dass Portweiterleitung eingerichtet ist, um von Ihrer lokalen Maschine darauf zugreifen zu können.

Workflows werden als JSON-Dateien gespeichert, die in Ausgabebilder (PNG-Metadaten) eingebettet sind oder als separate .json Dateien. Sie können:

  • Ein Bild per Drag & Drop in ComfyUI ziehen, um dessen Workflow zu laden

  • Workflows über das Menü exportieren/importieren

  • Workflows als JSON-Dateien teilen

Unten sind zwei Beispiele für Qwen-Image-2512 und Qwen-Image-Edit-2511 JSON-Dateien, die Sie herunterladen und verwenden können:

Für unseren Workflow verwenden wir standardmäßig 1024×1024 als praktischen Mittelweg. Während das Modell native Auflösung (1328×1328) unterstützt, erhöht das Generieren in nativer Auflösung typischerweise die Laufzeit um ~50%. Da GGUF Overhead hinzufügt und 40 Schritte ein relativ langer Lauf sind, hält 1024×1024 die Generierungszeit vernünftig. Bei Bedarf können Sie die Auflösung auf 1328 erhöhen.

circle-exclamation
circle-info

Für negative Prompts ist es am besten, einen NLP-ähnlichen Ansatz zu verwenden: Beschreiben Sie in natürlicher Sprache was Sie nicht im Bild haben möchten. Zu viele Schlüsselwörter können die Ergebnisse verschlechtern, statt sie spezifischer zu machen.

Anstatt den Workflow von Grund auf neu einzurichten, können Sie den Workflow hier herunterladen.

Laden Sie ihn auf der Browserseite, indem Sie auf das Comfy-Logo -> Datei -> Öffnen klicken -> Wählen Sie dann die unsloth_qwen_image_2512.json Datei, die Sie gerade heruntergeladen haben. Es sollte wie unten aussehen:

Dieser Workflow basiert auf dem offiziell veröffentlichten ComfyUI-Workflow, verwendet jedoch die GGUF-Loader-Erweiterung und ist vereinfacht, um die Text-zu-Bild-Funktionalität zu veranschaulichen.

#4. Inferenz

ComfyUI ist hochgradig anpassbar. Sie können Modelle mischen und extrem komplexe Pipelines erstellen. Für eine grundlegende Text-zu-Bild-Konfiguration müssen wir das Modell laden, Prompt- und Bilddetails angeben und eine Sampling-Strategie festlegen.

Modelle hochladen + Prompt setzen

Wir haben die Modelle bereits heruntergeladen, daher müssen wir nur die richtigen auswählen. Für Unet Loader wählen Sie qwen-image-2512-Q4_K_M.gguf, für CLIPLoader wählen Sie Qwen2.5-VL-7B-Instruct-UD-Q4_K_XL.gguf, und für Load VAE wählen Sie qwen_image_vae.safetensors.

circle-info

Für realistischere Ergebnisse vermeiden Sie Schlüsselwörter wie „fotorealistisch“ oder „digitale Darstellung“ oder „3D-Rendering“ und verwenden stattdessen Begriffe wie „Fotografie“.

Sie können jeden gewünschten Prompt setzen und auch einen negativen Prompt angeben. Der negative Prompt hilft, dem Modell Richtungen zu geben, wovon es sich fernhalten soll.

circle-info

Für negative Prompts ist es am besten, einen NLP-ähnlichen Ansatz zu verwenden: Beschreiben Sie in natürlicher Sprache was Sie nicht im Bild haben möchten. Zu viele Schlüsselwörter können die Ergebnisse verschlechtern, statt sie spezifischer zu machen.

Bildgröße + Sampler-Parameter

Die Qwen-Image-Modellreihe unterstützt verschiedene Bildgrößen. Sie können rechteckige Formen erzeugen, indem Sie die Werte für Breite und Höhe setzen. Für Sampler-Parameter können Sie mit verschiedenen Samplern außer Euler experimentieren und mehr oder weniger Sampling-Schritte wählen. Der Workflow hat die Schritte auf 40 gesetzt, aber für schnelle Tests könnten 20 ausreichend sein. Ändern Sie die control after generate Einstellung von randomize auf fixed, wenn Sie sehen möchten, wie verschiedene Einstellungen die Ausgaben verändern.

Ausführen

Klicken Sie auf Ausführen und ein Bild wird in etwa 1 Minute erzeugt (30 Sekunden bei 20 Schritten). Dieses Ausgabebild kann gespeichert werden. Der interessante Teil ist, dass die Metadaten für den gesamten Comfy-Workflow im Bild gespeichert werden. Sie können es teilen und jeder kann sehen, wie es erstellt wurde, indem er es in der UI lädt.

circle-info

Wenn Sie verschwommene/schlechte Bilder erhalten, erhöhen Sie shift auf 12–13! Das löst die meisten Probleme mit schlechten Ausgaben.

Mehrfach-Referenz-Generierung

Eine wichtige Funktion von Qwen-Image-Edit-2511 ist die Mehrfach-Referenz-Generierung, bei der Sie mehrere Bilder bereitstellen können, um die Generierung zu steuern. Laden Sie dieses Mal die unsloth_qwen_image_edit_2511.json. Wir werden die meisten der gleichen Modelle verwenden, wechseln jedoch qwen-image-2512-Q4_K_M.gguf zu qwen-image-edit-2511-Q4_K_M.gguf für das Unet. Der andere Unterschied sind dieses Mal zusätzliche Knoten, um Referenzbilder auszuwählen, die wir zuvor heruntergeladen haben. Sie werden bemerken, dass der Prompt sich sowohl auf Bild 1 als auch Bild 2 bezieht, welche als Prompt-Anker für die Bilder fungieren. Sobald geladen, klicken Sie auf Ausführen, und Sie sehen eine Ausgabe, die unsere zwei einzigartigen Faultier-Charaktere zusammen erstellt, während deren Ähnlichkeit bewahrt wird.

Endergebnis erstellt aus den Bildern rechts:

🤗 Diffusers-Anleitung

Wir haben außerdem eine dynamisch 4-Bit BitsandBytesarrow-up-right quantisierte Version hochgeladen, die in Hugging Faces diffusers Bibliothek ausgeführt werden kann. Auch hier verwendet sie Unsloth Dynamic, bei dem wichtige Schichten in höhere Genauigkeit hochgewandelt werden.

Ausführen Qwen-Image-2512-unsloth-bnb-4bit mit dem folgenden Code:

🎨 stable-diffusion.cpp-Anleitung

Wenn Sie das Modell in stable-diffusion.cpp ausführen möchten, können Sie unserer Schritt-für-Schritt-Anleitung hier.

Zuletzt aktualisiert

War das hilfreich?