# Wie man Qwen-Image-2512 lokal in ComfyUI ausführt

**Qwen-Image-2512** ist das Dezember-Update der text-zu-bild Grundlagenmodelle von Qwen. Das Modell ist das leistungsstärkste Open-Source-Diffusionsmodell und diese Anleitung zeigt Ihnen, wie Sie es lokal über [Unsloth](https://github.com/unslothai/unsloth) GGUF und ComfyUI ausführen.

Qwen-Image-2512 Funktionen: realistischere Personen; reichere Details in Landschaften/Texturen; und genauere Textdarstellung. **Uploads:** [GGUF](https://huggingface.co/unsloth/Qwen-Image-2512-GGUF) • [FP8](https://huggingface.co/unsloth/Qwen-Image-2512-FP8) • [4-Bit BnB](https://huggingface.co/unsloth/Qwen-Image-2512-unsloth-bnb-4bit)

Die Quantisierungen verwenden [Unsloth Dynamic](https://unsloth.ai/docs/de/grundlagen/unsloth-dynamic-2.0-ggufs) Methodik, die wichtige Schichten in höhere Genauigkeit hochwandelt, um mehr Genauigkeit wiederherzustellen. Danke an Qwen für die Unsloth Day-0-Unterstützung.

## 📖 ComfyUI-Anleitung

Zum Ausführen benötigen Sie keine GPU, ein CPU-System mit RAM reicht aus. Für beste Ergebnisse stellen Sie sicher, dass Ihr insgesamt nutzbarer Speicher (RAM + VRAM / unified) größer ist als die GGUF-Größe; z. B. 4-Bit (Q4\_K\_M) `unsloth/Qwen-Image-Edit-2512-GGUF` ist 13,1 GB groß, daher sollten Sie 13,2+ GB kombinierten Speicher haben.

[ComfyUI](https://github.com/Comfy-Org/ComfyUI) ist eine Open-Source-GUI, API und Backend für Diffusionsmodelle, die eine nodenbasierte (Graph/Flussdiagramm) Schnittstelle verwendet. Diese Anleitung konzentriert sich auf Maschinen mit CUDA, aber Anleitungen zum Bauen auf Apple- oder CPU-Systemen sind ähnlich.

### #1. Installation & Einrichtung

Um ComfyUI zu installieren, können Sie die Desktop-App für Windows- oder Mac-Geräte herunterladen [hier](https://www.comfy.org/download). Andernfalls führen Sie zur Einrichtung von ComfyUI zum Ausführen von GGUF-Modellen Folgendes aus:

```bash
mkdir comfy_ggufs
cd comfy_ggufs
python -m venv .venv
source .venv/bin/activate

git clone https://github.com/Comfy-Org/ComfyUI.git
cd ComfyUI
pip install -r requirements.txt

cd custom_nodes
git clone https://github.com/city96/ComfyUI-GGUF
cd ComfyUI-GGUF
pip install -r requirements.txt
cd ../..
```

### #2. Modelle herunterladen

Diffusionsmodelle benötigen typischerweise 3 Modelle. Einen Variational AutoEncoder (VAE), der den Bildpixelraum in den latenten Raum kodiert, einen Textencoder, der Text in Eingabe-Embeddings übersetzt, und den eigentlichen Diffusions-Transformer. Sie finden alle Unsloth-Diffusions-GGUFs in unserer [Sammlung hier](https://huggingface.co/collections/unsloth/unsloth-diffusion-ggufs).

Sowohl das Diffusionsmodell als auch der Textencoder können im GGUF-Format vorliegen, während wir typischerweise safetensors für das VAE verwenden. Laut [Qwens Repo](https://huggingface.co/Qwen/Qwen-Image-2512/blob/main/text_encoder/config.json)sollten wir Qwen2.5-VL verwenden und nicht [Qwen3-VL](https://unsloth.ai/docs/de/modelle/tutorials/qwen3-how-to-run-and-fine-tune/qwen3-vl-how-to-run-and-fine-tune). Laden wir die Modelle herunter, die wir verwenden werden (Hinweis: Sie können auch unsere [FP8-Upload](https://huggingface.co/unsloth/Qwen-Image-2512-FP8) in ComfyUI verwenden):

```bash
cd models

## Diffusionsmodelle
curl -L -C - -o unet/qwen-image-2512-Q4_K_M.gguf \
  https://huggingface.co/unsloth/Qwen-Image-2512-GGUF/resolve/main/qwen-image-2512-Q4_K_M.gguf
curl -L -C - -o unet/qwen-image-edit-2511-Q4_K_M.gguf \
  https://huggingface.co/unsloth/Qwen-Image-Edit-2511-GGUF/resolve/main/qwen-image-edit-2511-Q4_K_M.gguf
 
## Textencoder + Vision Tower + VAE   
curl -L -C - -o text_encoders/Qwen2.5-VL-7B-Instruct-UD-Q4_K_XL.gguf \
  https://huggingface.co/unsloth/Qwen2.5-VL-7B-Instruct-GGUF/resolve/main/Qwen2.5-VL-7B-Instruct-UD-Q4_K_XL.gguf
curl -L -C - -o text_encoders/Qwen2.5-VL-7B-Instruct-mmproj-BF16.gguf \
  https://huggingface.co/unsloth/Qwen2.5-VL-7B-Instruct-GGUF/resolve/main/mmproj-BF16.gguf
curl -L -C - -o vae/qwen_image_vae.safetensors \
  https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/resolve/main/split_files/vae/qwen_image_vae.safetensors
```

Siehe GGUF-Uploads für: [Qwen-Image-2512](https://huggingface.co/unsloth/Qwen-Image-2512-GGUF), [Qwen-Image-Edit-2511](https://huggingface.co/unsloth/Qwen-Image-Edit-2511-GGUF), und [Qwen-Image-Layered](https://huggingface.co/unsloth/Qwen-Image-Layered-GGUF)

{% hint style="warning" %}
Das Format des VAE und des Diffusionsmodells kann sich von den Diffusers-Checkpoints unterscheiden, wenn andere Checkpoints als die oben genannten verwendet werden. Verwenden Sie nur Checkpoints, die mit ComfyUI kompatibel sind.
{% endhint %}

Diese Dateien müssen in den richtigen Ordnern liegen, damit ComfyUI sie sehen kann. Zusätzlich muss der im mmproj gespeicherte Vision Tower denselben Präfix wie der Textencoder verwenden.

Laden Sie Referenzbilder herunter, die später verwendet werden sollen:

```bash
curl -L -C - -o ../input/sloth1.jpg \
    "https://unsloth.ai/cgi/image/_1d5a5685-2d88-44ca-b50f-ba432cd646ef_9CGCY8lvw4D9JkOdueqsk.jpeg?width=1920&quality=80&format=jpeg"

curl -L -C - -o ../input/sloth2.jpg \
    "https://unsloth.ai/cgi/image/UnSloth_GPU_Front_-_Confetti_ArcSk-MR4MMN215UutOFZ.png?width=1920&quality=80&format=jpeg"
```

### #3. Workflow und Hyperparameter

Für mehr Informationen können Sie auch unsere ausführliche [#workflow-and-hyperparameters-1](https://unsloth.ai/docs/de/blog/comfyui#workflow-and-hyperparameters-1 "mention") Anleitung.

Wechseln Sie in das Hauptverzeichnis von ComfyUI und führen Sie aus:

```bash
python main.py
```

{% hint style="info" %}
`python main.py --cpu` um mit der CPU auszuführen, das wird aber langsam sein.
{% endhint %}

Dies startet einen Webserver, der Ihnen Zugriff erlaubt auf `https://127.0.0.1:8188` . Wenn Sie dies in der Cloud ausführen, müssen Sie sicherstellen, dass Portweiterleitung eingerichtet ist, um von Ihrer lokalen Maschine darauf zugreifen zu können.

Workflows werden als JSON-Dateien gespeichert, die in Ausgabebilder (PNG-Metadaten) eingebettet sind oder als separate `.json` Dateien. Sie können:

* Ein Bild per Drag & Drop in ComfyUI ziehen, um dessen Workflow zu laden
* Workflows über das Menü exportieren/importieren
* Workflows als JSON-Dateien teilen

Unten sind zwei Beispiele für Qwen-Image-2512 und Qwen-Image-Edit-2511 JSON-Dateien, die Sie herunterladen und verwenden können:

{% file src="<https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FevILpOrozIHhFAyEvMCx%2Funsloth_qwen_image_2512.json?alt=media&token=67888ed5-6c70-4743-af36-63457e0ca45f>" %}

Für unseren Workflow verwenden wir standardmäßig **1024×1024** als praktischen Mittelweg. Während das Modell native Auflösung (1328×1328) unterstützt, erhöht das Generieren in nativer Auflösung typischerweise die Laufzeit um **\~50%**. Da GGUF Overhead hinzufügt und 40 Schritte ein relativ langer Lauf sind, hält 1024×1024 die Generierungszeit vernünftig. Bei Bedarf können Sie die Auflösung auf 1328 erhöhen.

{% hint style="warning" %}
Für realistischere Ergebnisse vermeiden Sie Schlüsselwörter wie „fotorealistisch“ oder „digitale Darstellung“ oder „3D-Rendering“ und verwenden stattdessen Begriffe wie „Fotografie“.
{% endhint %}

{% hint style="info" %}
Für negative Prompts ist es am besten, einen NLP-ähnlichen Ansatz zu verwenden: Beschreiben Sie in **natürlicher Sprache** was Sie *nicht* im Bild haben möchten. Zu viele Schlüsselwörter können die Ergebnisse verschlechtern, statt sie spezifischer zu machen.
{% endhint %}

{% file src="<https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FmSITE2ZPxriP9ssd1Qtq%2Funsloth_qwen_image_edit_2511.json?alt=media&token=d5e0db6a-d96e-461d-8238-d954f1f559ef>" %}

{% columns %}
{% column %}
Anstatt den Workflow von Grund auf neu einzurichten, können Sie den Workflow hier herunterladen.

Laden Sie ihn auf der Browserseite, indem Sie auf das Comfy-Logo -> Datei -> Öffnen klicken -> Wählen Sie dann die `unsloth_qwen_image_2512.json` Datei, die Sie gerade heruntergeladen haben. Es sollte wie unten aussehen:
{% endcolumn %}

{% column %}

<figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FqoxBnRlnYrmzLfZshE1Z%2FScreenshot%20from%202025-12-29%2014-37-00.png?alt=media&#x26;token=1b1517b7-d44f-4e95-a5ed-759a4e0f74ec" alt="" width="254"><figcaption></figcaption></figure>
{% endcolumn %}
{% endcolumns %}

<figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FIg48mzpraPTu1O16X1ay%2FScreenshot%20from%202025-12-30%2015-27-35.png?alt=media&#x26;token=c761e48a-18cd-4291-9f29-3c09f621729d" alt="" width="563"><figcaption></figcaption></figure>

Dieser Workflow basiert auf dem offiziell veröffentlichten ComfyUI-Workflow, verwendet jedoch die GGUF-Loader-Erweiterung und ist vereinfacht, um die Text-zu-Bild-Funktionalität zu veranschaulichen.&#x20;

### #4. Inferenz

ComfyUI ist hochgradig anpassbar. Sie können Modelle mischen und extrem komplexe Pipelines erstellen. Für eine grundlegende Text-zu-Bild-Konfiguration müssen wir das Modell laden, Prompt- und Bilddetails angeben und eine Sampling-Strategie festlegen.&#x20;

#### **Modelle hochladen + Prompt setzen**

Wir haben die Modelle bereits heruntergeladen, daher müssen wir nur die richtigen auswählen. Für Unet Loader wählen Sie `qwen-image-2512-Q4_K_M.gguf`, für CLIPLoader wählen Sie `Qwen2.5-VL-7B-Instruct-UD-Q4_K_XL.gguf`, und für Load VAE wählen Sie `qwen_image_vae.safetensors`.&#x20;

{% hint style="info" %}
Für realistischere Ergebnisse vermeiden Sie Schlüsselwörter wie „fotorealistisch“ oder „digitale Darstellung“ oder „3D-Rendering“ und verwenden stattdessen Begriffe wie „Fotografie“.
{% endhint %}

Sie können jeden gewünschten Prompt setzen und auch einen negativen Prompt angeben. Der negative Prompt hilft, dem Modell Richtungen zu geben, wovon es sich fernhalten soll.

{% hint style="info" %}
Für negative Prompts ist es am besten, einen NLP-ähnlichen Ansatz zu verwenden: Beschreiben Sie in **natürlicher Sprache** was Sie *nicht* im Bild haben möchten. Zu viele Schlüsselwörter können die Ergebnisse verschlechtern, statt sie spezifischer zu machen.
{% endhint %}

#### **Bildgröße + Sampler-Parameter**

Die Qwen-Image-Modellreihe unterstützt verschiedene Bildgrößen. Sie können rechteckige Formen erzeugen, indem Sie die Werte für Breite und Höhe setzen. Für Sampler-Parameter können Sie mit verschiedenen Samplern außer Euler experimentieren und mehr oder weniger Sampling-Schritte wählen. Der Workflow hat die Schritte auf 40 gesetzt, aber für schnelle Tests könnten 20 ausreichend sein. Ändern Sie die `control after generate` Einstellung von randomize auf fixed, wenn Sie sehen möchten, wie verschiedene Einstellungen die Ausgaben verändern.

#### **Ausführen**

Klicken Sie auf Ausführen und ein Bild wird in etwa 1 Minute erzeugt (30 Sekunden bei 20 Schritten). Dieses Ausgabebild kann gespeichert werden. Der interessante Teil ist, dass die Metadaten für den gesamten Comfy-Workflow im Bild gespeichert werden. Sie können es teilen und jeder kann sehen, wie es erstellt wurde, indem er es in der UI lädt.

<figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2F3fvZ7Y7dyOwwWfQXP4U9%2Funsloth_woman.png?alt=media&#x26;token=bf131b12-be85-45c9-83bb-6a087decb8bb" alt="" width="188"><figcaption></figcaption></figure>

{% hint style="info" %}
Wenn Sie verschwommene/schlechte Bilder erhalten, erhöhen Sie shift auf 12–13! Das löst die meisten Probleme mit schlechten Ausgaben.
{% endhint %}

#### **Mehrfach-Referenz-Generierung**

Eine wichtige Funktion von Qwen-Image-Edit-2511 ist die Mehrfach-Referenz-Generierung, bei der Sie mehrere Bilder bereitstellen können, um die Generierung zu steuern. Laden Sie dieses Mal die `unsloth_qwen_image_edit_2511.json`. Wir werden die meisten der gleichen Modelle verwenden, wechseln jedoch `qwen-image-2512-Q4_K_M.gguf` zu `qwen-image-edit-2511-Q4_K_M.gguf` für das Unet. Der andere Unterschied sind dieses Mal zusätzliche Knoten, um Referenzbilder auszuwählen, die wir zuvor heruntergeladen haben. Sie werden bemerken, dass der Prompt sich sowohl auf `Bild 1` als auch `Bild 2` bezieht, welche als Prompt-Anker für die Bilder fungieren. Sobald geladen, klicken Sie auf Ausführen, und Sie sehen eine Ausgabe, die unsere zwei einzigartigen Faultier-Charaktere zusammen erstellt, während deren Ähnlichkeit bewahrt wird.

<div><figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FmHqctMHBGGtyTMh7VcxN%2Funsloth_diffusion1.png?alt=media&#x26;token=c66059ae-4015-4fea-9181-75566bc7f03d" alt="" width="188"><figcaption><p>Endergebnis erstellt aus den Bildern rechts:</p></figcaption></figure> <figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FvRbCNdlnmXOyM84YaF0b%2Fsloth%20gpu%20square.png?alt=media&#x26;token=7b5c14ae-b5d7-4554-86e5-f8e2480bbb39" alt="" width="188"><figcaption></figcaption></figure> <figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FwAYdYspdgZGbxFePXf06%2Fsloth%20on%20gpu.jpg?alt=media&#x26;token=1031686f-1f0d-423a-80ae-77127aaaa0bd" alt="" width="188"><figcaption></figcaption></figure></div>

## 🤗 D**iffusers-Anleitung**

Wir haben außerdem eine [dynamisch 4-Bit BitsandBytes](https://huggingface.co/unsloth/Qwen-Image-2512-unsloth-bnb-4bit) quantisierte Version hochgeladen, die in Hugging Faces `diffusers` Bibliothek ausgeführt werden kann. Auch hier verwendet sie Unsloth Dynamic, bei dem wichtige Schichten in höhere Genauigkeit hochgewandelt werden.

Ausführen `Qwen-Image-2512-unsloth-bnb-4bit` mit dem folgenden Code:

```python
from diffusers import DiffusionPipeline
import torch

pipe = DiffusionPipeline.from_pretrained(
    "unsloth/Qwen-Image-2512-unsloth-bnb-4bit",
    torch_dtype=torch.bfloat16,
).to('cuda')

# auskommentieren, falls Sie nicht genug Speicher haben
# pipe.enable_model_cpu_offload() 

output = pipe(
    prompt="ein kawaii-Faultier, das Schlagzeug spielt",
    negative_prompt="verschwommen, unscharf",
    num_inference_steps=20,
    true_cfg_scale=4.0,
)

# Ausgabe speichern
image = output.images[0]
image.save('sample.png')
```

## 🎨 **stable-diffusion.cpp-Anleitung**

Wenn Sie das Modell in stable-diffusion.cpp ausführen möchten, können Sie unserer [Schritt-für-Schritt-Anleitung hier](https://unsloth.ai/docs/de/modelle/tutorials/qwen-image-2512/stable-diffusion.cpp).


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/de/modelle/tutorials/qwen-image-2512.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
