arrow-pointerWie man Diffusion-Image-GGUFs in ComfyUI ausführt

Anleitung zum Ausführen von Unsloth Diffusion-GGUF-Modellen in ComfyUI.

ComfyUI ist eine Open-Source-GUI, API und Backend für Diffusionsmodelle, die eine nodenbasierte (Graph/Flussdiagramm-) Oberfläche verwendet. ComfyUIarrow-up-right ist die beliebteste Methode, Workflows für Bildmodelle wie Qwen-Image-Edit oder FLUX auszuführen.

GGUF ist eines der besten und effizientesten Formate, um Diffusionsmodelle lokal auszuführen, und Unsloth Dynamic GGUFs verwenden intelligente Quantisierung, um die Genauigkeit selbst bei niedrigen Bitraten zu erhalten.

Sie lernen, wie man ComfyUI (Windows, Linux, macOS) installiert, Workflows erstellt und abstimmt Hyperparameter in diesem schrittweisen Tutorial.

Voraussetzungen & Anforderungen

Du benötigst keine GPU, um diffusions-GGUFs auszuführen, nur eine CPU mit RAM. VRAM ist nicht erforderlich, beschleunigt die Inferenz jedoch erheblich. Für beste Ergebnisse sollte dein insgesamt nutzbarer Speicher (RAM + VRAM / vereinigt) etwas größer sein als die GGUF-Größe; zum Beispiel ist die 4-Bit (Q4_K_M) unsloth/Qwen-Image-Edit-2511-GGUF ist 13,1 GB groß, daher solltest du mindestens ~13,2 GB kombinierten Speicher haben. Du findest alle Unsloth Diffusion-GGUFs in unserer Sammlungarrow-up-right.

Wir empfehlen mindestens 3-Bit-Quantisierung für Diffusionsmodelle, da ihre Schichten, insbesondere die Vision-Komponenten, sehr empfindlich gegenüber Quantisierung sind. Unsloth Dynamic Quants hebt wichtige Schichten hoch, um so viel Genauigkeit wie möglich wiederherzustellen.

📖 ComfyUI-Anleitung

ComfyUI stellt die gesamte Bildgenerierungspipeline als Graph von verbundenen Nodes dar. Diese Anleitung konzentriert sich auf Maschinen mit CUDA, aber die Anweisungen zum Erstellen auf Apple oder CPU sind ähnlich.

#1. Installation & Einrichtung

Um ComfyUI zu installieren, können Sie die Desktop-App für Windows- oder Mac-Geräte herunterladen hierarrow-up-right. Andernfalls führen Sie zur Einrichtung von ComfyUI zum Ausführen von GGUF-Modellen Folgendes aus:

mkdir comfy_ggufs
cd comfy_ggufs
python -m venv .venv
source .venv/bin/activate

git clone https://github.com/comfyanonymous/ComfyUI.git
cd ComfyUI
pip install -r requirements.txt

cd custom_nodes
git clone https://github.com/city96/ComfyUI-GGUF
cd ComfyUI-GGUF
pip install -r requirements.txt
cd ../..

#2. Modelle herunterladen

Diffusionsmodelle benötigen typischerweise 3 Modelle. Einen Variational AutoEncoder (VAE), der den Bildpixelraum in den latenten Raum kodiert, einen Textencoder, der Text in Eingabe-Embeddings übersetzt, und den eigentlichen Diffusions-Transformer. Sie finden alle Unsloth-Diffusions-GGUFs in unserer Sammlung hierarrow-up-right.

Sowohl das Diffusionsmodell als auch der Text-Encoder können im GGUF-Format vorliegen, während wir typischerweise safetensors für das VAE verwenden. Laden wir die Modelle herunter, die wir verwenden werden.

Siehe GGUF-Uploads für: Qwen-Image-Edit-2511arrow-up-right, FLUX.2-devarrow-up-right und Qwen-Image-Layeredarrow-up-right

circle-exclamation

Diese Dateien müssen in den richtigen Ordnern liegen, damit ComfyUI sie sehen kann. Außerdem muss der Vision-Tower in der mmproj-Datei dasselbe Präfix wie der Text-Encoder verwenden.

Lade später auch Referenzbilder herunter, die verwendet werden sollen.

Workflow und Hyperparameter

Du kannst dir auch unsere detaillierte Run GGUFs in ComfyUI Anleitung.

Wechsle in das ComfyUI-Verzeichnis und führe aus:

Dies startet einen Webserver, der Ihnen Zugriff erlaubt auf https://127.0.0.1:8188 . Wenn Sie dies in der Cloud ausführen, müssen Sie sicherstellen, dass Portweiterleitung eingerichtet ist, um von Ihrer lokalen Maschine darauf zugreifen zu können.

Workflows werden als JSON-Dateien gespeichert, die in Ausgabebilder (PNG-Metadaten) eingebettet sind oder als separate .json Dateien. Sie können:

  • Ein Bild per Drag & Drop in ComfyUI ziehen, um dessen Workflow zu laden

  • Workflows über das Menü exportieren/importieren

  • Workflows als JSON-Dateien teilen

Im Folgenden zwei Beispiele für FLUX 2 JSON-Dateien, die du herunterladen und verwenden kannst:

Anstatt den Workflow von Grund auf neu einzurichten, können Sie den Workflow hier herunterladen.

Laden Sie ihn auf der Browserseite, indem Sie auf das Comfy-Logo -> Datei -> Öffnen klicken -> Wählen Sie dann die unsloth_flux2_t2i_gguf.json Datei, die Sie gerade heruntergeladen haben. Es sollte wie unten aussehen:

Dieser Workflow basiert auf dem offiziell veröffentlichten ComfyUI-Workflow, verwendet jedoch die GGUF-Loader-Erweiterung und ist vereinfacht, um die Text-zu-Bild-Funktionalität zu veranschaulichen.

#3. Inferenz

ComfyUI ist hochgradig anpassbar. Sie können Modelle mischen und extrem komplexe Pipelines erstellen. Für eine grundlegende Text-zu-Bild-Konfiguration müssen wir das Modell laden, Prompt- und Bilddetails angeben und eine Sampling-Strategie festlegen.

Modelle hochladen + Prompt setzen

Wir haben die Modelle bereits heruntergeladen, daher müssen wir nur die richtigen auswählen. Für Unet Loader wählen Sie flux2-dev-Q4_K_M.gguf, für CLIPLoader wählen Sie Mistral-Small-3.2-24B-Instruct-2506-UD-Q4_K_XL.gguf, und für Load VAE wählen Sie flux2-vae.safetensors.

Du kannst jeden gewünschten Prompt setzen. Da classifier free guidance im Modell integriert ist, müssen wir keinen negativen Prompt angeben.

Bildgröße + Sampler-Parameter

Flux2-dev unterstützt verschiedene Bildgrößen. Du kannst rechteckige Formen erstellen, indem du die Werte für Breite und Höhe setzt. Bei den Sampler-Parametern kannst du mit anderen Samplern als euler experimentieren und mehr oder weniger Sampling-Schritte verwenden. Ändere die RandomNoise-Einstellung von randomize auf fixed, wenn du sehen möchtest, wie sich unterschiedliche Einstellungen auf die Ausgaben auswirken.

Ausführen

Klicke auf Ausführen und ein Bild wird in 45–60 Sekunden erzeugt. Dieses Ausgabebild kann gespeichert werden. Das Interessante ist, dass die Metadaten des gesamten Comfy-Workflows im Bild gespeichert werden. Du kannst es teilen und jeder kann sehen, wie es erstellt wurde, indem er es in der UI lädt.

Mehrfach-Referenz-Generierung

Ein wichtiges Merkmal von Flux2 ist die Multi-Reference-Generierung, bei der du mehrere Bilder angeben kannst, die zur Steuerung der Generierung verwendet werden. Lade dieses Mal die unsloth_flux2_i2i_gguf.json. Wir werden dieselben Modelle verwenden; der einzige Unterschied diesmal sind zusätzliche Nodes, um die Referenzbilder auszuwählen, die wir zuvor heruntergeladen haben. Du wirst bemerken, dass sich der Prompt auf beide bezieht Bild 1 und Bild 2 bezieht, welche als Prompt-Anker für die Bilder fungieren. Sobald geladen, klicken Sie auf Ausführen, und Sie sehen eine Ausgabe, die unsere zwei einzigartigen Faultier-Charaktere zusammen erstellt, während deren Ähnlichkeit bewahrt wird.

🎯 Workflow und Hyperparameter

Für Text-zu-Bild-Workflows müssen wir einen Prompt, Sampling-Parameter, Bildgröße, Guidance-Scale und alle Optimierungskonfigurationen angeben.

Sampling

Sampling funktioniert anders als bei LLMs. Anstatt ein Token nach dem anderen zu sampeln, sampeln wir das gesamte Bild über mehrere Schritte. Jeder Schritt „entrauscht" das Bild progressiv, was bedeutet, dass bei mehr Schritten das Bild tendenziell eine höhere Qualität hat. Es gibt auch verschiedene Sampling-Algorithmen, die von First-Order- und Second-Order-Algorithmen bis hin zu deterministischen und stochastischen Algorithmen reichen. Für dieses Tutorial verwenden wir euler, einen standardmäßigen Sampler, der Qualität und Geschwindigkeit ausbalanciert.

Guidance

Guidance ist ein weiterer wichtiger Hyperparameter für Diffusionsmodelle. Es gibt viele Varianten von Guidance, aber die zwei am weitesten verbreiteten Formen sind classifier free guidance (CFG) und Guidance-Distillation. Das Konzept der classifier free guidance stammt aus Classifier-Free Diffusion Guidancearrow-up-right. Historisch brauchte man ein separates Klassifizierungsmodell, um das Modell an die Eingabebedingung anzupassen, aber dieses Paper zeigt tatsächlich, dass CFG die Differenz zwischen den konditionalen und unbedingten Vorhersagen des Modells verwendet, um eine Guidance-Richtung zu bilden.

In der Praxis ist es keine unbedingte Vorhersage, sondern eine Vorhersage für einen negativen Prompt, das heißt ein Prompt, das wir auf keinen Fall möchten und von dem wir uns fernsteuern sollten. Bei der Verwendung von CFG benötigst du kein separates Modell, aber du brauchst einen zweiten Inferenzschritt vom unbedingten oder negativen Prompt. Andere Modelle haben CFG bereits beim Training integriert, aber du kannst dennoch die Stärke der Guidance einstellen. Dies ist getrennt von CFG, da es keinen zweiten Inferenzschritt benötigt, aber es ist trotzdem ein einstellbarer Hyperparameter, um zu bestimmen, wie stark seine Wirkung ist.

Fazit

Alles zusammengefasst: Du setzt einen Prompt, um dem Modell zu sagen, was es erzeugen soll, der Text-Encoder kodiert den Text, das VAE kodiert das Bild, beide Embeddings werden entsprechend den Sampling-Parametern + Guidance durch das Diffusionsmodell geführt, und schließlich wird die Ausgabe vom VAE decodiert, was zu einem nutzbaren Bild führt.

Kernkonzepte & Glossar

  • Latent: Komprimierte Bildrepräsentation (worauf das Modell arbeitet).

  • Conditioning: Text-/Bildinformationen, die die Generierung steuern.

  • Diffusionsmodell / UNet: Neuronales Netzwerk, das das Entrauschen durchführt.

  • VAE: Encoder/Decoder zwischen Pixelebene und latenter Darstellung.

  • CLIP (Text-Encoder): Wandelt einen Prompt in Embeddings um.

  • Sampler: Algorithmus, der das Latent iterativ entrauscht.

  • Scheduler: Steuert den Rauschplan über die Schritte.

  • Nodes: Operationen (Modell laden, Text encodieren, sampeln, decodieren usw.).

  • Edges: Datenfluss zwischen den Nodes.

Zuletzt aktualisiert

War das hilfreich?