Wie man Diffusion-Image-GGUFs in ComfyUI ausführt
Anleitung zum Ausführen von Unsloth Diffusion-GGUF-Modellen in ComfyUI.
ComfyUI ist eine Open-Source-GUI, API und Backend für Diffusionsmodelle, die eine nodenbasierte (Graph/Flussdiagramm-) Oberfläche verwendet. ComfyUI ist die beliebteste Methode, Workflows für Bildmodelle wie Qwen-Image-Edit oder FLUX auszuführen.
GGUF ist eines der besten und effizientesten Formate, um Diffusionsmodelle lokal auszuführen, und Unsloth Dynamic GGUFs verwenden intelligente Quantisierung, um die Genauigkeit selbst bei niedrigen Bitraten zu erhalten.
Sie lernen, wie man ComfyUI (Windows, Linux, macOS) installiert, Workflows erstellt und abstimmt Hyperparameter in diesem schrittweisen Tutorial.
Voraussetzungen & Anforderungen
Du benötigst keine GPU, um diffusions-GGUFs auszuführen, nur eine CPU mit RAM. VRAM ist nicht erforderlich, beschleunigt die Inferenz jedoch erheblich. Für beste Ergebnisse sollte dein insgesamt nutzbarer Speicher (RAM + VRAM / vereinigt) etwas größer sein als die GGUF-Größe; zum Beispiel ist die 4-Bit (Q4_K_M) unsloth/Qwen-Image-Edit-2511-GGUF ist 13,1 GB groß, daher solltest du mindestens ~13,2 GB kombinierten Speicher haben. Du findest alle Unsloth Diffusion-GGUFs in unserer Sammlung.
Wir empfehlen mindestens 3-Bit-Quantisierung für Diffusionsmodelle, da ihre Schichten, insbesondere die Vision-Komponenten, sehr empfindlich gegenüber Quantisierung sind. Unsloth Dynamic Quants hebt wichtige Schichten hoch, um so viel Genauigkeit wie möglich wiederherzustellen.
📖 ComfyUI-Anleitung
ComfyUI stellt die gesamte Bildgenerierungspipeline als Graph von verbundenen Nodes dar. Diese Anleitung konzentriert sich auf Maschinen mit CUDA, aber die Anweisungen zum Erstellen auf Apple oder CPU sind ähnlich.
#1. Installation & Einrichtung
Um ComfyUI zu installieren, können Sie die Desktop-App für Windows- oder Mac-Geräte herunterladen hier. Andernfalls führen Sie zur Einrichtung von ComfyUI zum Ausführen von GGUF-Modellen Folgendes aus:
mkdir comfy_ggufs
cd comfy_ggufs
python -m venv .venv
source .venv/bin/activate
git clone https://github.com/comfyanonymous/ComfyUI.git
cd ComfyUI
pip install -r requirements.txt
cd custom_nodes
git clone https://github.com/city96/ComfyUI-GGUF
cd ComfyUI-GGUF
pip install -r requirements.txt
cd ../..#2. Modelle herunterladen
Diffusionsmodelle benötigen typischerweise 3 Modelle. Einen Variational AutoEncoder (VAE), der den Bildpixelraum in den latenten Raum kodiert, einen Textencoder, der Text in Eingabe-Embeddings übersetzt, und den eigentlichen Diffusions-Transformer. Sie finden alle Unsloth-Diffusions-GGUFs in unserer Sammlung hier.
Sowohl das Diffusionsmodell als auch der Text-Encoder können im GGUF-Format vorliegen, während wir typischerweise safetensors für das VAE verwenden. Laden wir die Modelle herunter, die wir verwenden werden.
Siehe GGUF-Uploads für: Qwen-Image-Edit-2511, FLUX.2-dev und Qwen-Image-Layered
Das Format des VAE und des Diffusionsmodells kann sich von den Diffusers-Checkpoints unterscheiden. Verwende nur Checkpoints, die mit ComfyUI kompatibel sind.
Diese Dateien müssen in den richtigen Ordnern liegen, damit ComfyUI sie sehen kann. Außerdem muss der Vision-Tower in der mmproj-Datei dasselbe Präfix wie der Text-Encoder verwenden.
Lade später auch Referenzbilder herunter, die verwendet werden sollen.
Workflow und Hyperparameter
Du kannst dir auch unsere detaillierte Run GGUFs in ComfyUI Anleitung.
Wechsle in das ComfyUI-Verzeichnis und führe aus:
Dies startet einen Webserver, der Ihnen Zugriff erlaubt auf https://127.0.0.1:8188 . Wenn Sie dies in der Cloud ausführen, müssen Sie sicherstellen, dass Portweiterleitung eingerichtet ist, um von Ihrer lokalen Maschine darauf zugreifen zu können.
Workflows werden als JSON-Dateien gespeichert, die in Ausgabebilder (PNG-Metadaten) eingebettet sind oder als separate .json Dateien. Sie können:
Ein Bild per Drag & Drop in ComfyUI ziehen, um dessen Workflow zu laden
Workflows über das Menü exportieren/importieren
Workflows als JSON-Dateien teilen
Im Folgenden zwei Beispiele für FLUX 2 JSON-Dateien, die du herunterladen und verwenden kannst:
Anstatt den Workflow von Grund auf neu einzurichten, können Sie den Workflow hier herunterladen.
Laden Sie ihn auf der Browserseite, indem Sie auf das Comfy-Logo -> Datei -> Öffnen klicken -> Wählen Sie dann die unsloth_flux2_t2i_gguf.json Datei, die Sie gerade heruntergeladen haben. Es sollte wie unten aussehen:


Dieser Workflow basiert auf dem offiziell veröffentlichten ComfyUI-Workflow, verwendet jedoch die GGUF-Loader-Erweiterung und ist vereinfacht, um die Text-zu-Bild-Funktionalität zu veranschaulichen.
#3. Inferenz
ComfyUI ist hochgradig anpassbar. Sie können Modelle mischen und extrem komplexe Pipelines erstellen. Für eine grundlegende Text-zu-Bild-Konfiguration müssen wir das Modell laden, Prompt- und Bilddetails angeben und eine Sampling-Strategie festlegen.
Modelle hochladen + Prompt setzen
Wir haben die Modelle bereits heruntergeladen, daher müssen wir nur die richtigen auswählen. Für Unet Loader wählen Sie flux2-dev-Q4_K_M.gguf, für CLIPLoader wählen Sie Mistral-Small-3.2-24B-Instruct-2506-UD-Q4_K_XL.gguf, und für Load VAE wählen Sie flux2-vae.safetensors.
Du kannst jeden gewünschten Prompt setzen. Da classifier free guidance im Modell integriert ist, müssen wir keinen negativen Prompt angeben.
Bildgröße + Sampler-Parameter
Flux2-dev unterstützt verschiedene Bildgrößen. Du kannst rechteckige Formen erstellen, indem du die Werte für Breite und Höhe setzt. Bei den Sampler-Parametern kannst du mit anderen Samplern als euler experimentieren und mehr oder weniger Sampling-Schritte verwenden. Ändere die RandomNoise-Einstellung von randomize auf fixed, wenn du sehen möchtest, wie sich unterschiedliche Einstellungen auf die Ausgaben auswirken.
Ausführen
Klicke auf Ausführen und ein Bild wird in 45–60 Sekunden erzeugt. Dieses Ausgabebild kann gespeichert werden. Das Interessante ist, dass die Metadaten des gesamten Comfy-Workflows im Bild gespeichert werden. Du kannst es teilen und jeder kann sehen, wie es erstellt wurde, indem er es in der UI lädt.

Mehrfach-Referenz-Generierung
Ein wichtiges Merkmal von Flux2 ist die Multi-Reference-Generierung, bei der du mehrere Bilder angeben kannst, die zur Steuerung der Generierung verwendet werden. Lade dieses Mal die unsloth_flux2_i2i_gguf.json. Wir werden dieselben Modelle verwenden; der einzige Unterschied diesmal sind zusätzliche Nodes, um die Referenzbilder auszuwählen, die wir zuvor heruntergeladen haben. Du wirst bemerken, dass sich der Prompt auf beide bezieht Bild 1 und Bild 2 bezieht, welche als Prompt-Anker für die Bilder fungieren. Sobald geladen, klicken Sie auf Ausführen, und Sie sehen eine Ausgabe, die unsere zwei einzigartigen Faultier-Charaktere zusammen erstellt, während deren Ähnlichkeit bewahrt wird.

🎯 Workflow und Hyperparameter
Für Text-zu-Bild-Workflows müssen wir einen Prompt, Sampling-Parameter, Bildgröße, Guidance-Scale und alle Optimierungskonfigurationen angeben.
Sampling
Sampling funktioniert anders als bei LLMs. Anstatt ein Token nach dem anderen zu sampeln, sampeln wir das gesamte Bild über mehrere Schritte. Jeder Schritt „entrauscht" das Bild progressiv, was bedeutet, dass bei mehr Schritten das Bild tendenziell eine höhere Qualität hat. Es gibt auch verschiedene Sampling-Algorithmen, die von First-Order- und Second-Order-Algorithmen bis hin zu deterministischen und stochastischen Algorithmen reichen. Für dieses Tutorial verwenden wir euler, einen standardmäßigen Sampler, der Qualität und Geschwindigkeit ausbalanciert.
Guidance
Guidance ist ein weiterer wichtiger Hyperparameter für Diffusionsmodelle. Es gibt viele Varianten von Guidance, aber die zwei am weitesten verbreiteten Formen sind classifier free guidance (CFG) und Guidance-Distillation. Das Konzept der classifier free guidance stammt aus Classifier-Free Diffusion Guidance. Historisch brauchte man ein separates Klassifizierungsmodell, um das Modell an die Eingabebedingung anzupassen, aber dieses Paper zeigt tatsächlich, dass CFG die Differenz zwischen den konditionalen und unbedingten Vorhersagen des Modells verwendet, um eine Guidance-Richtung zu bilden.
In der Praxis ist es keine unbedingte Vorhersage, sondern eine Vorhersage für einen negativen Prompt, das heißt ein Prompt, das wir auf keinen Fall möchten und von dem wir uns fernsteuern sollten. Bei der Verwendung von CFG benötigst du kein separates Modell, aber du brauchst einen zweiten Inferenzschritt vom unbedingten oder negativen Prompt. Andere Modelle haben CFG bereits beim Training integriert, aber du kannst dennoch die Stärke der Guidance einstellen. Dies ist getrennt von CFG, da es keinen zweiten Inferenzschritt benötigt, aber es ist trotzdem ein einstellbarer Hyperparameter, um zu bestimmen, wie stark seine Wirkung ist.
Fazit
Alles zusammengefasst: Du setzt einen Prompt, um dem Modell zu sagen, was es erzeugen soll, der Text-Encoder kodiert den Text, das VAE kodiert das Bild, beide Embeddings werden entsprechend den Sampling-Parametern + Guidance durch das Diffusionsmodell geführt, und schließlich wird die Ausgabe vom VAE decodiert, was zu einem nutzbaren Bild führt.
Kernkonzepte & Glossar
Latent: Komprimierte Bildrepräsentation (worauf das Modell arbeitet).
Conditioning: Text-/Bildinformationen, die die Generierung steuern.
Diffusionsmodell / UNet: Neuronales Netzwerk, das das Entrauschen durchführt.
VAE: Encoder/Decoder zwischen Pixelebene und latenter Darstellung.
CLIP (Text-Encoder): Wandelt einen Prompt in Embeddings um.
Sampler: Algorithmus, der das Latent iterativ entrauscht.
Scheduler: Steuert den Rauschplan über die Schritte.
Nodes: Operationen (Modell laden, Text encodieren, sampeln, decodieren usw.).
Edges: Datenfluss zwischen den Nodes.
Zuletzt aktualisiert
War das hilfreich?

