💟ComfyUI で Qwen-Image-2512 をローカルで実行する方法

ComfyUI を使って Qwen-Image-2512 をローカルデバイスで実行するためのステップバイステップチュートリアル。

Qwen-Image-2512 は Qwenのテキストから画像への基盤モデルに対する12月のアップデートです。このモデルはオープンソースの拡散モデルの中で最も性能が高く、このガイドでは Unsloth GGUFとComfyUIを使ってローカルで実行する方法を説明します。

Qwen-Image-2512 特徴: より現実的な人物表現；風景やテクスチャのより豊かなディテール；そしてより正確なテキスト描写。 アップロード: GGUF • FP8 • 4ビット BitsandBytes

量子化は Unsloth Dynamic 手法を使用しており、重要なレイヤーをより高精度にアップキャストして精度を回復します。Unslothにデイ0サポートを許可してくれたQwenに感謝します。

📖 ComfyUI チュートリアル

実行にはGPUは必須ではなく、RAMを搭載したCPUで動作します。最良の結果を得るには、総使用可能メモリ（RAM + VRAM / 統合）がGGUFファイルサイズより大きいことを確認してください。例：4ビット（Q4_K_M） unsloth/Qwen-Image-Edit-2512-GGUF は13.1 GBなので、合計13.2 GB以上のメモリが必要です。

ComfyUI はノードベース（グラフ/フローチャート）インターフェースを使用するオープンソースの拡散モデルGUI、API、およびバックエンドです。このガイドはCUDAを備えたマシンに焦点を当てますが、AppleやCPUでビルドする手順も類似しています。

#1. インストールとセットアップ

ComfyUIをインストールするには、WindowsまたはMacデバイス向けのデスクトップアプリをダウンロードできますここ。それ以外の場合、GGUFモデルを実行するためにComfyUIをセットアップするには次を実行してください:

mkdir comfy_ggufs
cd comfy_ggufs
python -m venv .venv
source .venv/bin/activate

git clone https://github.com/Comfy-Org/ComfyUI.git
cd ComfyUI
pip install -r requirements.txt

cd custom_nodes
git clone https://github.com/city96/ComfyUI-GGUF
cd ComfyUI-GGUF
pip install -r requirements.txt
cd ../..

#2. モデルのダウンロード

拡散モデルは通常3つのモデルを必要とします。画像のピクセル空間を潜在空間にエンコードする変分オートエンコーダ（VAE）、テキストを入力埋め込みに変換するテキストエンコーダ、そして実際の拡散トランスフォーマーです。すべてのUnsloth拡散GGUFは当社のコレクションはこちら.

で見つけることができます。拡散モデルとテキストエンコーダはGGUF形式にでき、VAEは通常safetensorsを使用します。によると Qwenのリポジトリ、Qwen3-VLではなくQwen2.5-VLを使用します。使用するモデルをダウンロードしましょう（注: ComfyUIでは当社の FP8アップロードも使用できます）:

cd models

## 拡散モデル
curl -L -C - -o unet/qwen-image-2512-Q4_K_M.gguf \
  https://huggingface.co/unsloth/Qwen-Image-2512-GGUF/resolve/main/qwen-image-2512-Q4_K_M.gguf
curl -L -C - -o unet/qwen-image-edit-2511-Q4_K_M.gguf \
  https://huggingface.co/unsloth/Qwen-Image-Edit-2511-GGUF/resolve/main/qwen-image-edit-2511-Q4_K_M.gguf
 
## テキストエンコーダ + ビジョンタワー + VAE   
curl -L -C - -o text_encoders/Qwen2.5-VL-7B-Instruct-UD-Q4_K_XL.gguf \
  https://huggingface.co/unsloth/Qwen2.5-VL-7B-Instruct-GGUF/resolve/main/Qwen2.5-VL-7B-Instruct-UD-Q4_K_XL.gguf
curl -L -C - -o text_encoders/Qwen2.5-VL-7B-Instruct-mmproj-BF16.gguf \
  https://huggingface.co/unsloth/Qwen2.5-VL-7B-Instruct-GGUF/resolve/main/mmproj-BF16.gguf
curl -L -C - -o vae/qwen_image_vae.safetensors \
  https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/resolve/main/split_files/vae/qwen_image_vae.safetensors

GGUFアップロードについては以下を参照してください: Qwen-Image-2512, Qwen-Image-Edit-2511、および Qwen-Image-Layered

VAEや拡散モデルの形式は、上記以外のチェックポイントを使用する場合、diffusersのチェックポイントとは異なる場合があります。ComfyUIと互換性のあるチェックポイントのみを使用してください。

これらのファイルはComfyUIが認識できる正しいフォルダに配置する必要があります。さらに、mmprojファイルに保存されたビジョンタワーはテキストエンコーダと同じプレフィックスを使用する必要があります。

後で使用する参照画像もダウンロードしてください:

curl -L -C - -o ../input/sloth1.jpg \
    "https://unsloth.ai/cgi/image/_1d5a5685-2d88-44ca-b50f-ba432cd646ef_9CGCY8lvw4D9JkOdueqsk.jpeg?width=1920&quality=80&format=jpeg"

curl -L -C - -o ../input/sloth2.jpg \
    "https://unsloth.ai/cgi/image/UnSloth_GPU_Front_-_Confetti_ArcSk-MR4MMN215UutOFZ.png?width=1920&quality=80&format=jpeg"

#3. ワークフローとハイパーパラメータ

詳細については、当社の詳細な Run GGUFs in ComfyUI ガイド。

ComfyUIのメインディレクトリに移動して次を実行します:

python main.py

python main.py --cpu でCPUで実行できますが、遅くなります。

これによりウェブサーバーが起動し、次にアクセスできるようになります https://127.0.0.1:8188 。クラウドで実行している場合、ローカルマシンからアクセスするためにポートフォワーディングを設定する必要があります。

ワークフローは出力画像（PNGメタデータ）に埋め込まれたJSONファイルまたは個別の .json ファイルとして保存されます。次のことができます:

画像をComfyUIにドラッグ＆ドロップしてそのワークフローを読み込む
メニューからワークフローをエクスポート/インポートする
ワークフローをJSONファイルとして共有する

以下はダウンロードして使用できるQwen-Image-2512およびQwen-Image-Edit-2511のjsonファイルの2例です:

13KB

unsloth_qwen_image_2512.json

開く

当社のワークフローでは、実用的な中間点としてデフォルトを 1024×1024 にしています。モデルはネイティブ解像度（1328×1328）をサポートしますが、ネイティブで生成すると通常実行時間が ~50%増加します。GGUFはオーバーヘッドを追加し、40ステップは比較的長い実行なので、1024×1024は生成時間を合理的に保ちます。必要なら解像度を1328に上げることもできます。

より現実的な結果を得るには、“photorealistic”や“digital rendering”や“3d render”のようなキーワードを避け、“photograph”のような用語を使ってください。

ネガティブプロンプトでは、NLPスタイルのアプローチを使うのが最適です： 自然言語で 画像に 含めたくない ものを説明してください。あまりにも多くのキーワードを詰め込みすぎると、より具体的にするどころか結果を悪化させることがあります。

19KB

unsloth_qwen_image_edit_2511.json

開く

ワークフローをゼロから設定する代わりに、ここからワークフローをダウンロードできます。

Comfyのロゴ -> ファイル -> 開くをクリックしてブラウザページに読み込み、次にダウンロードした unsloth_qwen_image_2512.json ファイルを選択してください。以下のように見えるはずです：

このワークフローは公式に公開されたComfyUIのワークフローに基づいていますが、GGUFローダー拡張を使用し、テキストから画像への機能を示すために簡略化されています。

#4. 推論

ComfyUIは非常にカスタマイズ可能です。モデルを混在させて極めて複雑なパイプラインを作成できます。基本的なテキストから画像の設定では、モデルを読み込み、プロンプトと画像の詳細を指定し、サンプリング戦略を決定する必要があります。

モデルのアップロード + プロンプトの設定

モデルは既にダウンロードしてあるので、正しいものを選ぶだけです。Unetローダーには qwen-image-2512-Q4_K_M.ggufを選び、CLIPLoaderには Qwen2.5-VL-7B-Instruct-UD-Q4_K_XL.ggufを選び、VAEの読み込みには qwen_image_vae.safetensors.

を選んでください。任意のプロンプトを設定でき、ネガティブプロンプトも指定できます。ネガティブプロンプトはモデルに回避すべき方向を示すことで役立ちます。

画像サイズ + サンプラーパラメータ

Qwen Imageモデルシリーズは異なる画像サイズをサポートします。幅と高さの値を設定して長方形を作成できます。サンプラーパラメータでは、euler以外のさまざまなサンプラーや、より多い/少ないサンプリングステップを試すことができます。ワークフローのステップは40に設定されていますが、簡単なテストでは20で十分な場合があります。生成後の control after generate 設定をrandomizeからfixedに変更すると、設定の違いが出力にどう影響するか確認できます。

実行

Runをクリックすると約1分で画像が生成されます（20ステップなら30秒）。生成された画像は保存できます。興味深い点は、Comfyワークフロー全体のメタデータが画像に保存されることです。画像を共有すれば、誰でもUIに読み込んでどのように作成されたかを見ることができます。

ぼやけた/悪い画像が出る場合は、shiftを12〜13に上げてください！ほとんどの悪い出力はこれで解決します。

マルチリファレンス生成

Qwen-Image-Edit-2511の主要機能はマルチリファレンス生成で、複数の画像を供給して生成を制御するのに役立てることができます。今回は unsloth_qwen_image_edit_2511.jsonを読み込みます。ほとんど同じモデルを使用しますが、Unetを qwen-image-2512-Q4_K_M.gguf に切り替えて qwen-image-edit-2511-Q4_K_M.gguf を使用します。今回のもう一つの違いは、参照する画像を選択するための追加ノードがあることです。これらは先にダウンロードしてあります。プロンプトでは 画像1 と 画像2 の両方が参照アンカーとして言及されているのがわかります。読み込んだらRunをクリックすると、2つの独自のナマケモノキャラクターを並べつつ類似性を保った出力が得られます。

🤗 Diffusers チュートリアル

また、 Dynamic 4-bit BitsandBytes で量子化したバージョンもアップロードしており、Hugging Faceの diffusers ライブラリで実行できます。繰り返しますが、重要なレイヤーはUnsloth Dynamicでより高精度にアップキャストされます。

実行 Qwen-Image-2512-unsloth-bnb-4bit を以下のコードで使用できます：

from diffusers import DiffusionPipeline
import torch

pipe = DiffusionPipeline.from_pretrained(
    "unsloth/Qwen-Image-2512-unsloth-bnb-4bit",
    torch_dtype=torch.bfloat16,
).to('cuda')

# メモリ不足の場合はコメントを外してください
# pipe.enable_model_cpu_offload() 

output = pipe(
    prompt="ドラムを叩くかわいいナマケモノ",
    negative_prompt="ぼやけた、ピントが合っていない",
    num_inference_steps=20,
    true_cfg_scale=4.0,
)

# 出力を保存
image = output.images[0]
image.save('sample.png')

🎨 stable-diffusion.cpp チュートリアル

モデルをstable-diffusion.cppで実行したい場合は、当社のステップバイステップガイドはこちら.

前へNVIDIA Nemotron 3 Nano 次へstable-diffusion.cpp Tutorial

最終更新 1 か月前

役に立ちましたか？

hashtag📖 ComfyUI チュートリアル

hashtag#1. インストールとセットアップ

hashtag#2. モデルのダウンロード

hashtag#3. ワークフローとハイパーパラメータ

hashtag#4. 推論

hashtagモデルのアップロード + プロンプトの設定

hashtag画像サイズ + サンプラーパラメータ

hashtag実行

hashtagマルチリファレンス生成

hashtag🤗 Diffusers チュートリアル

hashtag🎨 stable-diffusion.cpp チュートリアル

📖 ComfyUI チュートリアル

#1. インストールとセットアップ

#2. モデルのダウンロード

#3. ワークフローとハイパーパラメータ

#4. 推論

モデルのアップロード + プロンプトの設定

画像サイズ + サンプラーパラメータ

実行

マルチリファレンス生成

🤗 Diffusers チュートリアル

🎨 stable-diffusion.cpp チュートリアル