💟ComfyUI で Qwen-Image-2512 をローカルで実行する方法

ComfyUI を使って Qwen-Image-2512 をローカルデバイスで実行するためのステップバイステップのチュートリアル。

Qwen-Image-2512 Qwenのテキストから画像への基盤モデルに対する12月のアップデートです。このモデルはオープンソースの拡散モデルの中で最も性能が高く、このガイドでは Unslotharrow-up-right GGUFとComfyUIを使ってローカルで実行する方法を説明します。

Qwen-Image-2512 特徴: より現実的な人物表現;風景やテクスチャのより豊かなディテール;そしてより正確なテキスト描写。 アップロード: GGUFarrow-up-rightFP8arrow-up-right4ビット BitsandBytesarrow-up-right

量子化は Unsloth Dynamic 手法を使用しており、重要なレイヤーをより高精度にアップキャストして精度を回復します。Unslothにデイ0サポートを許可してくれたQwenに感謝します。

📖 ComfyUI チュートリアル

実行にはGPUは必須ではなく、RAMを搭載したCPUで動作します。最良の結果を得るには、総使用可能メモリ(RAM + VRAM / 統合)がGGUFファイルサイズより大きいことを確認してください。例:4ビット(Q4_K_M) unsloth/Qwen-Image-Edit-2512-GGUF は13.1 GBなので、合計13.2 GB以上のメモリが必要です。

ComfyUIarrow-up-right はノードベース(グラフ/フローチャート)インターフェースを使用するオープンソースの拡散モデルGUI、API、およびバックエンドです。このガイドはCUDAを備えたマシンに焦点を当てますが、AppleやCPUでビルドする手順も類似しています。

#1. インストールとセットアップ

ComfyUIをインストールするには、WindowsまたはMacデバイス向けのデスクトップアプリをダウンロードできます ここarrow-up-right。それ以外の場合、GGUFモデルを実行するためにComfyUIをセットアップするには次を実行してください:

mkdir comfy_ggufs
cd comfy_ggufs
python -m venv .venv
source .venv/bin/activate

git clone https://github.com/Comfy-Org/ComfyUI.git
cd ComfyUI
pip install -r requirements.txt

cd custom_nodes
git clone https://github.com/city96/ComfyUI-GGUF
cd ComfyUI-GGUF
pip install -r requirements.txt
cd ../..

#2. モデルのダウンロード

拡散モデルは通常3つのモデルを必要とします。画像のピクセル空間を潜在空間にエンコードする変分オートエンコーダ(VAE)、テキストを入力埋め込みに変換するテキストエンコーダ、そして実際の拡散トランスフォーマーです。すべてのUnsloth拡散GGUFは当社の コレクションはこちらarrow-up-right.

で見つけることができます。拡散モデルとテキストエンコーダはGGUF形式にでき、VAEは通常safetensorsを使用します。によると Qwenのリポジトリarrow-up-right、Qwen3-VLではなくQwen2.5-VLを使用します 使用するモデルをダウンロードしましょう(注: ComfyUIでは当社の FP8アップロードarrow-up-right も使用できます):

GGUFアップロードについては以下を参照してください: Qwen-Image-2512arrow-up-right, Qwen-Image-Edit-2511arrow-up-right、および Qwen-Image-Layeredarrow-up-right

circle-exclamation

これらのファイルはComfyUIが認識できる正しいフォルダに配置する必要があります。さらに、mmprojファイルに保存されたビジョンタワーはテキストエンコーダと同じプレフィックスを使用する必要があります。

後で使用する参照画像もダウンロードしてください:

#3. ワークフローとハイパーパラメータ

詳細については、当社の詳細な Run GGUFs in ComfyUI ガイド。

ComfyUIのメインディレクトリに移動して次を実行します:

circle-info

python main.py --cpu でCPUで実行できますが、遅くなります。

これによりウェブサーバーが起動し、次にアクセスできるようになります https://127.0.0.1:8188 。クラウドで実行している場合、ローカルマシンからアクセスするためにポートフォワーディングを設定する必要があります。

ワークフローは出力画像(PNGメタデータ)に埋め込まれたJSONファイルまたは個別の .json ファイルとして保存されます。次のことができます:

  • 画像をComfyUIにドラッグ&ドロップしてそのワークフローを読み込む

  • メニューからワークフローをエクスポート/インポートする

  • ワークフローをJSONファイルとして共有する

以下はダウンロードして使用できるQwen-Image-2512およびQwen-Image-Edit-2511のjsonファイルの2例です:

file-download
13KB
arrow-up-right-from-square開く

当社のワークフローでは、実用的な中間点としてデフォルトを 1024×1024 にしています。モデルはネイティブ解像度(1328×1328)をサポートしますが、ネイティブで生成すると通常実行時間が ~50%増加します。GGUFはオーバーヘッドを追加し、40ステップは 比較的長い実行なので、1024×1024は生成時間を合理的に保ちます。必要なら解像度を1328に上げることもできます。

circle-exclamation
circle-info

ネガティブプロンプトでは、NLPスタイルのアプローチを使うのが最適です: 自然言語で 画像に 含めたくない ものを説明してください。あまりにも多くのキーワードを詰め込みすぎると、より具体的にするどころか結果を悪化させることがあります。

ワークフローをゼロから設定する代わりに、ここからワークフローをダウンロードできます。

Comfyのロゴ -> ファイル -> 開く をクリックしてブラウザページに読み込み、次にダウンロードした unsloth_qwen_image_2512.json ファイルを選択してください。以下のように見えるはずです:

このワークフローは公式に公開されたComfyUIのワークフローに基づいていますが、GGUFローダー拡張を使用し、テキストから画像への機能を示すために簡略化されています。

#4. 推論

ComfyUIは非常にカスタマイズ可能です。モデルを混在させて極めて複雑なパイプラインを作成できます。基本的なテキストから画像の設定では、モデルを読み込み、プロンプトと画像の詳細を指定し、サンプリング戦略を決定する必要があります。

モデルのアップロード + プロンプトの設定

モデルは既にダウンロードしてあるので、正しいものを選ぶだけです。Unetローダーには qwen-image-2512-Q4_K_M.ggufを選び、CLIPLoaderには Qwen2.5-VL-7B-Instruct-UD-Q4_K_XL.ggufを選び、VAEの読み込みには qwen_image_vae.safetensors.

circle-info

より現実的な結果を得るには、“photorealistic”や“digital rendering”や“3d render”のようなキーワードを避け、“photograph”のような用語を使ってください。

を選んでください。任意のプロンプトを設定でき、ネガティブプロンプトも指定できます。ネガティブプロンプトはモデルに回避すべき方向を示すことで役立ちます。

circle-info

ネガティブプロンプトでは、NLPスタイルのアプローチを使うのが最適です: 自然言語で 画像に 含めたくない ものを説明してください。あまりにも多くのキーワードを詰め込みすぎると、より具体的にするどころか結果を悪化させることがあります。

画像サイズ + サンプラーパラメータ

Qwen Imageモデルシリーズは異なる画像サイズをサポートします。幅と高さの値を設定して長方形を作成できます。サンプラーパラメータでは、euler以外のさまざまなサンプラーや、より多い/少ないサンプリングステップを試すことができます。ワークフローのステップは40に設定されていますが、簡単なテストでは20で十分な場合があります。生成後の control after generate 設定をrandomizeからfixedに変更すると、設定の違いが出力にどう影響するか確認できます。

実行

Runをクリックすると約1分で画像が生成されます(20ステップなら30秒)。生成された画像は保存できます。興味深い点は、Comfyワークフロー全体のメタデータが画像に保存されることです。画像を共有すれば、誰でもUIに読み込んでどのように作成されたかを見ることができます。

circle-info

ぼやけた/悪い画像が出る場合は、shiftを12〜13に上げてください!ほとんどの悪い出力はこれで解決します。

マルチリファレンス生成

Qwen-Image-Edit-2511の主要機能はマルチリファレンス生成で、複数の画像を供給して生成を制御するのに役立てることができます。今回は unsloth_qwen_image_edit_2511.jsonを読み込みます。ほとんど同じモデルを使用しますが、Unetを qwen-image-2512-Q4_K_M.gguf に切り替えて qwen-image-edit-2511-Q4_K_M.gguf を使用します。今回のもう一つの違いは、参照する画像を選択するための追加ノードがあることです。これらは先にダウンロードしてあります。プロンプトでは 画像1画像2 の両方が参照アンカーとして言及されているのがわかります。読み込んだらRunをクリックすると、2つの独自のナマケモノキャラクターを並べつつ類似性を保った出力が得られます。

右の画像から作られた最終結果:

🤗 Diffusers チュートリアル

また、 Dynamic 4-bit BitsandBytesarrow-up-right で量子化したバージョンもアップロードしており、Hugging Faceの diffusers ライブラリで実行できます。繰り返しますが、重要なレイヤーはUnsloth Dynamicでより高精度にアップキャストされます。

実行 Qwen-Image-2512-unsloth-bnb-4bit を以下のコードで使用できます:

🎨 stable-diffusion.cpp チュートリアル

モデルをstable-diffusion.cppで実行したい場合は、当社の ステップバイステップガイドはこちら.

最終更新

役に立ちましたか?