# ComfyUI で Qwen-Image-2512 をローカル実行する方法

**Qwen-Image-2512** は Qwenのテキストから画像への基盤モデルに対する12月のアップデートです。このモデルはオープンソースの拡散モデルの中で最も性能が高く、このガイドでは [Unsloth](https://github.com/unslothai/unsloth) GGUFとComfyUIを使ってローカルで実行する方法を説明します。

Qwen-Image-2512 特徴: より現実的な人物表現；風景やテクスチャのより豊かなディテール；そしてより正確なテキスト描写。 **アップロード:** [GGUF](https://huggingface.co/unsloth/Qwen-Image-2512-GGUF) • [FP8](https://huggingface.co/unsloth/Qwen-Image-2512-FP8) • [4ビット BitsandBytes](https://huggingface.co/unsloth/Qwen-Image-2512-unsloth-bnb-4bit)

量子化は [Unsloth Dynamic](https://unsloth.ai/docs/jp/ji-ben/unsloth-dynamic-2.0-ggufs) 手法を使用しており、重要なレイヤーをより高精度にアップキャストして精度を回復します。Unslothにデイ0サポートを許可してくれたQwenに感謝します。

## 📖 ComfyUI チュートリアル

実行にはGPUは必須ではなく、RAMを搭載したCPUで動作します。最良の結果を得るには、総使用可能メモリ（RAM + VRAM / 統合）がGGUFファイルサイズより大きいことを確認してください。例：4ビット（Q4\_K\_M） `unsloth/Qwen-Image-Edit-2512-GGUF` は13.1 GBなので、合計13.2 GB以上のメモリが必要です。

[ComfyUI](https://github.com/Comfy-Org/ComfyUI) はノードベース（グラフ/フローチャート）インターフェースを使用するオープンソースの拡散モデルGUI、API、およびバックエンドです。このガイドはCUDAを備えたマシンに焦点を当てますが、AppleやCPUでビルドする手順も類似しています。

### #1. インストールとセットアップ

ComfyUIをインストールするには、WindowsまたはMacデバイス向けのデスクトップアプリをダウンロードできます [ここ](https://www.comfy.org/download)。それ以外の場合、GGUFモデルを実行するためにComfyUIをセットアップするには次を実行してください:

```bash
mkdir comfy_ggufs
cd comfy_ggufs
python -m venv .venv
source .venv/bin/activate

git clone https://github.com/Comfy-Org/ComfyUI.git
cd ComfyUI
pip install -r requirements.txt

cd custom_nodes
git clone https://github.com/city96/ComfyUI-GGUF
cd ComfyUI-GGUF
pip install -r requirements.txt
cd ../..
```

### #2. モデルのダウンロード

拡散モデルは通常3つのモデルを必要とします。画像のピクセル空間を潜在空間にエンコードする変分オートエンコーダ（VAE）、テキストを入力埋め込みに変換するテキストエンコーダ、そして実際の拡散トランスフォーマーです。すべてのUnsloth拡散GGUFは当社の [コレクションはこちら](https://huggingface.co/collections/unsloth/unsloth-diffusion-ggufs).

で見つけることができます。拡散モデルとテキストエンコーダはGGUF形式にでき、VAEは通常safetensorsを使用します。によると [Qwenのリポジトリ](https://huggingface.co/Qwen/Qwen-Image-2512/blob/main/text_encoder/config.json)、Qwen3-VLではなくQwen2.5-VLを使用します [。](https://unsloth.ai/docs/jp/moderu/tutorials/qwen3-how-to-run-and-fine-tune/qwen3-vl-how-to-run-and-fine-tune)使用するモデルをダウンロードしましょう（注: ComfyUIでは当社の [FP8アップロード](https://huggingface.co/unsloth/Qwen-Image-2512-FP8) も使用できます）:

```bash
cd models

## 拡散モデル
curl -L -C - -o unet/qwen-image-2512-Q4_K_M.gguf \
  https://huggingface.co/unsloth/Qwen-Image-2512-GGUF/resolve/main/qwen-image-2512-Q4_K_M.gguf
curl -L -C - -o unet/qwen-image-edit-2511-Q4_K_M.gguf \
  https://huggingface.co/unsloth/Qwen-Image-Edit-2511-GGUF/resolve/main/qwen-image-edit-2511-Q4_K_M.gguf
 
## テキストエンコーダ + ビジョンタワー + VAE   
curl -L -C - -o text_encoders/Qwen2.5-VL-7B-Instruct-UD-Q4_K_XL.gguf \
  https://huggingface.co/unsloth/Qwen2.5-VL-7B-Instruct-GGUF/resolve/main/Qwen2.5-VL-7B-Instruct-UD-Q4_K_XL.gguf
curl -L -C - -o text_encoders/Qwen2.5-VL-7B-Instruct-mmproj-BF16.gguf \
  https://huggingface.co/unsloth/Qwen2.5-VL-7B-Instruct-GGUF/resolve/main/mmproj-BF16.gguf
curl -L -C - -o vae/qwen_image_vae.safetensors \
  https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/resolve/main/split_files/vae/qwen_image_vae.safetensors
```

GGUFアップロードについては以下を参照してください: [Qwen-Image-2512](https://huggingface.co/unsloth/Qwen-Image-2512-GGUF), [Qwen-Image-Edit-2511](https://huggingface.co/unsloth/Qwen-Image-Edit-2511-GGUF)、および [Qwen-Image-Layered](https://huggingface.co/unsloth/Qwen-Image-Layered-GGUF)

{% hint style="warning" %}
VAEや拡散モデルの形式は、上記以外のチェックポイントを使用する場合、diffusersのチェックポイントとは異なる場合があります。ComfyUIと互換性のあるチェックポイントのみを使用してください。
{% endhint %}

これらのファイルはComfyUIが認識できる正しいフォルダに配置する必要があります。さらに、mmprojファイルに保存されたビジョンタワーはテキストエンコーダと同じプレフィックスを使用する必要があります。

後で使用する参照画像もダウンロードしてください:

```bash
curl -L -C - -o ../input/sloth1.jpg \
    "https://unsloth.ai/cgi/image/_1d5a5685-2d88-44ca-b50f-ba432cd646ef_9CGCY8lvw4D9JkOdueqsk.jpeg?width=1920&quality=80&format=jpeg"

curl -L -C - -o ../input/sloth2.jpg \
    "https://unsloth.ai/cgi/image/UnSloth_GPU_Front_-_Confetti_ArcSk-MR4MMN215UutOFZ.png?width=1920&quality=80&format=jpeg"
```

### #3. ワークフローとハイパーパラメータ

詳細については、当社の詳細な [#workflow-and-hyperparameters-1](https://unsloth.ai/docs/jp/burogu/comfyui#workflow-and-hyperparameters-1 "mention") ガイド。

ComfyUIのメインディレクトリに移動して次を実行します:

```bash
python main.py
```

{% hint style="info" %}
`python main.py --cpu` でCPUで実行できますが、遅くなります。
{% endhint %}

これによりウェブサーバーが起動し、次にアクセスできるようになります `https://127.0.0.1:8188` 。クラウドで実行している場合、ローカルマシンからアクセスするためにポートフォワーディングを設定する必要があります。

ワークフローは出力画像（PNGメタデータ）に埋め込まれたJSONファイルまたは個別の `.json` ファイルとして保存されます。次のことができます:

* 画像をComfyUIにドラッグ＆ドロップしてそのワークフローを読み込む
* メニューからワークフローをエクスポート/インポートする
* ワークフローをJSONファイルとして共有する

以下はダウンロードして使用できるQwen-Image-2512およびQwen-Image-Edit-2511のjsonファイルの2例です:

{% file src="<https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FevILpOrozIHhFAyEvMCx%2Funsloth_qwen_image_2512.json?alt=media&token=67888ed5-6c70-4743-af36-63457e0ca45f>" %}

当社のワークフローでは、実用的な中間点としてデフォルトを **1024×1024** にしています。モデルはネイティブ解像度（1328×1328）をサポートしますが、ネイティブで生成すると通常実行時間が **\~50%**&#x5897;加します。GGUFはオーバーヘッドを追加し、40ステップは 比較的長い実行なので、1024×1024は生成時間を合理的に保ちます。必要なら解像度を1328に上げることもできます。

{% hint style="warning" %}
より現実的な結果を得るには、“photorealistic”や“digital rendering”や“3d render”のようなキーワードを避け、“photograph”のような用語を使ってください。
{% endhint %}

{% hint style="info" %}
ネガティブプロンプトでは、NLPスタイルのアプローチを使うのが最適です： **自然言語で** 画像に *含めたくない* ものを説明してください。あまりにも多くのキーワードを詰め込みすぎると、より具体的にするどころか結果を悪化させることがあります。
{% endhint %}

{% file src="<https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FmSITE2ZPxriP9ssd1Qtq%2Funsloth_qwen_image_edit_2511.json?alt=media&token=d5e0db6a-d96e-461d-8238-d954f1f559ef>" %}

{% columns %}
{% column %}
ワークフローをゼロから設定する代わりに、ここからワークフローをダウンロードできます。

Comfyのロゴ -> ファイル -> 開く をクリックしてブラウザページに読み込み、次にダウンロードした `unsloth_qwen_image_2512.json` ファイルを選択してください。以下のように見えるはずです：
{% endcolumn %}

{% column %}

<figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FqoxBnRlnYrmzLfZshE1Z%2FScreenshot%20from%202025-12-29%2014-37-00.png?alt=media&#x26;token=1b1517b7-d44f-4e95-a5ed-759a4e0f74ec" alt="" width="254"><figcaption></figcaption></figure>
{% endcolumn %}
{% endcolumns %}

<figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FIg48mzpraPTu1O16X1ay%2FScreenshot%20from%202025-12-30%2015-27-35.png?alt=media&#x26;token=c761e48a-18cd-4291-9f29-3c09f621729d" alt="" width="563"><figcaption></figcaption></figure>

このワークフローは公式に公開されたComfyUIのワークフローに基づいていますが、GGUFローダー拡張を使用し、テキストから画像への機能を示すために簡略化されています。&#x20;

### #4. 推論

ComfyUIは非常にカスタマイズ可能です。モデルを混在させて極めて複雑なパイプラインを作成できます。基本的なテキストから画像の設定では、モデルを読み込み、プロンプトと画像の詳細を指定し、サンプリング戦略を決定する必要があります。&#x20;

#### **モデルのアップロード + プロンプトの設定**

モデルは既にダウンロードしてあるので、正しいものを選ぶだけです。Unetローダーには `qwen-image-2512-Q4_K_M.gguf`を選び、CLIPLoaderには `Qwen2.5-VL-7B-Instruct-UD-Q4_K_XL.gguf`を選び、VAEの読み込みには `qwen_image_vae.safetensors`.&#x20;

{% hint style="info" %}
より現実的な結果を得るには、“photorealistic”や“digital rendering”や“3d render”のようなキーワードを避け、“photograph”のような用語を使ってください。
{% endhint %}

を選んでください。任意のプロンプトを設定でき、ネガティブプロンプトも指定できます。ネガティブプロンプトはモデルに回避すべき方向を示すことで役立ちます。

{% hint style="info" %}
ネガティブプロンプトでは、NLPスタイルのアプローチを使うのが最適です： **自然言語で** 画像に *含めたくない* ものを説明してください。あまりにも多くのキーワードを詰め込みすぎると、より具体的にするどころか結果を悪化させることがあります。
{% endhint %}

#### **画像サイズ + サンプラーパラメータ**

Qwen Imageモデルシリーズは異なる画像サイズをサポートします。幅と高さの値を設定して長方形を作成できます。サンプラーパラメータでは、euler以外のさまざまなサンプラーや、より多い/少ないサンプリングステップを試すことができます。ワークフローのステップは40に設定されていますが、簡単なテストでは20で十分な場合があります。生成後の `control after generate` 設定をrandomizeからfixedに変更すると、設定の違いが出力にどう影響するか確認できます。

#### **実行**

Runをクリックすると約1分で画像が生成されます（20ステップなら30秒）。生成された画像は保存できます。興味深い点は、Comfyワークフロー全体のメタデータが画像に保存されることです。画像を共有すれば、誰でもUIに読み込んでどのように作成されたかを見ることができます。

<figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2F3fvZ7Y7dyOwwWfQXP4U9%2Funsloth_woman.png?alt=media&#x26;token=bf131b12-be85-45c9-83bb-6a087decb8bb" alt="" width="188"><figcaption></figcaption></figure>

{% hint style="info" %}
ぼやけた/悪い画像が出る場合は、shiftを12〜13に上げてください！ほとんどの悪い出力はこれで解決します。
{% endhint %}

#### **マルチリファレンス生成**

Qwen-Image-Edit-2511の主要機能はマルチリファレンス生成で、複数の画像を供給して生成を制御するのに役立てることができます。今回は `unsloth_qwen_image_edit_2511.json`を読み込みます。ほとんど同じモデルを使用しますが、Unetを `qwen-image-2512-Q4_K_M.gguf` に切り替えて `qwen-image-edit-2511-Q4_K_M.gguf` を使用します。今回のもう一つの違いは、参照する画像を選択するための追加ノードがあることです。これらは先にダウンロードしてあります。プロンプトでは `画像1` と `画像2` の両方が参照アンカーとして言及されているのがわかります。読み込んだらRunをクリックすると、2つの独自のナマケモノキャラクターを並べつつ類似性を保った出力が得られます。

<div><figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FmHqctMHBGGtyTMh7VcxN%2Funsloth_diffusion1.png?alt=media&#x26;token=c66059ae-4015-4fea-9181-75566bc7f03d" alt="" width="188"><figcaption><p>右の画像から作られた最終結果：</p></figcaption></figure> <figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FvRbCNdlnmXOyM84YaF0b%2Fsloth%20gpu%20square.png?alt=media&#x26;token=7b5c14ae-b5d7-4554-86e5-f8e2480bbb39" alt="" width="188"><figcaption></figcaption></figure> <figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FwAYdYspdgZGbxFePXf06%2Fsloth%20on%20gpu.jpg?alt=media&#x26;token=1031686f-1f0d-423a-80ae-77127aaaa0bd" alt="" width="188"><figcaption></figcaption></figure></div>

## 🤗 D**iffusers チュートリアル**

また、 [Dynamic 4-bit BitsandBytes](https://huggingface.co/unsloth/Qwen-Image-2512-unsloth-bnb-4bit) で量子化したバージョンもアップロードしており、Hugging Faceの `diffusers` ライブラリで実行できます。繰り返しますが、重要なレイヤーはUnsloth Dynamicでより高精度にアップキャストされます。

実行 `Qwen-Image-2512-unsloth-bnb-4bit` を以下のコードで使用できます：

```python
from diffusers import DiffusionPipeline
import torch

pipe = DiffusionPipeline.from_pretrained(
    "unsloth/Qwen-Image-2512-unsloth-bnb-4bit",
    torch_dtype=torch.bfloat16,
).to('cuda')

# メモリ不足の場合はコメントを外してください
# pipe.enable_model_cpu_offload() 

output = pipe(
    prompt="ドラムを叩くかわいいナマケモノ",
    negative_prompt="ぼやけた、ピントが合っていない",
    num_inference_steps=20,
    true_cfg_scale=4.0,
)

# 出力を保存
image = output.images[0]
image.save('sample.png')
```

## 🎨 **stable-diffusion.cpp チュートリアル**

モデルをstable-diffusion.cppで実行したい場合は、当社の [ステップバイステップガイドはこちら](https://unsloth.ai/docs/jp/moderu/tutorials/qwen-image-2512/stable-diffusion.cpp).


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/jp/moderu/tutorials/qwen-image-2512.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
