🎨stable-diffusion.cpp で Qwen-Image-2512 を実行するチュートリアル

stable-diffusion.cpp で Qwen-Image-2512 を使用するためのチュートリアル。

Qwen-Image-2512 はQwenの新しいテキストから画像への基盤モデルで、現在stable-diffusion.cppを介してローカルデバイス上で実行できます。手順は以下をご覧ください:

📖 stable-diffusion.cpp チュートリアル

stable-diffusion.cpparrow-up-right は純粋なC/C++で記述された、拡散画像モデルの効率的なローカル推論のためのオープンソースライブラリです。

実行にはGPUは必須ではなく、RAMを搭載したCPUで動作します。最良の結果を得るには、総使用可能メモリ(RAM + VRAM / 統合)がGGUFファイルサイズより大きいことを確認してください。例:4ビット(Q4_K_M) unsloth/Qwen-Image-Edit-2512-GGUF は13.1 GBなので、合計13.2 GB以上のメモリが必要です。

このチュートリアルはCUDAが利用可能なマシンに焦点を当てますが、Apple向けやCPUのみでのビルド手順も同様でリポジトリに記載されています。

#1. 環境のセットアップ

ソースからビルドするので、まずビルド用ソフトウェアがインストールされていることを確認する必要があります

sudo apt update
sudo apt install -y git cmake build-essential pkg-config
circle-info

リリースページarrow-up-right は、ビルドプロセスを経たくない場合にハードウェア向けの事前ビルド済みバイナリを提供している可能性があります。

CUDAの環境変数が設定されていることを確認してください:

export CUDA_HOME=/usr/local/cuda
export PATH="$CUDA_HOME/bin:$PATH"
export LD_LIBRARY_PATH="$CUDA_HOME/lib64:${LD_LIBRARY_PATH:-}"

正しく設定されているかどうかは次を実行して確認できます:

nvcc --version  // 見つからない場合はnvidia-cuda-toolkitをインストールしてください
ldconfig -p | grep -E 'libcudart\.so|libcublas\.so'

これでリポジトリをクローンしてビルドできます:

sd-cliがビルドされたことを確認してください:

#2. モデルのダウンロード

拡散モデルには通常3つのコンポーネントが必要です。画像ピクセル空間を潜在空間に変換するVariational AutoEncoder(VAE)、テキストを入力埋め込みに変換するテキストエンコーダ、そして実際の拡散トランスフォーマーです。拡散モデルとテキストエンコーダはGGUF形式にでき、VAEは通常safetensorsを使用します。使用するモデルをダウンロードしましょう:

Q4のGGUFバリアントを使用していますが、VRAM/RAMの量に応じてより小さいまたは大きい量子化タイプを試すことができます。

circle-exclamation

ワークフローとハイパーパラメータ

詳細はご覧いただけます Run GGUFs in ComfyUI ガイド。

#3. 推論

これでビルドしたバイナリを実行できます。これは基本的なテキストから画像へのコマンドの例です:

circle-check

最終更新

役に立ちましたか?