🎨在 stable-diffusion.cpp 中运行 Qwen-Image-2512 教程

在 stable-diffusion.cpp 中使用 Qwen-Image-2512 的教程。

Qwen-Image-2512 是 Qwen 的新文本到图像基础模型,你现在可以通过 stable-diffusion.cpp 在本地设备上运行它。下面是说明:

📖 stable-diffusion.cpp 教程

stable-diffusion.cpparrow-up-right 是一个使用纯 C/C++ 编写的用于高效本地推理扩散图像模型的开源库。

运行时不需要 GPU,只需一台有足够内存(RAM)的 CPU 即可。为了获得最佳效果,请确保你的总可用内存(RAM + VRAM/统一内存)大于 GGUF 文件大小;例如 4 位(Q4_K_M) unsloth/Qwen-Image-Edit-2512-GGUF 是 13.1 GB,因此你应当有 13.2+ GB 的合并内存。

本教程将重点介绍可用 CUDA 的机器,但在 Apple 或仅 CPU 上构建的说明类似并可在仓库中找到。

#1. 设置环境

我们将从源码构建,因此首先需要确保你的构建软件已安装

sudo apt update
sudo apt install -y git cmake build-essential pkg-config
circle-info

发行页面arrow-up-right 如果你不想经过构建过程,可能会有针对你硬件的预构建二进制可用。

确保已设置 CUDA 环境变量:

export CUDA_HOME=/usr/local/cuda
export PATH="$CUDA_HOME/bin:$PATH"
export LD_LIBRARY_PATH="$CUDA_HOME/lib64:${LD_LIBRARY_PATH:-}"

你可以通过运行以下命令确认是否设置正确:

nvcc --version  // 如果未找到,请安装 nvidia-cuda-toolkit
ldconfig -p | grep -E 'libcudart\.so|libcublas\.so'

我们现在可以克隆仓库并进行构建:

确认 sd-cli 已构建:

#2. 下载模型

扩散模型通常需要 3 个组件。一个将图像像素空间编码到潜在空间的变分自编码器(VAE)、一个将文本转换为输入嵌入的文本编码器,以及实际的扩散变换器。扩散模型和文本编码器可以是 GGUF 格式,而我们通常对 VAE 使用 safetensors。让我们下载将使用的模型:

我们使用的是 Q4 GGUF 变体,但你可以根据 VRAM/RAM 的多少尝试更小或更大的量化类型。

circle-exclamation

工作流程与超参数

你可以查看我们的详细 Run GGUFs in ComfyUI 指南。

#3. 推理

我们现在可以运行已构建的二进制文件。下面是一个基本文本到图像命令的示例:

circle-check

最后更新于

这有帮助吗?