🌠Qwen3-VL：如何运行指南

学习如何使用 Unsloth 本地微调并运行 Qwen3-VL。

Qwen3-VL 是 Qwen 的新视觉模型，具有 指令式 和思考版本。2B、4B、8B 和 32B 模型为密集模型，而 30B 和 235B 为 MoE。235B 思考 LLM 提供了与 GPT-5（高）和 Gemini 2.5 Pro 竞争的最先进视觉和编码性能。 Qwen3-VL 拥有视觉、视频和 OCR 能力，并支持 256K 上下文（可扩展到 1M）。 Unsloth 支持 Qwen3-VL 微调和 强化学习. 使用我们的免费笔记本.

运行 Qwen3-VL 微调 Qwen3-VL

🖥️ 运行 Qwen3-VL

要在 llama.cpp、vLLM、Ollama 等中运行该模型，推荐以下设置：

⚙️ 推荐设置

Qwen 为两个模型推荐了这些设置（Instruct 与 Thinking 略有不同）：

指令（Instruct）设置：

思考（Thinking）设置：

温度 = 0.7

温度 = 1.0

Top_P = 0.8

Top_P = 0.95

presence_penalty = 1.5

presence_penalty = 0.0

输出长度 = 32768（最高可达 256K）

输出长度 = 40960（最高可达 256K）

Top_K = 20

Qwen3-VL 在其基准测试中也使用了以下设置，如在 GitHub 上所述.

指令（Instruct）设置：

export greedy='false'
export seed=3407
export top_p=0.8
export top_k=20
export temperature=0.7
export repetition_penalty=1.0
export presence_penalty=1.5
export out_seq_length=32768

思考（Thinking）设置：

export greedy='false'
export seed=1234
export top_p=0.95
export top_k=20
export temperature=1.0
export repetition_penalty=1.0
export presence_penalty=0.0
export out_seq_length=40960

🐛聊天模板错误修复

在 Unsloth，我们最关心准确性，因此我们调查了为什么在运行 Thinking 模型的第 2 回合后，llama.cpp 会出现崩溃，如下所示：

错误代码：

terminate called after throwing an instance of 'std::runtime_error'
  what():  Value is not callable: null at row 63, column 78:
            {%- if '</think>' in content %}
                {%- set reasoning_content = ((content.split('</think>')|first).rstrip('\n').split('<think>')|last).lstrip('\n') %}
                                                                             ^

我们已成功修复了 VL 模型的 Thinking 聊天模板，因此我们重新上传了所有 Thinking 的量化模型和 Unsloth 的量化模型。它们现在在第 2 次对话后应该都能正常工作 - 其他量化模型在第 2 次对话后将无法加载。

Qwen3-VL Unsloth 上传:

自 2025 年 10 月 30 日起，llama.cpp 已支持 Qwen3-VL 的 GGUF，因此您可以在本地运行它们！

动态 GGUF（以运行）

4 位 BnB Unsloth 动态

16 位全精度

📖 Llama.cpp：运行 Qwen3-VL 教程

获取最新的 llama.cpp 在此处的 GitHub。您也可以按照下面的构建说明进行操作。如果您没有 GPU 或仅想使用 CPU 推理，请将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF 。如果您没有 GPU 或仅想使用 CPU 推理，请设置为关闭。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first
cp llama.cpp/build/bin/llama-* llama.cpp

我们先获取一张图片！ 您也可以上传图片。我们将使用 https://raw.githubusercontent.com/unslothai/unsloth/refs/heads/main/images/unsloth%20made%20with%20love.png，这只是我们展示如何用 Unsloth 制作微调的迷你徽标：

让我们下载这张图片

wget https://raw.githubusercontent.com/unslothai/unsloth/refs/heads/main/images/unsloth%20made%20with%20love.png -O unsloth.png

接着，我们获取第二张图片，地址为 https://files.worldwildlife.org/wwfcmsprod/images/Sloth_Sitting_iStock_3_12_2014/story_full_width/8l7pbjmj29_iStock_000011145477Large_mini__1_.jpg

wget https://files.worldwildlife.org/wwfcmsprod/images/Sloth_Sitting_iStock_3_12_2014/story_full_width/8l7pbjmj29_iStock_000011145477Large_mini__1_.jpg -O picture.png

然后，使用 llama.cpp 的自动模型下载功能，针对 8B Instruct 模型可以尝试如下：

./llama.cpp/llama-mtmd-cli \
    -hf unsloth/Qwen3-VL-8B-Instruct-GGUF:UD-Q4_K_XL \
    --n-gpu-layers 99 \
    --jinja \
    --top-p 0.8 \
    --top-k 20 \
    --temp 0.7 \
    --min-p 0.0 \
    --flash-attn on \
    --presence-penalty 1.5 \
    --ctx-size 8192

进入后，您将看到以下界面：

通过以下命令加载图片 /image PATH 即 /image unsloth.png 然后按回车键

当您按下回车时，它会显示“unsloth.png image loaded”

现在让我们问一个问题，例如“这张图片是什么？”：

现在通过以下命令加载图片 2： /image picture.png 然后按回车并询问“这张图片是什么？”

最后让我们询问两张图片之间的关系（可用！）

这两张图片直接相关，因为它们都以树懒（tree sloth）为主题，而树懒是“made with unsloth”项目的核心主体。

- 第一张图片是“made with unsloth”项目的官方徽标。它展示了一个风格化、卡通化的树懒角色置于绿色圆圈内，旁边有“made with unsloth”的文字。这是该项目的视觉识别标志。
- 第二张图片是一张真实树懒在其自然栖息地的照片。该照片捕捉了动物在野外的外观和行为。

两张图片之间的关系在于：徽标（图片 1）是用于推广“made with unsloth”项目的数字化表示或符号，而照片（图片 2）则是真实世界中树懒的实际描绘。该项目可能将徽标中的角色用作图标或吉祥物，而照片用于展示树懒在自然环境中的样子。

您也可以通过以下方式下载模型（在安装 pip install huggingface_hub hf_transfer ) 之后使用 HuggingFace 的 snapshot_download ，这对大型模型下载很有用， 因为 llama.cpp 的自动下载器可能会较慢。 您可以选择 Q4_K_M 或其他量化版本。

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id   = "unsloth/Qwen3-VL-8B-Instruct-GGUF", # 或 "unsloth/Qwen3-VL-8B-Thinking-GGUF"
    local_dir = "unsloth/Qwen3-VL-8B-Instruct-GGUF", # 或 "unsloth/Qwen3-VL-8B-Thinking-GGUF"
    allow_patterns = ["*UD-Q4_K_XL*"],
)

运行模型并尝试任何提示（prompt）。 对于 Instruct：

./llama.cpp/llama-mtmd-cli \
    --model unsloth/Qwen3-VL-8B-Instruct-GGUF/Qwen3-VL-8B-Instruct-UD-Q4_K_XL.gguf \
    --mmproj unsloth/Qwen3-VL-8B-Instruct-GGUF/mmproj-F16.gguf \
    --n-gpu-layers 99 \
    --jinja \
    --top-p 0.8 \
    --top-k 20 \
    --temp 0.7 \
    --min-p 0.0 \
    --flash-attn on \
    --presence-penalty 1.5 \
    --ctx-size 8192

对于 Thinking:

./llama.cpp/llama-mtmd-cli \
    --model unsloth/Qwen3-VL-8B-Thinking-GGUF/Qwen3-VL-8B-Thinking-UD-Q4_K_XL.gguf \
    --mmproj unsloth/Qwen3-VL-8B-Thinking-GGUF/mmproj-F16.gguf \
    --n-gpu-layers 99 \
    --jinja \
    --top-p 0.95 \
    --top-k 20 \
    --temp 1.0 \
    --min-p 0.0 \
    --flash-attn on \
    --presence-penalty 0.0 \
    --ctx-size 8192

🪄运行 Qwen3-VL-235B-A22B 和 Qwen3-VL-30B-A3B

对于 Qwen3-VL-235B-A22B，我们将使用 llama.cpp 进行优化推理并提供大量选项。

我们遵循与上面类似的步骤，但这次由于模型非常大，还需要额外步骤。

通过以下方式下载模型（在安装 pip install huggingface_hub hf_transfer ) 之后。您可以选择 UD-Q2_K_XL 或其他量化版本。

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Qwen3-VL-235B-A22B-Instruct-GGUF",
    local_dir = "unsloth/Qwen3-VL-235B-A22B-Instruct-GGUF",
    allow_patterns = ["*UD-Q2_K_XL*"],
)

运行模型并尝试一个提示。为 Thinking 与 Instruct 设置正确的参数。

指令（Instruct）：

./llama.cpp/llama-mtmd-cli \
    --model unsloth/Qwen3-VL-235B-A22B-Instruct-GGUF/UD-Q2_K_XL/Qwen3-VL-235B-A22B-Instruct-UD-Q2_K_XL-00001-of-00002.gguf \
    --mmproj unsloth/Qwen3-VL-235B-A22B-Instruct-GGUF/mmproj-F16.gguf
    --jinja \
    --top-p 0.8 \
    --top-k 20 \
    --temp 0.7 \
    --min-p 0.0 \
    --flash-attn on \
    --presence-penalty 1.5 \
    --ctx-size 8192 \

思考（Thinking）：

./llama.cpp/llama-mtmd-cli \
    --model unsloth/Qwen3-VL-235B-A22B-Thinking-GGUF/UD-Q2_K_XL/Qwen3-VL-235B-A22B-Thinking-UD-Q2_K_XL-00001-of-00002.gguf \
    --mmproj unsloth/Qwen3-VL-235B-A22B-Thinking-GGUF/mmproj-F16.gguf \
    --n-gpu-layers 99 \
    --jinja \
    --top-p 0.95 \
    --top-k 20 \
    --temp 1.0 \
    --min-p 0.0 \
    --flash-attn on \
    --presence-penalty 0.0 \
    --ctx-size 8192 \
    -ot ".ffn_.*_exps.=CPU"

编辑， --ctx-size 16384 用于上下文长度， --n-gpu-layers 99 用于指定要在 GPU 上卸载的层数。如果您的 GPU 内存不足，请尝试调整该值。如果仅使用 CPU 推理，请移除该参数。

使用 --fit on （于 2025 年 12 月 15 日引入），以最大化 GPU 和 CPU 的使用效率。

可选地，使用 -ot ".ffn_.*_exps.=CPU" 将所有 MoE 层卸载到 CPU！这实际上允许您将所有非 MoE 层放在 1 块 GPU 上，从而提高生成速度。如果您有更多 GPU 资源，可以自定义正则表达式以适配更多层。

🐋 Docker：运行 Qwen3-VL

如果您已经安装了 Docker 桌面版，要从 Hugging Face 运行 Unsloth 的模型，请运行下面的命令即可：

docker model pull hf.co/unsloth/Qwen3-VL-8B-Instruct-GGUF:UD-Q4_K_XL

或者您可以运行 Docker 上已上传的 Qwen3-VL 模型：

docker model run ai/qwen3-vl

🦥 微调 Qwen3-VL

Unsloth 支持 Qwen3-VL 的微调和强化学习（RL），包括更大的 32B 和 235B 模型。这包括对视频和目标检测微调的支持。如往常一样，Unsloth 使 Qwen3-VL 模型训练速度提高 1.7 倍，显存减少 60%，上下文长度增加 8 倍且无准确性下降。我们制作了两个 Qwen3-VL（8B）训练笔记本，您可以在 Colab 上免费训练：

将 Qwen3-VL 保存为 GGUF 现在可行，因为 llama.cpp 刚刚支持了它！

如果您想使用任何其他 Qwen3-VL 模型，只需将 8B 模型替换为 2B、32B 等即可。

GRPO 笔记本的目标是使视觉语言模型通过强化学习在给定如下图像输入时解决数学问题：

此 Qwen3-VL 支持还集成了我们最新的更新，以实现更省内存且更快速的强化学习，包括我们的待机（Standby）功能，它在与其他实现相比时独特地限制了速度下降。您可以通过我们的 VLM GRPO 指南.

hashtag🖥️ 运行 Qwen3-VL

hashtag⚙️ 推荐设置

hashtag🐛聊天模板错误修复

hashtagQwen3-VL Unsloth 上传:

hashtag📖 Llama.cpp：运行 Qwen3-VL 教程

hashtag🪄运行 Qwen3-VL-235B-A22B 和 Qwen3-VL-30B-A3B

hashtag🐋 Docker：运行 Qwen3-VL

hashtag🦥 微调 Qwen3-VL

hashtag阅读更多关于如何使用强化学习训练视觉 LLM 的内容，