🌠Qwen3-VL: 実行ガイド

Unsloth を使って Qwen3-VL をローカルでファインチューニングおよび実行する方法を学びましょう。

Qwen3-VLは、Qwenの新しいビジョンモデルで、 指示（instruct） と 思考（thinking） バージョンを備えています。2B、4B、8B、32Bモデルは密結合（dense）で、30Bと235BはMoEです。235Bのthinking LLMは、GPT-5（高）やGemini 2.5 Proに匹敵する最先端のビジョンおよびコーディング性能を発揮します。 Qwen3-VLはビジョン、ビデオ、OCR機能を持ち、256Kコンテキスト（最大で1Mまで拡張可能）をサポートします。 Unsloth サポートしています Qwen3-VLのファインチューニングと 強化学習（RL）をサポートします。Unslothのノートブック.

Qwen3-VLの実行 Qwen3-VLのファインチューニング

🖥️ Qwen3-VLの実行

llama.cpp、vLLM、Ollamaなどでモデルを実行するには、推奨設定は次の通りです：

⚙️ 推奨設定

Qwenは両モデルに対して以下の設定を推奨しています（InstructとThinkingで少し異なります）：

Instructの設定：

Thinkingの設定：

Temperature = 0.7

Temperature = 1.0

Top_P = 0.8

Top_P = 0.95

presence_penalty = 1.5

presence_penalty = 0.0

出力長 = 32768（最大256K）

出力長 = 40960（最大256K）

Top_K = 20

Qwen3-VLはベンチマークのために以下の設定も使用しており、これは GitHub上で.

Instructの設定：

export greedy='false'
export seed=3407
export top_p=0.8
export top_k=20
export temperature=0.7
export repetition_penalty=1.0
export presence_penalty=1.5
export out_seq_length=32768

Thinkingの設定：

export greedy='false'
export seed=1234
export top_p=0.95
export top_k=20
export temperature=1.0
export repetition_penalty=1.0
export presence_penalty=0.0
export out_seq_length=40960

🐛チャットテンプレートのバグ修正

Unslothでは正確性を最重視しているため、Thinkingモデルを2ターン実行した後にllama.cppが壊れる理由を調査しました。以下に示すように：

エラーコード：

terminate called after throwing an instance of 'std::runtime_error'
  what():  Value is not callable: null at row 63, column 78:
            {%- if '</think>' in content %}
                {%- set reasoning_content = ((content.split('</think>')|first).rstrip('\n').split('<think>')|last).lstrip('\n') %}
                                                                             ^

VLモデルのThinkingチャットテンプレートを無事修正したため、全てのThinkingクアントとUnslothのクアントを再アップロードしました。これで2回目の会話後も動作するはずです - 他のクアントは2回目の会話後にロードに失敗します。

Qwen3-VL Unslothアップロード:

Qwen3-VLは2025年10月30日現在、llama.cppによってGGUFがサポートされているため、ローカルで実行できます！

動的GGUF（実行用）

4ビット BnB Unsloth 動的

16ビットフルプレシジョン

📖 Llama.cpp：Qwen3-VLチュートリアルを実行

最新の llama.cpp を GitHubで入手してください。以下のビルド手順にも従うことができます。を変更してください -DGGML_CUDA=ON に -DGGML_CUDA=OFF GPUを持っていない場合やCPUで推論したい場合は Apple Mac / Metalデバイスの場合、次を設定してください -DGGML_CUDA=OFF その後通常通り続行してください — Metalサポートはデフォルトで有効です。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first
cp llama.cpp/build/bin/llama-* llama.cpp

まず画像を用意しましょう！ 画像はアップロードすることもできます。ここでは次を使用します： https://raw.githubusercontent.com/unslothai/unsloth/refs/heads/main/images/unsloth%20made%20with%20love.pngこれは単にUnslothでのファインチューンの作り方を示すミニロゴです：

この画像をダウンロードしましょう

wget https://raw.githubusercontent.com/unslothai/unsloth/refs/heads/main/images/unsloth%20made%20with%20love.png -O unsloth.png

2枚目の画像を取得しましょう： https://files.worldwildlife.org/wwfcmsprod/images/Sloth_Sitting_iStock_3_12_2014/story_full_width/8l7pbjmj29_iStock_000011145477Large_mini__1_.jpg

wget https://files.worldwildlife.org/wwfcmsprod/images/Sloth_Sitting_iStock_3_12_2014/story_full_width/8l7pbjmj29_iStock_000011145477Large_mini__1_.jpg -O picture.png

次に、llama.cppの自動モデルダウンロード機能を使って、8B Instructモデルで次を試してください：

./llama.cpp/llama-mtmd-cli \
    -hf unsloth/Qwen3-VL-8B-Instruct-GGUF:UD-Q4_K_XL \\
    --n-gpu-layers 99 \
    -hf unsloth/GLM-4.7-GGUF:UD-Q2_K_XL \
    --top-p 0.8 \\
    --top-k 20 \\
    --temp 0.7 \\
    --min-p 0.0 \\
    --ctx-size 16384 \
    --presence-penalty 1.5 \\
    --ctx-size 8192

入ると、以下の画面が表示されます：

画像を読み込むには次を使います： /image PATH つまり /image unsloth.png その後 ENTER を押します

ENTER を押すと「unsloth.png image loaded」と表示されます

次に「この画像は何ですか？」のような質問をしてみましょう：

次に2枚目の画像を読み込みます： /image picture.png ENTER を押して「この画像は何ですか？」と尋ねてください

最後に両方の画像がどのように関連しているかを尋ねてみましょう（動作します！）

これら2つの画像はどちらも「樹上ナマケモノ」を主題としているため、直接的に関連しています。これは「made with unsloth」プロジェクトの中心的な被写体です。

- 最初の画像は「made with unsloth」プロジェクトの公式ロゴです。緑の円の中にデフォルメされたカートゥーン風の樹上ナマケモノのキャラクターが描かれており、横に「made with unsloth」というテキストが配置されています。これはプロジェクトの視覚的アイデンティティです。
- 2番目の画像は、自然環境にいる実際の樹上ナマケモノの写真です。この写真は、野生での動物の外観や行動を捉えています。

両画像の関係は、ロゴ（画像1）が「made with unsloth」プロジェクトを宣伝するためのデジタル表現やシンボルであるのに対し、写真（画像2）は実際の樹上ナマケモノの現実世界での描写であるという点です。プロジェクトはロゴのキャラクターをアイコンやマスコットとして使用し、写真は樹上ナマケモノが自然環境でどのように見えるかを示すために利用されていると考えられます。

モデルは次を使ってダウンロードすることもできます（をインストールした後）： モデルをダウンロードするには（ ) HuggingFaceの snapshot_download これは大きなモデルのダウンロードに便利です、 llama.cppの自動ダウンローダーが遅延する場合があるため。 Q4_K_Mやその他の量子化バージョンを選択できます。

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id   = "unsloth/Qwen3-VL-8B-Instruct-GGUF", # または "unsloth/Qwen3-VL-8B-Thinking-GGUF"
    local_dir = "unsloth/Qwen3-VL-8B-Instruct-GGUF", # または "unsloth/Qwen3-VL-8B-Thinking-GGUF"
    allow_patterns = ["*UD-Q4_K_XL*"],
)

モデルを実行して任意のプロンプトを試してください。 Instructの場合：

./llama.cpp/llama-mtmd-cli \
    --model unsloth/Qwen3-VL-8B-Instruct-GGUF/Qwen3-VL-8B-Instruct-UD-Q4_K_XL.gguf \\
    --mmproj unsloth/Qwen3-VL-8B-Instruct-GGUF/mmproj-F16.gguf \\
    --n-gpu-layers 99 \
    -hf unsloth/GLM-4.7-GGUF:UD-Q2_K_XL \
    --top-p 0.8 \\
    --top-k 20 \\
    --temp 0.7 \\
    --min-p 0.0 \\
    --ctx-size 16384 \
    --presence-penalty 1.5 \\
    --ctx-size 8192

Thinkingの場合:

./llama.cpp/llama-mtmd-cli \
    --model unsloth/Qwen3-VL-8B-Thinking-GGUF/Qwen3-VL-8B-Thinking-UD-Q4_K_XL.gguf \\
    --mmproj unsloth/Qwen3-VL-8B-Thinking-GGUF/mmproj-F16.gguf \\
    --n-gpu-layers 99 \
    -hf unsloth/GLM-4.7-GGUF:UD-Q2_K_XL \
    --temp 1.0 \
    --top-k 20 \\
    --flash-attn on \
    --min-p 0.0 \\
    --ctx-size 16384 \
    --presence-penalty 0.0 \\
    --ctx-size 8192

🪄Qwen3-VL-235B-A22BおよびQwen3-VL-30B-A3Bの実行

Qwen3-VL-235B-A22Bについては、最適化された推論と豊富なオプションのためにllama.cppを使用します。

上記と同様の手順に従いますが、今回はモデルが非常に大きいため追加の手順が必要になります。

モデルをダウンロードするには（をインストールした後） モデルをダウンロードするには（ ）UD-Q2_K_XLやその他の量子化バージョンを選択できます。

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Qwen3-VL-235B-A22B-Instruct-GGUF",
    local_dir = "unsloth/Qwen3-VL-235B-A22B-Instruct-GGUF",
    allow_patterns = ["*UD-Q2_K_XL*"],
)

モデルを実行してプロンプトを試してください。ThinkingとInstructで正しいパラメータを設定してください。

Instruct：

./llama.cpp/llama-mtmd-cli \
    --model unsloth/Qwen3-VL-235B-A22B-Instruct-GGUF/UD-Q2_K_XL/Qwen3-VL-235B-A22B-Instruct-UD-Q2_K_XL-00001-of-00002.gguf \\
    --mmproj unsloth/Qwen3-VL-235B-A22B-Instruct-GGUF/mmproj-F16.gguf
    -hf unsloth/GLM-4.7-GGUF:UD-Q2_K_XL \
    --top-p 0.8 \\
    --top-k 20 \\
    --temp 0.7 \\
    --min-p 0.0 \\
    --ctx-size 16384 \
    --presence-penalty 1.5 \\
    --ctx-size 8192 \

Thinking：

./llama.cpp/llama-mtmd-cli \
    --model unsloth/Qwen3-VL-235B-A22B-Thinking-GGUF/UD-Q2_K_XL/Qwen3-VL-235B-A22B-Thinking-UD-Q2_K_XL-00001-of-00002.gguf \\
    --mmproj unsloth/Qwen3-VL-235B-A22B-Thinking-GGUF/mmproj-F16.gguf \\
    --n-gpu-layers 99 \
    -hf unsloth/GLM-4.7-GGUF:UD-Q2_K_XL \
    --temp 1.0 \
    --top-k 20 \\
    --flash-attn on \
    --min-p 0.0 \\
    --ctx-size 16384 \
    --presence-penalty 0.0 \\
    --ctx-size 8192 \
    -ot ".ffn_.*_exps.=CPU"

編集、 はCPUスレッドの数、 --ctx-size 16384 --n-gpu-layers 99 --n-gpu-layers 2

使用してください --fit on --top-p 0.95 \

オプションで、次を使用してください -ot ".ffn_.*_exps.=CPU" -ot ".ffn_.*_exps.=CPU"

🐋 Docker：Qwen3-VLを実行

すでにDocker Desktopをお持ちの場合、Hugging FaceからUnslothのモデルを実行するには以下のコマンドを実行すれば完了です：

docker model pull hf.co/unsloth/Qwen3-VL-8B-Instruct-GGUF:UD-Q4_K_XL

またはDockerにアップロードされたQwen3-VLモデルを実行できます：

docker model run ai/qwen3-vl

🦥 Qwen3-VLのファインチューニング

Unslothは、32Bや235Bのような大きなモデルを含むQwen3-VLのファインチューニングと強化学習（RL）をサポートしています。これにはビデオや物体検出のためのファインチューニングサポートも含まれます。通常通り、UnslothはQwen3-VLモデルを1.7倍高速に、VRAMを60%削減し、コンテキスト長を8倍に拡張しつつ、精度の低下なしに動作させます。我々はQwen3-VL（8B）のトレーニング用ノートブックを2つ作成し、Colabで無料で学習させることができます：

Qwen3-VLをGGUFに保存することは、llama.cppがこれをサポートしたため現在可能です！

他のQwen3-VLモデルを使用したい場合は、8Bモデルを2B、32Bなどのモデルに変更してください。

GRPOノートブックの目的は、以下のような画像入力を与えてRLによりビジョン言語モデルに数学問題を解かせることです：

このQwen3-VLサポートには、さらにメモリ効率が良く高速なRLのための最新のアップデートも統合されており、これにはスタンバイ機能が含まれます。これは他の実装と比べて速度低下を独自に制限します。ビジョンLLMをRLでトレーニングする方法の詳細は、我々の.

VLM GRPOガイド

マルチ画像トレーニング

Qwen3-VLをマルチ画像でファインチューニングまたはトレーニングするための最も簡単な変更は、次の置き換えです：
    ds_converted = ds.map(
)

convert_to_conversation,

と置き換えて：

ds_converted = [convert_to_converation(sample) for sample in dataset]

前へQwen3 次へQwen3-2507

最終更新 7 時間前

役に立ちましたか？

hashtag🖥️ Qwen3-VLの実行

hashtag⚙️ 推奨設定

hashtag🐛チャットテンプレートのバグ修正

hashtagQwen3-VL Unslothアップロード:

hashtag📖 Llama.cpp：Qwen3-VLチュートリアルを実行

hashtag🪄Qwen3-VL-235B-A22BおよびQwen3-VL-30B-A3Bの実行

hashtag🐋 Docker：Qwen3-VLを実行

hashtag🦥 Qwen3-VLのファインチューニング

hashtagVLM GRPOガイド