🌠Qwen3 - 実行およびファインチューニング方法

Unsloth と当社の Dynamic 2.0 クオンタイズを用いて Qwen3 をローカルで実行・ファインチューニングする方法を学びましょう。

Qwenの新しいQwen3モデルは、推論、指示の追従、エージェント機能、多言語対応において最先端の進歩を提供します。

新着！ Qwen3は2025年7月に更新されました。最新モデルを実行およびファインチューニングしてください： Qwen-2507

すべてのアップロードはUnslothを使用しています Dynamic 2.0 SOTAの5ショットMMLUおよびKLダイバージェンス性能を実現しており、精度の損失を最小限に抑えて量子化されたQwenのLLMを実行およびファインチューニングできます。

また、ネイティブ128Kコンテキスト長を持つQwen3もアップロードしました。Qwenは元の40KウィンドウをYaRNを使って128Kに拡張することでこれを実現しています。

Unsloth さらに現在はファインチューニングおよび強化学習（RL） Qwen3およびQwen3 MOEモデルの——2倍高速、VRAMを70%削減、コンテキスト長を8倍に延長。Qwen3（14B）を当社の Colabノートブックで無料でファインチューニングできます。

Qwen3 実行チュートリアル Qwen3 のファインチューニング

Qwen3 - Unsloth Dynamic 2.0 最適な構成：

Dynamic 2.0 GGUF（実行用）

128K コンテキスト GGUF

Dynamic 4-bit Safetensor（ファインチューニング/デプロイ用）

🖥️ Qwen3 を実行する

毎秒6トークン以上の推論速度を達成するには、使用しているモデルのサイズと同等以上の利用可能メモリを推奨します。例えば、30GBの1ビット量子化モデルは少なくとも150GBのメモリを必要とします。Q2_K_XL量子化（180GB）の場合、少なくとも 180GBの統合メモリが必要です （VRAM + RAM）または 180GBのRAM が最適なパフォーマンスのために必要です。

注意： モデルを そのサイズより少ない合計メモリで 実行することは可能です（例：より少ないVRAM、より少ないRAM、または合計が少ない場合）。ただし、これにより推論速度が遅くなります。最大のスループットと最速の推論時間を達成したい場合のみ、十分なメモリが必要です。

⚙️ 公式推奨設定

Qwenによれば、推論のために推奨される設定は次のとおりです：

非思考モードの設定：

思考モードの設定：

Temperature = 0.7

Temperature = 0.6

Min_P = 0.0（オプション。ただし0.01がよく機能します。llama.cppのデフォルトは0.1）

Min_P = 0.0

Top_P = 0.8

Top_P = 0.95

TopK = 20

チャットテンプレート/プロンプト形式：

<|im_start|>user\nWhat is 2+2?<|im_end|>\n<|im_start|>assistant\n

非思考モードの場合、意図的に <think> と </think> を何も入れずに囲みます：

<|im_start|>user\nWhat is 2+2?<|im_end|>\n<|im_start|>assistant\n<think>\n\n</think>\n\n

思考モードでは、グリーディデコーディングを使用しないでください、これは性能低下や無限の反復を招く可能性があります。

思考モードと非思考モードの切り替え

Qwen3モデルには推論を強化し応答品質を向上させる組み込みの「思考モード」があり、これは QwQ-32B が動作した方法に似ています。切り替え方法は使用する推論エンジンによって異なるため、正しい手順を使用していることを確認してください。

llama.cppおよびOllamaの手順：

次を追加できます /think と /no_think ユーザープロンプトやシステムメッセージに入れることで、ターンごとにモデルの思考モードを切り替えられます。マルチターン会話では最新の指示に従います。

以下はマルチターン会話の例です：

> Who are you /no_think

<think>

</think>

I am Qwen, a large-scale language model developed by Alibaba Cloud. [...]

> How many 'r's are in 'strawberries'? /think

<think>
Okay, let's see. The user is asking how many times the letter 'r' appears in the word "strawberries". [...]
</think>

The word strawberries contains 3 instances of the letter r. [...]

transformersとvLLMの手順：

思考モード：

enable_thinking=True

デフォルトでは、Qwen3は思考が有効になっています。呼び出すときに tokenizer.apply_chat_template、あなたは 何も手動で設定する必要はありません。

text = tokenizer.apply_chat_template(
    次に以下の関数を使用します（コピーして貼り付けて実行してください）。これらは関数呼び出しを自動的に解析し、任意のモデルに対してOpenAIエンドポイントを呼び出します：
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True  # デフォルトは True
)

思考モードでは、モデルは最終回答の前に追加の <think>...</think> ブロックを生成します—これにより計画を立てて応答を磨くことができます。

非思考モード：

enable_thinking=False

非思考を有効にすると、Qwen3はすべての思考ステップをスキップし、通常のLLMのように振る舞います。

text = tokenizer.apply_chat_template(
    次に以下の関数を使用します（コピーして貼り付けて実行してください）。これらは関数呼び出しを自動的に解析し、任意のモデルに対してOpenAIエンドポイントを呼び出します：
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=False  # 思考モードを無効化
)

このモードでは最終回答を直接提供します—ブロックもチェーンオブソートもありません。 <think> 🦙 Ollama: Qwen3チュートリアルを実行

まだ試していない場合は！32Bまでのモデルのみ実行できます。235B-A22Bのフルモデルを実行するには、

Ollamaで実行する をインストールしてください ollama run hf.co/unsloth/Qwen3-8B-GGUF:UD-Q4_K_XL まだインストールしていない場合！モデルのより多くのバリアントを実行するには、.

apt-get update
こちらを参照してください
apt-get install pciutils -y

curl -fsSL https://ollama.com/install.sh | sh モデルを実行してください！失敗した場合は別のターミナルでollama serve を呼び出すことができます！私たちはすべての修正と推奨パラメータ（temperatureなど）を params

思考を無効にするには、（またはシステムプロンプトで設定できます）：

>>> Write your prompt here /nothink

ループが発生している場合、Ollamaがコンテキスト長ウィンドウを約2,048に設定している可能性があります。この場合、32,000に上げて問題が解消されるか確認してください。

📖 Llama.cpp: Qwen3チュートリアルを実行

）。Q4_K_Mやその他の量子化バージョンを選択できます。

最新の llama.cpp を GitHubで入手してください。以下のビルド手順にも従うことができます。を変更してください -DGGML_CUDA=ON に -DGGML_CUDA=OFF GPUを持っていない場合やCPUで推論したい場合は Apple Mac / Metalデバイスの場合、次を設定してください -DGGML_CUDA=OFF その後通常通り続行してください — Metalサポートはデフォルトで有効です。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

モデルをダウンロードするには（をインストールした後） モデルをダウンロードするには（ repo_id = "unsloth/Qwen3-14B-GGUF",

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    local_dir = "unsloth/Qwen3-14B-GGUF",
    --model unsloth/Qwen3-14B-GGUF/Qwen3-14B-UD-Q2_K_XL.gguf \
    allow_patterns = ["*UD-Q4_K_XL*"],
)

モデルを実行して任意のプロンプトを試してください。

export LLAMA_CACHE="unsloth/GLM-4.7-GGUF"
    -no-cnv
    --jinja \
    --n-gpu-layers 99 \
    model = "unsloth/Kimi-K2-Thinking",
    --model unsloth/GLM-4.7-GGUF/UD-Q2_K_XL/GLM-4.7-UD-Q2_K_XL-00001-of-00003.gguf \
    --fit on \
    --temp 0.6 \
    --min-p 0.0 \\
    --temp 1.0 \
    --top-k 20 \\
    Qwen3-235B-A22B の実行

>>> Write your prompt here /nothink

ループが発生している場合、Ollamaがコンテキスト長ウィンドウを約2,048に設定している可能性があります。この場合、32,000に上げて問題が解消されるか確認してください。

Qwen3-235B-A22Bについては、最適化された推論と豊富なオプションのために特に Llama.cpp を使用します。

repo_id = "unsloth/Qwen3-235B-A22B-GGUF",

上記と同様の手順に従いますが、今回はモデルが非常に大きいため追加の手順が必要になります。

モデルをダウンロードするには（をインストールした後） モデルをダウンロードするには（ ）UD-Q2_K_XLやその他の量子化バージョンを選択できます。

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    local_dir = "unsloth/Qwen3-235B-A22B-GGUF",
    --model unsloth/Qwen3-235B-A22B-GGUF/Qwen3-235B-A22B-UD-Q2_K_XL.gguf \
    allow_patterns = ["*UD-Q2_K_XL*"],
)

モデルを実行して任意のプロンプトを試してください。
編集 次の --threads 32 はCPUスレッドの数、 --ctx-size 16384 --n-gpu-layers 99 --n-gpu-layers 2

使用してください -ot ".ffn_.*_exps.=CPU" -ot ".ffn_.*_exps.=CPU"

export LLAMA_CACHE="unsloth/GLM-4.7-GGUF"
    --prompt "<|im_start|>user\nCreate a Flappy Bird game in Python. You must include these things:\n1. You must use pygame.\n2. The background color should be randomly chosen and is a light shade. Start with a light blue color.\n3. Pressing SPACE multiple times will accelerate the bird.\n4. The bird's shape should be randomly chosen as a square, circle or triangle. The color should be randomly chosen as a dark color.\n5. Place on the bottom some land colored as dark brown or yellow chosen randomly.\n6. Make a score shown on the top right side. Increment if you pass pipes and don't hit them.\n7. Make randomly spaced pipes with enough space. Color them randomly as dark green or light brown or a dark gray shade.\n8. When you lose, show the best score. Make the text inside the screen. Pressing q or Esc will quit the game. Restarting is pressing SPACE again.\nThe final game should be inside a markdown section in Python. Check your code for errors and fix them before the final markdown section.<|im_end|>\n<|im_start|>assistant\n"
    --jinja \
    --n-gpu-layers 99 \
    model = "unsloth/Kimi-K2-Thinking",
    --model unsloth/GLM-4.7-GGUF/UD-Q2_K_XL/GLM-4.7-UD-Q2_K_XL-00001-of-00003.gguf \
    --fit on \
    --temp 0.6 \
    --min-p 0.0 \\
    --temp 1.0 \
    --top-k 20 \\
    -no-cnv \
    🦥 UnslothでQwen3をファインチューニングする

UnslothはQwen3のファインチューニングを2倍高速にし、VRAM使用量を70%削減し、コンテキスト長を8倍に対応します。Qwen3（14B）はGoogle Colabの16GB VRAM Tesla T4 GPUに余裕で収まります。

Qwen3は推論（reasoning）と非推論の両方をサポートするため、非推論のデータセットでファインチューニングすることもできますが、これにより推論能力に影響を与える可能性があります。推論能力を維持したい場合（任意）、直接回答とチェーンオブソート（思考過程）の例を混在させて使用できます。使用するのは

当社の会話用ノートブックは、NVIDIAのopen-math-reasoningデータセット75%とMaximeのFineTomeデータセット（非推論）25%の組み合わせを使用しています。Qwen3をファインチューニングするための無料のUnsloth Colabノートブックはこちら： 75%の推論例と 25%の非推論例を含めて、モデルの推論能力を保持してください。

Qwen3（14B）推論＋会話ノートブック

Qwen3（4B）（推奨）
- 高度なGRPO LoRA Qwen3（14B） Alpacaノートブック
（ベースモデル向け） Qwen3 MOEモデルのファインチューニング

古いバージョンのUnslothを使用している、またはローカルでファインチューニングする場合は、最新バージョンのUnslothをインストールしてください：

pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo

ファインチューニングのサポートには当社の新しい2026年の

より高速なMOE アップデートが含まれます：30B-A3Bと235B-A22B。Qwen3-30B-A3BはUnslothでわずか17.5GBのVRAMで動作します。MoEのファインチューニングではルーターレイヤーをファインチューニングするのはあまり良いアイデアではないため、デフォルトで無効にしています。 30B-A3Bは17.5GBのVRAMに収まりますが、QLoRAファインチューニングのためにフルの16ビットモデルをダウンロードしてオンザフライで4ビットに変換する必要があるため、RAMやディスク容量が不足する可能性があります。これは4ビットBnB MOEモデルを直接インポートする際の問題によるもので、MOEモデルにのみ影響します。

from unsloth import FastModel

model, tokenizer = FastModel.from_pretrained(
import torch
model_name = "unsloth/Qwen3-30B-A3B",
    max_seq_length = 2048, # 長いコンテキストのために任意の値を選択！
    load_in_4bit = True,  # メモリ削減のための4ビット量子化
    ノートブックガイド：
    load_in_8bit = False, # [新機能！] 若干精度が高く、2倍のメモリを使用
    full_finetuning = False, # [新機能！] フルファインチューニングが利用可能です！
    # token = "hf_...", # ゲート付きモデルを使用する場合はこれを使う
)

ノートブックを使用するには、RuntimeをクリックしてRun allを実行するだけです。ノートブック内の設定は任意に変更できます。デフォルトで自動設定しています。Hugging Face上のモデル名に合わせてモデル名を変更してください。例：'unsloth/Qwen3-8B' や 'unsloth/Qwen3-0.6B-unsloth-bnb-4bit'。

切り替え可能ないくつかの設定があります：

max_seq_length = 2048

– コンテキスト長を制御します。Qwen3は40960をサポートしますが、テストでは2048を推奨します。Unslothは8倍長いコンテキストのファインチューニングを可能にします。 load_in_4bit = True
– 4ビット量子化を有効にし、16GB GPUでのファインチューニング時にメモリ使用量を4倍削減します。 について
フルファインチューニング - 設定： full_finetuning = True 8ビットファインチューニング と load_in_8bit = True full_finetuning = True Unslothノートブックを使ったファインチューニングのエンドツーエンドガイドや、ファインチューニング、データセットの作成などについて詳しく読みたい場合は、

データセット等、当社の完全なガイドをこちらでご覧ください Qwen3でのGRPO:

🧬Fine-tuning Guide 📈データセットガイド

Qwen3のための新しい高度なGRPOノートブックを作成しました。当社の新しい近接ベースの報酬関数（より近い回答に高報酬）とHugging FaceのOpen-R1数学データセットの使い方を学んでください。 Unslothは現在、より良い評価を備え、最新バージョンのvLLMを使用しています。

notebook - 高度なGRPO LoRA

- 高度なGRPO LoRA 次について学びます：

Qwen3（Base）に推論を有効にし、特定のタスクをさせる方法

GRPOがフォーマットを学習しやすい傾向を回避するための事前ファインチューニング
新しい正規表現マッチングによる評価精度の向上
単なる 'think' 以上のカスタムGRPOテンプレート（例：<start_working_out></end_working_out>）
近接ベースのスコアリング：より良い回答はより多くのポイントを獲得し（例：答えが10のとき9を予測した場合）、外れ値はペナルティを受けます。
プロキシベースのスコアリング：より良い回答がより多くのポイントを得て（例：正解が10で9を予測した場合）外れ値は罰せられます。

前へLong Context gpt-oss 次へQwen3-VL

最終更新 7 時間前

役に立ちましたか？

hashtagQwen3 - Unsloth Dynamic 2.0 最適な構成：

hashtag🖥️ Qwen3 を実行する

hashtag⚙️ 公式推奨設定

hashtag思考モードと非思考モードの切り替え

hashtagllama.cppおよびOllamaの手順：

hashtagtransformersとvLLMの手順：

hashtagまだ試していない場合は！32Bまでのモデルのみ実行できます。235B-A22Bのフルモデルを実行するには、

hashtag）。Q4_K_Mやその他の量子化バージョンを選択できます。

hashtagQwen3-235B-A22Bについては、最適化された推論と豊富なオプションのために特に Llama.cpp を使用します。

hashtagUnslothはQwen3のファインチューニングを2倍高速にし、VRAM使用量を70%削減し、コンテキスト長を8倍に対応します。Qwen3（14B）はGoogle Colabの16GB VRAM Tesla T4 GPUに余裕で収まります。

hashtagファインチューニングのサポートには当社の新しい2026年の

Qwen3 - Unsloth Dynamic 2.0 最適な構成：

🖥️ Qwen3 を実行する

⚙️ 公式推奨設定

思考モードと非思考モードの切り替え

llama.cppおよびOllamaの手順：

transformersとvLLMの手順：

まだ試していない場合は！32Bまでのモデルのみ実行できます。235B-A22Bのフルモデルを実行するには、

）。Q4_K_Mやその他の量子化バージョンを選択できます。

Qwen3-235B-A22Bについては、最適化された推論と豊富なオプションのために特に Llama.cpp を使用します。

UnslothはQwen3のファインチューニングを2倍高速にし、VRAM使用量を70%削減し、コンテキスト長を8倍に対応します。Qwen3（14B）はGoogle Colabの16GB VRAM Tesla T4 GPUに余裕で収まります。

ファインチューニングのサポートには当社の新しい2026年の