🌠Qwen3 - 実行およびファインチューニング方法

Unsloth と当社の Dynamic 2.0 クオンタイズを用いて Qwen3 をローカルで実行・ファインチューニングする方法を学びましょう。

Qwenの新しいQwen3モデルは、推論、指示の追従、エージェント機能、多言語対応において最先端の進歩を提供します。

circle-check

すべてのアップロードはUnslothを使用しています Dynamic 2.0 SOTAの5ショットMMLUおよびKLダイバージェンス性能を実現しており、精度の損失を最小限に抑えて量子化されたQwenのLLMを実行およびファインチューニングできます。

また、ネイティブ128Kコンテキスト長を持つQwen3もアップロードしました。Qwenは元の40KウィンドウをYaRNを使って128Kに拡張することでこれを実現しています。

Unslotharrow-up-right さらに現在はファインチューニングおよび 強化学習(RL) Qwen3およびQwen3 MOEモデルの——2倍高速、VRAMを70%削減、コンテキスト長を8倍に延長。Qwen3(14B)を当社の Colabノートブックで無料でファインチューニングできます。arrow-up-right

Qwen3 実行チュートリアル Qwen3 のファインチューニング

Qwen3 - Unsloth Dynamic 2.0 最適な構成:

🖥️ Qwen3 を実行する

毎秒6トークン以上の推論速度を達成するには、使用しているモデルのサイズと同等以上の利用可能メモリを推奨します。例えば、30GBの1ビット量子化モデルは少なくとも150GBのメモリを必要とします。Q2_K_XL量子化(180GB)の場合、少なくとも 180GBの統合メモリが必要です (VRAM + RAM)または 180GBのRAM が最適なパフォーマンスのために必要です。

注意: モデルを そのサイズより少ない合計メモリで 実行することは可能です(例:より少ないVRAM、より少ないRAM、または合計が少ない場合)。ただし、これにより推論速度が遅くなります。最大のスループットと最速の推論時間を達成したい場合のみ、十分なメモリが必要です。

⚙️ 公式推奨設定

Qwenによれば、推論のために推奨される設定は次のとおりです:

非思考モードの設定:
思考モードの設定:

Temperature = 0.7

Temperature = 0.6

Min_P = 0.0(オプション。ただし0.01がよく機能します。llama.cppのデフォルトは0.1)

Min_P = 0.0

Top_P = 0.8

Top_P = 0.95

TopK = 20

TopK = 20

チャットテンプレート/プロンプト形式:

circle-check
circle-exclamation

思考モードと非思考モードの切り替え

Qwen3モデルには推論を強化し応答品質を向上させる組み込みの「思考モード」があり、これは QwQ-32B が動作した方法に似ています。切り替え方法は使用する推論エンジンによって異なるため、正しい手順を使用していることを確認してください。

llama.cppおよびOllamaの手順:

次を追加できます /think/no_think ユーザープロンプトやシステムメッセージに入れることで、ターンごとにモデルの思考モードを切り替えられます。マルチターン会話では最新の指示に従います。

以下はマルチターン会話の例です:

transformersとvLLMの手順:

思考モード:

enable_thinking=True

デフォルトでは、Qwen3は思考が有効になっています。呼び出すときに tokenizer.apply_chat_template、あなたは 何も手動で設定する必要はありません。

思考モードでは、モデルは最終回答の前に追加の <think>...</think> ブロックを生成します—これにより計画を立てて応答を磨くことができます。

非思考モード:

enable_thinking=False

非思考を有効にすると、Qwen3はすべての思考ステップをスキップし、通常のLLMのように振る舞います。

このモードでは最終回答を直接提供します—ブロックもチェーンオブソートもありません。 <think> 🦙 Ollama: Qwen3チュートリアルを実行

まだ試していない場合は!32Bまでのモデルのみ実行できます。235B-A22Bのフルモデルを実行するには、

  1. Ollamaで実行する をインストールしてください ollama run hf.co/unsloth/Qwen3-8B-GGUF:UD-Q4_K_XL まだインストールしていない場合!モデルのより多くのバリアントを実行するには、.

  1. curl -fsSL https://ollama.com/install.sh | sh モデルを実行してください!失敗した場合は別のターミナルでollama serve を呼び出すことができます!私たちはすべての修正と推奨パラメータ(temperatureなど)を params

  1. >>> Write your prompt here /nothink

circle-exclamation

)。Q4_K_Mやその他の量子化バージョンを選択できます。

  1. 最新の llama.cppGitHubで入手してくださいarrow-up-right。以下のビルド手順にも従うことができます。を変更してください -DGGML_CUDA=ON-DGGML_CUDA=OFF GPUを持っていない場合やCPUで推論したい場合は Apple Mac / Metalデバイスの場合、次を設定してください -DGGML_CUDA=OFF その後通常通り続行してください — Metalサポートはデフォルトで有効です。

  1. モデルをダウンロードするには(をインストールした後) モデルをダウンロードするには( repo_id = "unsloth/Qwen3-14B-GGUF",

  1. モデルを実行して任意のプロンプトを試してください。

>>> Write your prompt here /nothink

Qwen3-235B-A22Bについては、最適化された推論と豊富なオプションのために特に Llama.cpp を使用します。

repo_id = "unsloth/Qwen3-235B-A22B-GGUF",

  1. 上記と同様の手順に従いますが、今回はモデルが非常に大きいため追加の手順が必要になります。

  2. モデルをダウンロードするには(をインストールした後) モデルをダウンロードするには( )UD-Q2_K_XLやその他の量子化バージョンを選択できます。

  3. モデルを実行して任意のプロンプトを試してください。

  4. 編集 次の --threads 32 はCPUスレッドの数、 --ctx-size 16384 --n-gpu-layers 99 --n-gpu-layers 2

circle-check

UnslothはQwen3のファインチューニングを2倍高速にし、VRAM使用量を70%削減し、コンテキスト長を8倍に対応します。Qwen3(14B)はGoogle Colabの16GB VRAM Tesla T4 GPUに余裕で収まります。

Qwen3は推論(reasoning)と非推論の両方をサポートするため、非推論のデータセットでファインチューニングすることもできますが、これにより推論能力に影響を与える可能性があります。推論能力を維持したい場合(任意)、直接回答とチェーンオブソート(思考過程)の例を混在させて使用できます。使用するのは

当社の会話用ノートブックは、NVIDIAのopen-math-reasoningデータセット75%とMaximeのFineTomeデータセット(非推論)25%の組み合わせを使用しています。Qwen3をファインチューニングするための無料のUnsloth Colabノートブックはこちら: 75%の推論例25%の非推論例 を含めて、モデルの推論能力を保持してください。

Qwen3(14B) 推論+会話ノートブック

古いバージョンのUnslothを使用している、またはローカルでファインチューニングする場合は、最新バージョンのUnslothをインストールしてください:

ファインチューニングのサポートには当社の新しい2026年の

より高速なMOE アップデートが含まれます:30B-A3Bと235B-A22B。Qwen3-30B-A3BはUnslothでわずか17.5GBのVRAMで動作します。MoEのファインチューニングではルーターレイヤーをファインチューニングするのはあまり良いアイデアではないため、デフォルトで無効にしています。 30B-A3Bは17.5GBのVRAMに収まりますが、QLoRAファインチューニングのためにフルの16ビットモデルをダウンロードしてオンザフライで4ビットに変換する必要があるため、RAMやディスク容量が不足する可能性があります。これは4ビットBnB MOEモデルを直接インポートする際の問題によるもので、MOEモデルにのみ影響します。

from unsloth import FastModel

ノートブックを使用するには、RuntimeをクリックしてRun allを実行するだけです。ノートブック内の設定は任意に変更できます。デフォルトで自動設定しています。Hugging Face上のモデル名に合わせてモデル名を変更してください。例:'unsloth/Qwen3-8B' や 'unsloth/Qwen3-0.6B-unsloth-bnb-4bit'。

切り替え可能ないくつかの設定があります:

max_seq_length = 2048

  • – コンテキスト長を制御します。Qwen3は40960をサポートしますが、テストでは2048を推奨します。Unslothは8倍長いコンテキストのファインチューニングを可能にします。 load_in_4bit = True

  • – 4ビット量子化を有効にし、16GB GPUでのファインチューニング時にメモリ使用量を4倍削減します。 について

  • フルファインチューニング - 設定: full_finetuning = True 8ビットファインチューニングload_in_8bit = True full_finetuning = True Unslothノートブックを使ったファインチューニングのエンドツーエンドガイドや、ファインチューニング、データセットの作成などについて詳しく読みたい場合は、

データセット 等、当社の 完全なガイドをこちらでご覧ください Qwen3でのGRPO:

🧬Fine-tuning Guidechevron-right📈データセットガイドchevron-right

Qwen3のための新しい高度なGRPOノートブックを作成しました。当社の新しい近接ベースの報酬関数(より近い回答に高報酬)とHugging FaceのOpen-R1数学データセットの使い方を学んでください。 Unslothは現在、より良い評価を備え、最新バージョンのvLLMを使用しています。

notebook - 高度なGRPO LoRA

- 高度なGRPO LoRAarrow-up-right 次について学びます:

Qwen3(Base)に推論を有効にし、特定のタスクをさせる方法

  • GRPOがフォーマットを学習しやすい傾向を回避するための事前ファインチューニング

  • 新しい正規表現マッチングによる評価精度の向上

  • 単なる 'think' 以上のカスタムGRPOテンプレート(例:<start_working_out></end_working_out>)

  • 近接ベースのスコアリング:より良い回答はより多くのポイントを獲得し(例:答えが10のとき9を予測した場合)、外れ値はペナルティを受けます。

  • プロキシベースのスコアリング:より良い回答がより多くのポイントを得て(例:正解が10で9を予測した場合)外れ値は罰せられます。

最終更新

役に立ちましたか?