🌠Qwen3 - 実行&ファインチューニング方法
Unsloth と当社の Dynamic 2.0 量子化を使って Qwen3 をローカルで実行&ファインチューニングする方法を学びます。
Qwen の新しい Qwen3 モデルは、推論、指示の遵守、エージェント機能、多言語サポートにおいて最先端の進歩を提供します。
新着! Qwen3 は 2025年7月にアップデートされました。最新モデルを実行およびファインチューニングしてください: Qwen-2507
すべてのアップロードはUnslothを使用しています Dynamic 2.0 SOTA の 5-shot MMLU と KL ダイバージェンス性能を実現しており、つまり精度低下を最小限に抑えて量子化された Qwen LLM を実行およびファインチューニングできるということです。
また、ネイティブで 128K コンテキスト長を持つ Qwen3 もアップロードしました。Qwen は YaRN を使用して元の 40K ウィンドウを 128K に拡張することでこれを達成します。
Unsloth また現在はファインチューニングと 強化学習 (RL) Qwen3 と Qwen3 MOE モデルの — 2倍高速、VRAM は 70% 減、コンテキスト長は 8倍に。Qwen3 (14B) を我々の Colab ノートブックで無料でファインチューニングしてください。
Qwen3 実行チュートリアル Qwen3 のファインチューニング
Qwen3 - Unsloth Dynamic 2.0 最適な構成:
🖥️ Qwen3 の実行
1秒あたり 6 トークン以上の推論速度を達成するには、利用可能なメモリが使用しているモデルのサイズと同等以上であることを推奨します。例えば、30GB の 1-bit 量子化モデルは少なくとも 150GB のメモリが必要です。Q2_K_XL クアント(180GB)は少なくとも 180GB の統一メモリ (VRAM + RAM)または 180GB の RAM が最適なパフォーマンスのために必要です。
注意: モデルを サイズより少ない合計メモリで (つまり VRAM が少ない、RAM が少ない、または合計が少ない)実行することは可能です。しかし、これは推論速度の低下を招きます。十分なメモリは、スループットを最大化して最速の推論時間を達成したい場合にのみ必要です。
⚙️ 公式推奨設定
Qwen によれば、推論の推奨設定は次のとおりです:
Temperature = 0.7
Temperature = 0.6
Min_P = 0.0(任意、しかし 0.01 がよく機能します。llama.cpp のデフォルトは 0.1)
Min_P = 0.0
Top_P = 0.8
Top_P = 0.95
TopK = 20
TopK = 20
チャットテンプレート/プロンプト形式:
非思考モードの場合、我々は故意に <think> と </think> を何も入れずに囲みます:
思考モードでは、貪欲デコーディングを使用しないでください。これは性能低下や終わりのない繰り返しを引き起こす可能性があります。
思考モードと非思考モードの切り替え
Qwen3 モデルには推論を強化し応答品質を向上させる組み込みの「思考モード」があり、これはかつての QwQ-32B と類似しています。切り替えの手順は使用している推論エンジンによって異なるため、正しい手順を使用していることを確認してください。
llama.cpp と Ollama の手順:
次を追加できます /think および /no_think をユーザープロンプトやシステムメッセージに追加して、ターンごとにモデルの思考モードを切り替えられます。マルチターン会話ではモデルは最新の指示に従います。
ここにマルチターン会話の例があります:
transformers と vLLM の手順:
思考モード:
enable_thinking=True
デフォルトでは Qwen3 は思考が有効になっています。あなたが tokenizer.apply_chat_templateを呼び出すと、 何も手動で設定する必要はありません。
思考モードでは、モデルは最終回答の前に追加の <think>...</think> ブロックを生成します — これにより「計画」して応答を研ぎ澄ますことができます。
非思考モード:
enable_thinking=False
非思考を有効にすると Qwen3 はすべての思考ステップをスキップし、通常の LLM のように振る舞います。
このモードは最終的な応答を直接提供します — つまり <think> ブロックもチェーン・オブ・ソートもありません。
🦙 Ollama:Qwen3 チュートリアルを実行
インストールしてください
ollamaもしまだなら! 32B までのモデルしか実行できません。フルの 235B-A22B モデルを実行するには、 ここを参照してください.
モデルを実行してください!失敗した場合は別の端末で
ollama serveを呼び出せます!私たちのすべての修正と推奨パラメータ(temperatureなど)はparamsにHugging Faceのアップロードで含めています!
思考を無効化するには、次を使用してください(またはシステムプロンプトで設定できます):
ループが発生している場合、Ollama がコンテキスト長ウィンドウを約 2,048 に設定している可能性があります。この場合は 32,000 に引き上げて問題が解消するか確認してください。
📖 Llama.cpp:Qwen3 チュートリアルを実行
最新の
llama.cppを GitHub で入手できます。下のビルド手順に従うこともできます。変更してください-DGGML_CUDA=ONから-DGGML_CUDA=OFFGPU がない場合や CPU 推論のみを行いたい場合は。
(以下をインストールした後に)モデルをダウンロードします
pip install huggingface_hub hf_transfer)。Q4_K_M やその他の量子化バージョンを選択できます。
モデルを実行して、任意のプロンプトを試してください。
思考を無効化するには、次を使用してください(またはシステムプロンプトで設定できます):
Qwen3-235B-A22B の実行
Qwen3-235B-A22B については、最適化された推論と豊富なオプションのために特に Llama.cpp を使用します。
上記と同様の手順に従いますが、今回はモデルが非常に大きいため追加の手順を実行する必要があります。
(以下をインストールした後に)モデルをダウンロードします
pip install huggingface_hub hf_transfer)UD-Q2_K_XLやその他の量子化バージョンを選択できます。。モデルを実行して、任意のプロンプトを試してください。
編集
--threads 32でCPUスレッド数を編集できます、--ctx-size 16384でコンテキスト長を、--n-gpu-layers 99で何層をGPUにオフロードするかを指定します。GPUがメモリ不足になる場合は調整してみてください。CPUのみの推論の場合はこれを削除してください。
使用する -ot ".ffn_.*_exps.=CPU" ですべてのMoE層をCPUにオフロードします!これにより、非MoE層を1つのGPUに収められるようになり、生成速度が向上します。GPU容量が大きい場合は正規表現をカスタマイズしてより多くの層を適合させることができます。
🦥 Unsloth による Qwen3 のファインチューニング
Unsloth により Qwen3 のファインチューニングは 2 倍高速になり、VRAM 使用量は 70% 減り、コンテキスト長は 8 倍までサポートされます。Qwen3 (14B) は Google Colab の 16GB VRAM Tesla T4 GPU に余裕を持って収まります。
Qwen3 は推論と非推論の両方をサポートするため、非推論データセットでファインチューニングすることもできますが、これにより推論能力に影響が出る可能性があります。推論能力を維持したい場合(任意)には、直接的な回答とチェーン・オブ・ソートの例を混在させることができます。使用してください 75%の推論(reasoning) および 25%の非推論(non-reasoning) を含めて、モデルが推論能力を保持するようにしてください。
我々の会話用ノートブックは NVIDIA の open-math-reasoning データセットを 75% と Maxime の FineTome データセット(非推論)を 25% の組み合わせで使用します。Qwen3 をファインチューニングするための無料の Unsloth Colab ノートブックはこちらです:
Qwen3(4B) - 高度な GRPO LoRA
Qwen3 (14B) Alpaca ノートブック (Base モデル向け)
Unsloth の古いバージョンを使用している、またはローカルでファインチューニングしている場合は、最新バージョンの Unsloth をインストールしてください:
Qwen3 MOE モデルのファインチューニング
ファインチューニングのサポートには次が含まれます MOE モデル:30B-A3B と 235B-A22B。Qwen3-30B-A3B は Unsloth を使えば 17.5GB VRAM だけで動作します。MoE をファインチューニングする際はルーターレイヤーをファインチューニングするのは良い考えではない可能性があるため、デフォルトで無効にしています。
30B-A3B は 17.5GB VRAM に収まりますが、QLoRA ファインチューニングではフルの 16-bit モデルをダウンロードしてオンザフライで 4-bit に変換する必要があるため、RAM やディスク容量が不足する可能性があります。これは 4-bit BnB MOE モデルを直接インポートする際の問題によるもので、MOE モデルにのみ影響します。
ノートブックガイド:

ノートブックを使用するには、Runtime をクリックしてから Run all を実行するだけです。ノートブック内の設定は任意に変更できます。デフォルトでは自動的に設定しています。モデル名を Hugging Face 上のモデル名に合わせて 'unsloth/Qwen3-8B' や 'unsloth/Qwen3-0.6B-unsloth-bnb-4bit' のように変更してください。
切り替え可能な他の設定がいくつかあります:
max_seq_length = 2048– コンテキスト長を制御します。Qwen3 は 40960 をサポートしますが、テストには 2048 を推奨します。Unsloth はファインチューニングで 8× 長いコンテキストを可能にします。load_in_4bit = True– 4-bit 量子化を有効にし、16GB GPU 上でのファインチューニングのメモリ使用量を 4× 減らします。に関して フルファインチューニング - 設定:
full_finetuning = Trueおよび 8-bit ファインチューニング - 設定:load_in_8bit = True
Unsloth ノートブックを使ったファインチューニングのエンドツーエンドガイドや、ファインチューニングやデータ作成について詳しく知りたい場合は、 datasets など、我々の 完全なガイドはこちらを参照してください:
🧬Fine-tuning Guide📈データセットガイドGRPO と Qwen3
Qwen3 のファインチューニング用に新しい高度な GRPO ノートブックを作成しました。近接ベースの報酬関数(より近い回答に報酬)と Hugging Face の Open-R1 数学データセットの使い方を学んでください。 Unsloth は現在、より優れた評価手法を備え、最新バージョンの vLLM を使用しています。
Qwen3(4B) ノートブック - 高度な GRPO LoRA
学べる内容:
Qwen3 (Base) に推論を有効化し、特定のタスクを行うよう導く方法
GRPO がフォーマットを学習する傾向を回避するための事前ファインチューニング
新しい正規表現マッチングによる評価精度の向上
think 以外のカスタム GRPO テンプレート、例:<start_working_out></end_working_out>
近接ベースのスコアリング:より良い回答がより多くのポイントを獲得(例:正解が 10 のとき 9 を予測すると報酬)、外れ値にはペナルティ

最終更新
役に立ちましたか?

