🌠Qwen3-2507: ローカルで実行するガイド
Qwen3-30B-A3B-2507 と 235B-A22B の Thinking および Instruct バージョンをローカルで実行しましょう!
Qwenは2507(2025年7月)で、 Qwen3 4B、30B、235Bモデルの更新を公開し、「Thinking(思考)」と「Non-thinking(非思考)」の両バリアントを導入しました。非思考の'Qwen3-30B-A3B-Instruct-2507'と 'Qwen3-235B-A22B-Instruct-2507' は256Kのコンテキストウィンドウ、改善された指示追従、多言語対応、およびアライメントを備えています。
思考(Thinking)モデルの'Qwen3-30B-A3B-Thinking-2507'と 'Qwen3-235B-A22B-Thinking-2507'は推論に優れており、235Bは論理、数学、科学、コーディング、および高度な学術タスクでSOTAの結果を達成しています。
Unsloth また、現在ファインチューニングと 強化学習(RL) がQwen3-2507モデルでサポートされています — 実行が2倍高速化、VRAMは70%削減、コンテキスト長は8倍に拡張
30B-A3Bを実行する235B-A22Bを実行するQwen3-2507をファインチューニングする
Unsloth Dynamic 2.0 GGUF:
⚙️ ベストプラクティス
ThinkingモデルとInstructモデルでは設定が異なります。 Thinkingモデルはtemperature = 0.6を使用しますが、Instructモデルはtemperature = 0.7を使用します。 Thinkingモデルはtop_p = 0.95を使用しますが、Instructモデルはtop_p = 0.8を使用します。
最適なパフォーマンスを得るために、Qwenは以下の設定を推奨します:
Temperature = 0.7
Temperature = 0.6
Min_P = 0.00 (llama.cppのデフォルトは0.1です)
Min_P = 0.00 (llama.cppのデフォルトは0.1です)
Top_P = 0.80
Top_P = 0.95
TopK = 20
TopK = 20
presence_penalty = 0.0 から 2.0 (llama.cppのデフォルトでは無効になっていますが、繰り返しを減らすためにこれを使用できます)
presence_penalty = 0.0 から 2.0 (llama.cppのデフォルトでは無効になっていますが、繰り返しを減らすためにこれを使用できます)
適切な出力長: 出力長には 32,768 ほとんどのクエリに対して十分なトークン数です。
Thinking(thinkingには <think></think>)およびInstruct両方のチャットテンプレートは以下の通りです:
📖 Qwen3-30B-A3B-2507チュートリアルを実行する
以下はモデルの Thinking と Instruct バージョンに関するガイドです。
Instruct: Qwen3-30B-A3B-Instruct-2507
これは非思考モデルであるため、 thinking=False を設定する必要はなく、モデルは生成しません <think> </think> ブロックを。
⚙️ ベストプラクティス
最適なパフォーマンスを得るために、Qwenは以下の設定を推奨します:
使用を推奨します
temperature=0.7、top_p=0.8、top_k=20、および min_p=0.0presence_penaltyフレームワークがサポートしている場合、無限の繰り返しを減らすために0〜2の間で。temperature = 0.7top_k = 20min_p = 0.00(llama.cppのデフォルトは0.1です)top_p = 0.80presence_penalty = 0.0 から 2.0(llama.cpp のデフォルトでは無効になっていますが、繰り返しを減らすためにこれを使用できます) 例えば1.0を試してください。最大でサポートします
262,144コンテキストをネイティブに持ちますが、設定して32,768RAM使用量を減らすためのトークン
🦙 Ollama: Qwen3-30B-A3B-Instruct-2507チュートリアルを実行する
Ollamaで実行する
をインストールしてくださいまだ行っていない場合は! 最大32Bまでのモデルのみ実行できます。
curl -fsSL https://ollama.com/install.sh | sh
モデルを実行してください!失敗した場合は別のターミナルでollama serveを呼び出すことができます!私たちはすべての修正と推奨パラメータ(temperatureなど)をparams
✨ Llama.cpp: Qwen3-30B-A3B-Instruct-2507チュートリアルを実行する
最新の
llama.cppを GitHubで入手してください。以下のビルド手順にも従うことができます。を変更してください-DGGML_CUDA=ONに-DGGML_CUDA=OFFGPUを持っていない場合やCPUで推論したい場合は Apple Mac / Metalデバイスの場合、次を設定してください-DGGML_CUDA=OFFその後通常通り続行してください — Metalサポートはデフォルトで有効です。
HuggingFace から直接プルできます:
モデルをダウンロードするには(をインストールした後)
モデルをダウンロードするには()。UD_Q4_K_XLや他の量子化バージョンを選択できます。
Thinking: Qwen3-30B-A3B-Thinking-2507
このモデルはネイティブで思考モードと256Kのコンテキストウィンドウのみをサポートします。デフォルトのチャットテンプレートは自動的に <think> を追加するため、出力には閉じる </think> タグのみが表示されることがあります。
⚙️ ベストプラクティス
最適なパフォーマンスを得るために、Qwenは以下の設定を推奨します:
使用を推奨します
temperature=0.6、top_p=0.95、top_k=20、および min_p=0.0presence_penaltyフレームワークがサポートしている場合、無限の繰り返しを減らすために0〜2の間で。temperature = 0.6top_k = 20min_p = 0.00(llama.cppのデフォルトは0.1です)top_p = 0.95presence_penalty = 0.0 から 2.0(llama.cpp のデフォルトでは無効になっていますが、繰り返しを減らすためにこれを使用できます) 例えば1.0を試してください。最大でサポートします
262,144コンテキストをネイティブに持ちますが、設定して32,768RAM使用量を減らすためのトークン
🦙 Ollama: Qwen3-30B-A3B-Instruct-2507チュートリアルを実行する
Ollamaで実行する
をインストールしてくださいまだ行っていない場合は! 最大32Bまでのモデルのみ実行できます。フルの235B-A22Bモデルを実行するには、 まだインストールしていない場合!モデルのより多くのバリアントを実行するには、.
curl -fsSL https://ollama.com/install.sh | sh
モデルを実行してください!失敗した場合は別のターミナルでollama serveを呼び出すことができます!私たちはすべての修正と推奨パラメータ(temperatureなど)をparams
✨ Llama.cpp: Qwen3-30B-A3B-Instruct-2507チュートリアルを実行する
最新の
llama.cppを GitHubで入手してください。以下のビルド手順にも従うことができます。を変更してください-DGGML_CUDA=ONに-DGGML_CUDA=OFFGPUを持っていない場合やCPUで推論したい場合は Apple Mac / Metalデバイスの場合、次を設定してください-DGGML_CUDA=OFFその後通常通り続行してください — Metalサポートはデフォルトで有効です。
Hugging Face から直接プルできます:
モデルをダウンロードするには(をインストールした後)
モデルをダウンロードするには()。UD_Q4_K_XLや他の量子化バージョンを選択できます。
📖 実行する Qwen3-235B-A22B-2507 チュートリアル
以下はモデルの Thinking と Instruct バージョンに関するガイドです。
Thinking: Qwen3-235B-A22B-Thinking-2507
このモデルはネイティブで思考モードと256Kのコンテキストウィンドウのみをサポートします。デフォルトのチャットテンプレートは自動的に <think> を追加するため、出力には閉じる </think> タグのみが表示されることがあります。
⚙️ ベストプラクティス
最適なパフォーマンスを達成するために、QwenはThinkingモデルに以下の設定を推奨します:
temperature = 0.6top_k = 20min_p = 0.00(llama.cppのデフォルトは0.1です)top_p = 0.95presence_penalty = 0.0 から 2.0(llama.cpp のデフォルトでは無効になっていますが、繰り返しを減らすためにこれを使用できます) 例えば1.0を試してください。適切な出力長: 出力長には
32,768ほとんどのクエリに対して十分なトークン数です。
✨llama.cppを使ってQwen3-235B-A22B-Thinkingを実行する:
Qwen3-235B-A22Bでは、最適化された推論と多くのオプションのために特にLlama.cppを使用します。
もし フルプレシジョンの非量子化バージョンが必要なら、私たちの Q8_K_XL、Q8_0 または BF16 バージョンを使ってください!
最新の
llama.cppを GitHubで入手してください。以下のビルド手順にも従うことができます。を変更してください-DGGML_CUDA=ONに-DGGML_CUDA=OFFGPUを持っていない場合やCPUで推論したい場合は Apple Mac / Metalデバイスの場合、次を設定してください-DGGML_CUDA=OFFその後通常通り続行してください — Metalサポートはデフォルトで有効です。llama.cppで直接モデルをダウンロードすることもできますが、通常は
huggingface_hubを使うことをお勧めします。llama.cppを直接使用するには、次を実行してください:モデルをダウンロードするには(をインストールした後)
モデルをダウンロードするには()UD-Q2_K_XLやその他の量子化バージョンを選択できます。モデルを実行して任意のプロンプトを試してください。
編集
--threads -1--threads 32--ctx-sizeコンテキスト長は262114、--n-gpu-layers 99--n-gpu-layers 2
使用してください -ot ".ffn_.*_exps.=CPU" -ot ".ffn_.*_exps.=CPU"
Instruct: Qwen3-235B-A22B-Instruct-2507
これは非思考モデルであるため、 thinking=False を設定する必要はなく、モデルは生成しません <think> </think> ブロックを。
⚙️ ベストプラクティス
最適なパフォーマンスを達成するために、以下の設定を推奨します:
1. サンプリングパラメータ: 推奨するのは temperature=0.7, top_p=0.8, top_k=20, および min_p=0. presence_penalty フレームワークがサポートしている場合、無限の繰り返しを減らすために0〜2の間で。
2. 適切な出力長: 出力長には 16,384 ほとんどのクエリに対して十分なトークン数を推奨します。これはInstructモデルに適しています。
3. 出力形式の標準化: ベンチマーク時にモデル出力を標準化するためにプロンプトを使用することをお勧めします。
数学の問題: 含める
段階的に推論し、最終解答を \boxed{} 内に入れてください。をプロンプトに含めてください。選択式問題: 応答を標準化するために、次のJSON構造をプロンプトに追加してください:"`answer` フィールドに選択肢の文字だけを表示してください。例:`"answer": "C"`。
✨llama.cppを使ってQwen3-235B-A22B-Instructを実行する:
Qwen3-235B-A22Bでは、最適化された推論と多くのオプションのために特にLlama.cppを使用します。
もし フルプレシジョンの非量子化バージョンが必要なら、私たちの Q8_K_XL、Q8_0 または BF16 バージョンを使ってください!
最新のllama.cppを入手するには GitHub ここ。以下のビルド手順にも従うことができます。を変更してください
-DGGML_CUDA=ONに-DGGML_CUDA=OFFGPUを持っていない場合やCPUで推論したい場合は Apple Mac / Metalデバイスの場合、次を設定してください-DGGML_CUDA=OFFその後通常通り続行してください — Metalサポートはデフォルトで有効です。
2. llama.cppで直接モデルをダウンロードすることもできますが、通常は huggingface_hub llama.cppを直接使用するには、次を実行してください:\
3. モデルをダウンロードします(をインストールした後) モデルをダウンロードするには( )UD-Q2_K_XLやその他の量子化バージョンを選択できます。
4. モデルを実行して任意のプロンプトを試します。5. を編集してください --threads -1 --threads 32 --ctx-size コンテキスト長は262114、 --n-gpu-layers 99 --n-gpu-layers 2
使用してください -ot ".ffn_.*_exps.=CPU" -ot ".ffn_.*_exps.=CPU"
🛠️ 生成速度の改善
より多くのVRAMがある場合、より多くのMoE層をオフロードするか、層全体をオフロードすることを試せます。
通常は、 -ot ".ffn_.*_exps.=CPU" はすべてのMoE層をCPUにオフロードします!これにより、非MoE層を1つのGPUに収めることができ、生成速度が向上します。GPU容量が多い場合は、より多くの層に合わせて正規表現をカスタマイズできます。
もし少し多くのGPUメモリがあるなら、次を試してください -ot ".ffn_(up|down)_exps.=CPU" これは up と down の投影 MoE 層をオフロードします。
試してみてください -ot ".ffn_(up)_exps.=CPU" さらに多くのGPUメモリがある場合。これは up 投影の MoE 層のみをオフロードします。
正規表現をカスタマイズすることもできます。例えば -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" は gate、up、down の MoE 層をオフロードしますが、6層目以降に限定します。
最新の llama.cpp リリース 高スループットモードも導入しています。使用するには llama-parallel。詳細は こちら。また、 KVキャッシュを4ビットに量子化することができます (例えばVRAM / RAMの移動を減らすため)、これにより生成プロセスが高速化されることもあります。 次のセクション はKVキャッシュの量子化について説明します。
📐長いコンテキストに対応する方法
より長いコンテキストに対応するには、 KVキャッシュの量子化 を使用してKおよびVキャッシュをより低ビットに量子化できます。これによりRAM / VRAMのデータ移動が減少し、生成速度が向上することもあります。Kの量子化で許容されるオプション(デフォルトは f16)には以下が含まれます。
--cache-type-k f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1
多少精度が向上するので、 _1 バリアントを使用するべきですが、やや遅くなります。例えば q4_1, q5_1 なので試してみてください: --cache-type-k q4_1
Vキャッシュも量子化できますが、 Flash Attentionを使ってllama.cppをコンパイルする必要があります サポートを有効にするには -DGGML_CUDA_FA_ALL_QUANTS=ON、そして --flash-attn を使って有効にします。Flash Attentionをインストールした後、次を使うことができます: --cache-type-v q4_1
🦥 UnslothでQwen3-2507をファインチューニングする
Unslothは Qwen3 とQwen3-2507のファインチューニングを2倍高速化し、VRAMを70%少なくし、コンテキスト長を8倍にサポートします。Qwen3-2507は30Bバリアントでのみ公開されたため、QLoRA(4ビット)でモデルをファインチューニングするには約40GBのA100 GPUが必要になります。
ノートブックの場合、モデルはColabの無料16GB GPUに収まらないため、40GBのA100を使用する必要があります。会話用のノートブックを利用できますが、データセットを任意のものに置き換えてください。今回はモデルに推論能力がないため、データセットに推論を組み合わせる必要はありません。
古いバージョンのUnslothを使用している、またはローカルでファインチューニングする場合は、最新バージョンのUnslothをインストールしてください:
Qwen3-2507 MOEモデルのファインチューニング
ファインチューニングのサポートにはMOEモデル(30B-A3Bおよび235B-A22B)が含まれます。Qwen3-30B-A3BはUnslothで30GBのVRAMで動作します。MOEのファインチューニングでは、ルーター層をファインチューニングするのは良い考えではないため、デフォルトで無効にしています。
Qwen3-2507-4B用ノートブック: Thinking と Instruct
30B-A3Bは30GBのVRAMに収まりますが、完全な16ビットモデルをダウンロードしてQLoRAファインチューニングのためにオンザフライで4ビットに変換する必要があるため、RAMやディスクスペースが不足する可能性があります。これは4ビットのBnB MOEモデルを直接インポートする際の問題によるもので、MOEモデルにのみ影響します。
MOEモデルをファインチューニングする場合は、次を使用してください FastModel を使用しないでください FastLanguageModel

最終更新
役に立ちましたか?

