🌠Qwen3-2507:ローカル実行ガイド

Qwen3-30B-A3B-2507 と 235B-A22B の Thinking および Instruct バージョンをローカルで実行しましょう!

Qwenはその4B、30B、および235Bモデル向けに2507(2025年7月)アップデートをリリースしました、 Qwen3 「思考」バリアントと「非思考」バリアントの両方を導入しています。非思考の'Qwen3-30B-A3B-Instruct-2507'と'Qwen3-235B-A22B-Instruct-2507' は256Kのコンテキストウィンドウ、改善された命令追従、多言語対応およびアライメントを特徴としています。

思考型モデルの'Qwen3-30B-A3B-Thinking-2507'と'Qwen3-235B-A22B-Thinking-2507'は推論に優れており、235Bは論理、数学、科学、コーディング、および高度な学術的タスクでSOTAの結果を達成しています。

Unslotharrow-up-right はまた現在ファインチューニングをサポートしており、 強化学習 (RL) Qwen3-2507モデルの—2倍高速、VRAMを70%削減、コンテキスト長は8倍に延長

30B-A3Bを実行する235B-A22Bを実行するQwen3-2507をファインチューンする

Unsloth Dynamic 2.0 GGUF:

⚙️ベストプラクティス

circle-check

最適な性能を得るために、Qwenは以下の設定を推奨します:

Instructモデルの設定:
Thinkingモデルの設定:

Temperature = 0.7

Temperature = 0.6

Min_P = 0.00 (llama.cppのデフォルトは0.1です)

Min_P = 0.00 (llama.cppのデフォルトは0.1です)

Top_P = 0.80

Top_P = 0.95

TopK = 20

TopK = 20

presence_penalty = 0.0 から 2.0 (llama.cppのデフォルトでは無効になっていますが、繰り返しを減らすためにこれを使用できます)

presence_penalty = 0.0 から 2.0 (llama.cppのデフォルトでは無効になっていますが、繰り返しを減らすためにこれを使用できます)

十分な出力長:Thinkingバリアントではほとんどのクエリに対して出力長を 32,768 ほとんどのクエリに対して十分なトークン数で、ほとんどのクエリに適しています。

Thinking(thinkingにはがあり <think></think>)とInstructの両方のチャットテンプレートは以下です:

📖 Qwen3-30B-A3B-2507チュートリアルを実行する

以下はモデルの 思考(Thinking) および 指示(Instruct) バージョンに関するガイドです。

Instruct: Qwen3-30B-A3B-Instruct-2507

これは非思考モデルであるため、を設定する必要はありません、 thinking=False そしてモデルは生成しません <think> </think> ブロック。

⚙️ベストプラクティス

最適なパフォーマンスを得るために、Qwenは次の設定を推奨します:

  • 私たちは次の使用を推奨します temperature=0.7、top_p=0.8、top_k=20、およびmin_p=0.0 presence_penalty フレームワークが対応している場合、終わりのない繰り返しを減らすために0から2の間で使用してください。

  • temperature = 0.7

  • top_k = 20

  • min_p = 0.00 (llama.cppのデフォルトは0.1です)

  • top_p = 0.80

  • presence_penalty = 0.0 から 2.0 (llama.cppのデフォルトでは無効になりますが、繰り返しを減らすために使用できます) 例えば1.0を試してください。

  • ネイティブで最大 262,144 のコンテキストをサポートしますが、RAM使用量を減らすために 32,768 トークンに設定することができます

🦙 Ollama: Qwen3-30B-A3B-Instruct-2507チュートリアルを実行する

  1. インストールしてください ollama まだの場合は!最大で32Bまでのモデルのみ実行できます。

  1. モデルを実行してください!失敗した場合は別の端末で ollama serveを呼び出せます!私たちのすべての修正と推奨パラメータ(temperatureなど)は params にHugging Faceのアップロードで含めています!

Llama.cpp: Qwen3-30B-A3B-Instruct-2507チュートリアルを実行する

  1. 最新の llama.cppGitHub で入手arrow-up-rightできます。下のビルド手順に従うこともできます。変更してください -DGGML_CUDA=ON から -DGGML_CUDA=OFF GPU がない場合や CPU 推論のみを行いたい場合は。

  1. HuggingFace から直接プルできます:

  2. (以下をインストールした後に)モデルをダウンロードします pip install huggingface_hub hf_transfer )。UD_Q4_K_XLまたはその他の量子化バージョンを選択できます。

Thinking: Qwen3-30B-A3B-Thinking-2507

このモデルはThinkingモードと256Kのコンテキストウィンドウのみをネイティブにサポートします。デフォルトのチャットテンプレートはを自動的に追加するため、出力に閉じタグのみが表示されることがあります。 <think> を自動的に追加するため、出力に閉じ </think> タグが表示されることがあります。

⚙️ベストプラクティス

最適なパフォーマンスを得るために、Qwenは次の設定を推奨します:

  • 私たちは次の使用を推奨します temperature=0.6、top_p=0.95、top_k=20、およびmin_p=0.0 presence_penalty フレームワークが対応している場合、終わりのない繰り返しを減らすために0から2の間で使用してください。

  • temperature = 0.6

  • top_k = 20

  • min_p = 0.00 (llama.cppのデフォルトは0.1です)

  • top_p = 0.95

  • presence_penalty = 0.0 から 2.0 (llama.cppのデフォルトでは無効になりますが、繰り返しを減らすために使用できます) 例えば1.0を試してください。

  • ネイティブで最大 262,144 のコンテキストをサポートしますが、RAM使用量を減らすために 32,768 トークンに設定することができます

🦙 Ollama: Qwen3-30B-A3B-Instruct-2507チュートリアルを実行する

  1. インストールしてください ollama まだの場合は!最大で32Bまでのモデルのみ実行できます。完全な235B-A22Bモデルを実行するには、 ここを参照してください.

  1. モデルを実行してください!失敗した場合は別の端末で ollama serveを呼び出せます!私たちのすべての修正と推奨パラメータ(temperatureなど)は params にHugging Faceのアップロードで含めています!

Llama.cpp: Qwen3-30B-A3B-Instruct-2507チュートリアルを実行する

  1. 最新の llama.cppGitHub で入手arrow-up-rightできます。下のビルド手順に従うこともできます。変更してください -DGGML_CUDA=ON から -DGGML_CUDA=OFF GPU がない場合や CPU 推論のみを行いたい場合は。

  1. Hugging Faceから直接プルできます:

  2. (以下をインストールした後に)モデルをダウンロードします pip install huggingface_hub hf_transfer )。UD_Q4_K_XLまたはその他の量子化バージョンを選択できます。

📖 実行する Qwen3-235B-A22B-2507 チュートリアル

以下はモデルの 思考(Thinking) および 指示(Instruct) バージョンに関するガイドです。

Thinking: Qwen3-235B-A22B-Thinking-2507

このモデルはThinkingモードと256Kのコンテキストウィンドウのみをネイティブにサポートします。デフォルトのチャットテンプレートはを自動的に追加するため、出力に閉じタグのみが表示されることがあります。 <think> を自動的に追加するため、出力に閉じ </think> タグが表示されることがあります。

⚙️ ベストプラクティス

最適な性能を達成するために、QwenはThinkingモデルに対してこれらの設定を推奨します:

  • temperature = 0.6

  • top_k = 20

  • min_p = 0.00 (llama.cppのデフォルトは0.1です)

  • top_p = 0.95

  • presence_penalty = 0.0 から 2.0 (llama.cppのデフォルトでは無効になりますが、繰り返しを減らすために使用できます) 例えば1.0を試してください。

  • 十分な出力長:Thinkingバリアントではほとんどのクエリに対して出力長を 32,768 ほとんどのクエリに対して十分なトークン数で、ほとんどのクエリに適しています。

llama.cpp経由でQwen3-235B-A22B-Thinkingを実行する:

Qwen3-235B-A22Bについては、最適化された推論と多数のオプションのために特にLlama.cppを使用します。

circle-check
  1. 最新の llama.cppGitHub で入手arrow-up-rightできます。下のビルド手順に従うこともできます。変更してください -DGGML_CUDA=ON から -DGGML_CUDA=OFF GPU がない場合や CPU 推論のみを行いたい場合は。

  2. llama.cppを直接使用してモデルをダウンロードできますが、通常は huggingface_hub llama.cppを直接使用するには、次を実行してください:

  3. (以下をインストールした後に)モデルをダウンロードします pip install huggingface_hub hf_transfer )UD-Q2_K_XLやその他の量子化バージョンを選択できます。。

  4. モデルを実行して、任意のプロンプトを試してください。

  5. 編集 --threads -1 でCPUスレッド数を編集できます、 --ctx-size コンテキスト長は262114、 --n-gpu-layers 99 で何層をGPUにオフロードするかを指定します。GPUがメモリ不足になる場合は調整してみてください。CPUのみの推論の場合はこれを削除してください。

circle-check

Instruct: Qwen3-235B-A22B-Instruct-2507

これは非思考モデルであるため、を設定する必要はありません、 thinking=False そしてモデルは生成しません <think> </think> ブロック。

⚙️ベストプラクティス

最適な性能を得るために、次の設定を推奨します:

1. サンプリングパラメータ:次の使用を推奨します temperature=0.7、top_p=0.8、top_k=20、およびmin_p=0。 presence_penalty フレームワークが対応している場合、終わりのない繰り返しを減らすために0から2の間で使用してください。

2. 十分な出力長:出力長には次を推奨します 16,384 ほとんどのクエリに対して十分なトークン数で、Instructモデルに適しています。

3. 出力フォーマットの標準化: ベンチマーク時にモデル出力を標準化するためにプロンプトを使用することを推奨します。

  • 数学の問題:含める 段階的に推論し、最終解答を\boxed{}の中に入れてください。 プロンプトに。

  • 択一問題:応答を標準化するために、プロンプトに次のJSON構造を追加してください:「`answer`フィールドに選択肢の文字のみを表示してください。例:`"answer": "C"`.

llama.cpp経由でQwen3-235B-A22B-Instructを実行する:

Qwen3-235B-A22Bについては、最適化された推論と多数のオプションのために特にLlama.cppを使用します。

{% hint style="success" %} もしあなたが フルプレシジョンの非量子化バージョンを使用するには、私たちの Q8_K_XL、Q8_0 または BF16 バージョン! {% endhint %}

  1. 最新の`を取得する、

llama.cpp[GitHubはこちら](https://github.com/ggml-org/llama.cpp)にあります。以下のビルド手順にも従うことができます。GPUがないかCPU推論のみを行いたい場合は`-DGGML_CUDA=OFF`に変更してください。-DGGML_CUDA=ONから`-DGGML_CUDA=OFF`(GPUがない、またはCPUのみを使いたい場合)に変更してください。

2. llama.cppを直接使用してモデルをダウンロードできますが、通常は次を推奨します huggingface_hub llama.cppを直接使用するには、次を実行してください:\

3. モデルをダウンロードします(インストール後 pip install huggingface_hub hf_transfer )UD-Q2_K_XLやその他の量子化バージョンを選択できます。。

4. モデルを実行して任意のプロンプトを試してください。5. 編集する --threads -1 でCPUスレッド数を編集できます、 --ctx-size コンテキスト長は262114、 --n-gpu-layers 99 で何層をGPUにオフロードするかを指定します。GPUがメモリ不足になる場合は調整してみてください。CPUのみの推論の場合はこれを削除してください。

circle-check

🛠️ 生成速度の向上

もしVRAMがより多くある場合は、さらに多くのMoE層をオフロードするか、層全体をオフロードすることを試すことができます。

通常、 -ot ".ffn_.*_exps.=CPU" はすべてのMoE層をCPUにオフロードします!これにより非MoE層を1つのGPUに収めることができ、生成速度が向上します。GPU容量が大きい場合は正規表現をカスタマイズしてより多くの層を適合させることができます。

もしもう少しGPUメモリがあるなら、次を試してください -ot ".ffn_(up|down)_exps.=CPU" これはupおよびdownの投影MoE層をオフロードします。

試してみてください -ot ".ffn_(up)_exps.=CPU" もしさらに多くのGPUメモリがある場合。これはup投影MoE層のみをオフロードします。

正規表現をカスタマイズすることもできます。例えば -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" は6層目以降のgate、up、downのMoE層をオフロードすることを意味します。

その 最新のllama.cppリリースはarrow-up-right 高スループットモードも導入します。使用すると、 llama-parallelです。詳細は ここarrow-up-rightを参照してください。さらに、 KVキャッシュを4ビットに量子化することもできます 例えばVRAM / RAMの移動を減らし、生成プロセスをより高速にすることができます。次の セクション はKVキャッシュの量子化について説明します。

📐長いコンテキストに適合させる方法

より長いコンテキストを収めるには、 KVキャッシュの量子化 を使用してKおよびVキャッシュをより低いビットに量子化できます。これによりRAM/VRAMのデータ移動が減り、生成速度が向上することがあります。K量子化の許容オプション(デフォルトは f16)には以下が含まれます。

--cache-type-k f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1

若干精度が向上するために _1 変種を使用するべきですが、わずかに遅くなります。例えば q4_1, q5_1 それで、次を試してください --cache-type-k q4_1

Vキャッシュも量子化できますが、その場合は llama.cppをFlash Attentionサポートでコンパイルする必要があります には次を使用してください -DGGML_CUDA_FA_ALL_QUANTS=ON、そして次を使用して --flash-attn で有効にします。Flash Attentionをインストールした後、次に --cache-type-v q4_1

🦥 UnslothによるQwen3-2507のファインチューニング

Unslothは Qwen3 およびQwen3-2507のファインチューニングを2倍高速化し、VRAMを70%削減し、コンテキスト長を8倍に拡張します。Qwen3-2507は30Bバリアントのみでリリースされたため、QLoRA(4ビット)でモデルをファインチューニングするには約40GBのA100 GPUが必要になります。

ノートブックの場合、モデルはColabの無料16GB GPUに収まらないため、40GBのA100を利用する必要があります。会話用ノートブックを利用できますが、データセットを任意のものに置き換えてください。今回、モデルは推論を行わないため、データセットに推論を結合する必要はありません。

Unsloth の古いバージョンを使用している、またはローカルでファインチューニングしている場合は、最新バージョンの Unsloth をインストールしてください:

Qwen3-2507 MOEモデルのファインチューニング

ファインチューニングのサポートにはMOEモデル:30B-A3Bおよび235B-A22Bが含まれます。Qwen3-30B-A3BはUnslothで30GBのVRAMで動作します。MoEをファインチューニングする場合、ルーターレイヤーをファインチューニングするのはあまり良い考えではないため、デフォルトで無効にしています。

Qwen3-2507-4B用ノートブック: 思考(Thinking)arrow-up-right および 指示(Instruct)arrow-up-right

30B-A3Bは30GBのVRAMに収まりますが、完全な16ビットモデルをダウンロードしてQLoRAファインチューニング用にオンザフライで4ビットに変換する必要があるため、RAMやディスク容量が不足する可能性があります。これは4ビットBnB MOEモデルを直接インポートする際の問題に起因します。これはMOEモデルにのみ影響します。

circle-exclamation

最終更新

役に立ちましたか?