🌠Qwen3-2507: ローカルで実行するガイド

Qwen3-30B-A3B-2507 と 235B-A22B の Thinking および Instruct バージョンをローカルで実行しましょう！

Qwenは2507（2025年7月）で、 Qwen3 4B、30B、235Bモデルの更新を公開し、「Thinking（思考）」と「Non-thinking（非思考）」の両バリアントを導入しました。非思考の'Qwen3-30B-A3B-Instruct-2507'と 'Qwen3-235B-A22B-Instruct-2507' は256Kのコンテキストウィンドウ、改善された指示追従、多言語対応、およびアライメントを備えています。

思考（Thinking）モデルの'Qwen3-30B-A3B-Thinking-2507'と 'Qwen3-235B-A22B-Thinking-2507'は推論に優れており、235Bは論理、数学、科学、コーディング、および高度な学術タスクでSOTAの結果を達成しています。

Unsloth また、現在ファインチューニングと強化学習（RL）がQwen3-2507モデルでサポートされています — 実行が2倍高速化、VRAMは70%削減、コンテキスト長は8倍に拡張

30B-A3Bを実行する 235B-A22Bを実行する Qwen3-2507をファインチューニングする

Unsloth Dynamic 2.0 GGUF:

モデル

実行するためのGGUF:

Qwen3-4B-2507

Instruct • Thinking

Qwen3-30B-A3B-2507

Instruct • Thinking

Qwen3-235B-A22B-2507

Instruct • Thinking

⚙️ ベストプラクティス

ThinkingモデルとInstructモデルでは設定が異なります。 Thinkingモデルはtemperature = 0.6を使用しますが、Instructモデルはtemperature = 0.7を使用します。 Thinkingモデルはtop_p = 0.95を使用しますが、Instructモデルはtop_p = 0.8を使用します。

最適なパフォーマンスを得るために、Qwenは以下の設定を推奨します：

Instructモデルの設定：

Thinkingモデルの設定：

Temperature = 0.7

Temperature = 0.6

Min_P = 0.00 （llama.cppのデフォルトは0.1です）

Top_P = 0.80

Top_P = 0.95

TopK = 20

presence_penalty = 0.0 から 2.0 （llama.cppのデフォルトでは無効になっていますが、繰り返しを減らすためにこれを使用できます）

適切な出力長：出力長には 32,768 ほとんどのクエリに対して十分なトークン数です。

Thinking（thinkingには <think></think>）およびInstruct両方のチャットテンプレートは以下の通りです：

<|im_start|>user
Hey there!<|im_end|>
<|im_start|>assistant
What is 1+1?<|im_end|>
<|im_start|>user
2<|im_end|>
<|im_start|>assistant

📖 Qwen3-30B-A3B-2507チュートリアルを実行する

以下はモデルの Thinking と Instruct バージョンに関するガイドです。

Instruct： Qwen3-30B-A3B-Instruct-2507

これは非思考モデルであるため、 thinking=False を設定する必要はなく、モデルは生成しません <think> </think> ブロックを。

⚙️ ベストプラクティス

最適なパフォーマンスを得るために、Qwenは以下の設定を推奨します：

使用を推奨します temperature=0.7、top_p=0.8、top_k=20、および min_p=0.0 presence_penalty フレームワークがサポートしている場合、無限の繰り返しを減らすために0〜2の間で。
temperature = 0.7
top_k = 20
min_p = 0.00 （llama.cppのデフォルトは0.1です）
top_p = 0.80
presence_penalty = 0.0 から 2.0 (llama.cpp のデフォルトでは無効になっていますが、繰り返しを減らすためにこれを使用できます) 例えば1.0を試してください。
最大でサポートします 262,144 コンテキストをネイティブに持ちますが、設定して 32,768 RAM使用量を減らすためのトークン

🦙 Ollama： Qwen3-30B-A3B-Instruct-2507チュートリアルを実行する

Ollamaで実行する をインストールしてください まだ行っていない場合は！最大32Bまでのモデルのみ実行できます。

apt-get update
こちらを参照してください
apt-get install pciutils -y

curl -fsSL https://ollama.com/install.sh | sh モデルを実行してください！失敗した場合は別のターミナルでollama serve を呼び出すことができます！私たちはすべての修正と推奨パラメータ（temperatureなど）を params

ollama run hf.co/unsloth/Qwen3-30B-A3B-Instruct-2507-GGUF:UD-Q4_K_XL

✨ Llama.cpp： Qwen3-30B-A3B-Instruct-2507チュートリアルを実行する

最新の llama.cpp を GitHubで入手してください。以下のビルド手順にも従うことができます。を変更してください -DGGML_CUDA=ON に -DGGML_CUDA=OFF GPUを持っていない場合やCPUで推論したい場合は Apple Mac / Metalデバイスの場合、次を設定してください -DGGML_CUDA=OFF その後通常通り続行してください — Metalサポートはデフォルトで有効です。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

HuggingFace から直接プルできます：

export LLAMA_CACHE="unsloth/GLM-4.7-GGUF"
    -hf unsloth/Qwen3-30B-A3B-Instruct-2507-GGUF:Q4_K_XL \
    --jinja -ngl 99 --ctx-size 32768 \
    --temp 0.7 --min-p 0.0 --top-p 0.80 --top-k 20 --presence-penalty 1.0

モデルをダウンロードするには（をインストールした後） モデルをダウンロードするには（ ）。UD_Q4_K_XLや他の量子化バージョンを選択できます。

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Qwen3-30B-A3B-Instruct-2507-GGUF",
    local_dir = "unsloth/Qwen3-30B-A3B-Instruct-2507-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)

Thinking： Qwen3-30B-A3B-Thinking-2507

このモデルはネイティブで思考モードと256Kのコンテキストウィンドウのみをサポートします。デフォルトのチャットテンプレートは自動的に <think> を追加するため、出力には閉じる </think> タグのみが表示されることがあります。

⚙️ ベストプラクティス

最適なパフォーマンスを得るために、Qwenは以下の設定を推奨します：

使用を推奨します temperature=0.6、top_p=0.95、top_k=20、および min_p=0.0 presence_penalty フレームワークがサポートしている場合、無限の繰り返しを減らすために0〜2の間で。
temperature = 0.6
top_k = 20
min_p = 0.00 （llama.cppのデフォルトは0.1です）
top_p = 0.95
presence_penalty = 0.0 から 2.0 (llama.cpp のデフォルトでは無効になっていますが、繰り返しを減らすためにこれを使用できます) 例えば1.0を試してください。
最大でサポートします 262,144 コンテキストをネイティブに持ちますが、設定して 32,768 RAM使用量を減らすためのトークン

🦙 Ollama： Qwen3-30B-A3B-Instruct-2507チュートリアルを実行する

Ollamaで実行する をインストールしてください まだ行っていない場合は！最大32Bまでのモデルのみ実行できます。フルの235B-A22Bモデルを実行するには、まだインストールしていない場合！モデルのより多くのバリアントを実行するには、.

apt-get update
こちらを参照してください
apt-get install pciutils -y

curl -fsSL https://ollama.com/install.sh | sh モデルを実行してください！失敗した場合は別のターミナルでollama serve を呼び出すことができます！私たちはすべての修正と推奨パラメータ（temperatureなど）を params

ollama run hf.co/unsloth/Qwen3-30B-A3B-Thinking-2507-GGUF:UD-Q4_K_XL

✨ Llama.cpp： Qwen3-30B-A3B-Instruct-2507チュートリアルを実行する

最新の llama.cpp を GitHubで入手してください。以下のビルド手順にも従うことができます。を変更してください -DGGML_CUDA=ON に -DGGML_CUDA=OFF GPUを持っていない場合やCPUで推論したい場合は Apple Mac / Metalデバイスの場合、次を設定してください -DGGML_CUDA=OFF その後通常通り続行してください — Metalサポートはデフォルトで有効です。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Hugging Face から直接プルできます：

export LLAMA_CACHE="unsloth/GLM-4.7-GGUF"
    -hf unsloth/Qwen3-30B-A3B-Thinking-2507-GGUF:Q4_K_XL \
    --jinja -ngl 99 --ctx-size 32768 \
    --temp 0.6 --min-p 0.0 --top-p 0.95 --top-k 20 --presence-penalty 1.0

モデルをダウンロードするには（をインストールした後） モデルをダウンロードするには（ ）。UD_Q4_K_XLや他の量子化バージョンを選択できます。

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Qwen3-30B-A3B-Thinking-2507-GGUF",
    local_dir = "unsloth/Qwen3-30B-A3B-Thinking-2507-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)

📖 実行する Qwen3-235B-A22B-2507 チュートリアル

以下はモデルの Thinking と Instruct バージョンに関するガイドです。

Thinking： Qwen3-235B-A22B-Thinking-2507

⚙️ ベストプラクティス

最適なパフォーマンスを達成するために、QwenはThinkingモデルに以下の設定を推奨します：

temperature = 0.6
top_k = 20
min_p = 0.00 （llama.cppのデフォルトは0.1です）
top_p = 0.95
presence_penalty = 0.0 から 2.0 (llama.cpp のデフォルトでは無効になっていますが、繰り返しを減らすためにこれを使用できます) 例えば1.0を試してください。
適切な出力長：出力長には 32,768 ほとんどのクエリに対して十分なトークン数です。

✨llama.cppを使ってQwen3-235B-A22B-Thinkingを実行する：

Qwen3-235B-A22Bでは、最適化された推論と多くのオプションのために特にLlama.cppを使用します。

もし フルプレシジョンの非量子化バージョンが必要なら、私たちの Q8_K_XL、Q8_0 または BF16 バージョンを使ってください！

最新の llama.cpp を GitHubで入手してください。以下のビルド手順にも従うことができます。を変更してください -DGGML_CUDA=ON に -DGGML_CUDA=OFF GPUを持っていない場合やCPUで推論したい場合は Apple Mac / Metalデバイスの場合、次を設定してください -DGGML_CUDA=OFF その後通常通り続行してください — Metalサポートはデフォルトで有効です。
```
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

llama.cppで直接モデルをダウンロードすることもできますが、通常は huggingface_hub を使うことをお勧めします。llama.cppを直接使用するには、次を実行してください：

export LLAMA_CACHE="unsloth/GLM-4.7-GGUF"
    -hf unsloth/Qwen3-235B-A22B-Thinking-2507-GGUF:Q2_K_XL \
    --jinja \
    --n-gpu-layers 99 \
    model = "unsloth/Kimi-K2-Thinking",
    --temp 0.6 \
    --min-p 0.0 \\
    --temp 1.0 \
    --top-k 20 \\
    --presence-penalty 1.0

モデルをダウンロードするには（をインストールした後） モデルをダウンロードするには（ ）UD-Q2_K_XLやその他の量子化バージョンを選択できます。

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "0" # 時折レート制限されることがあるため、無効にするには 0 に設定します
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Qwen3-235B-A22B-Thinking-2507-GGUF",
    local_dir = "unsloth/Qwen3-235B-A22B-Thinking-2507-GGUF",
    allow_patterns = ["*UD-Q2_K_XL*"],
)

モデルを実行して任意のプロンプトを試してください。
編集 --threads -1 --threads 32 --ctx-size コンテキスト長は262114、 --n-gpu-layers 99 --n-gpu-layers 2

使用してください -ot ".ffn_.*_exps.=CPU" -ot ".ffn_.*_exps.=CPU"

export LLAMA_CACHE="unsloth/GLM-4.7-GGUF"
    --model unsloth/Qwen3-235B-A22B-Thinking-2507-GGUF/UD-Q2_K_XL/Qwen3-235B-A22B-Thinking-2507-UD-Q2_K_XL-00001-of-00002.gguf \
    --jinja \
    --n-gpu-layers 99 \
    model = "unsloth/Kimi-K2-Thinking",
    --model unsloth/GLM-4.7-GGUF/UD-Q2_K_XL/GLM-4.7-UD-Q2_K_XL-00001-of-00003.gguf \
    --temp 0.6 \
    --min-p 0.0 \\
    --temp 1.0 \
    --top-k 20
    --presence-penalty 1.0

Instruct： Qwen3-235B-A22B-Instruct-2507

これは非思考モデルであるため、 thinking=False を設定する必要はなく、モデルは生成しません <think> </think> ブロックを。

⚙️ ベストプラクティス

最適なパフォーマンスを達成するために、以下の設定を推奨します：

1. サンプリングパラメータ：推奨するのは temperature=0.7, top_p=0.8, top_k=20, および min_p=0. presence_penalty フレームワークがサポートしている場合、無限の繰り返しを減らすために0〜2の間で。

2. 適切な出力長：出力長には 16,384 ほとんどのクエリに対して十分なトークン数を推奨します。これはInstructモデルに適しています。

3. 出力形式の標準化： ベンチマーク時にモデル出力を標準化するためにプロンプトを使用することをお勧めします。

数学の問題：含める 段階的に推論し、最終解答を \boxed{} 内に入れてください。 をプロンプトに含めてください。
選択式問題：応答を標準化するために、次のJSON構造をプロンプトに追加してください："`answer` フィールドに選択肢の文字だけを表示してください。例：`"answer": "C"`。

✨llama.cppを使ってQwen3-235B-A22B-Instructを実行する：

Qwen3-235B-A22Bでは、最適化された推論と多くのオプションのために特にLlama.cppを使用します。

もし フルプレシジョンの非量子化バージョンが必要なら、私たちの Q8_K_XL、Q8_0 または BF16 バージョンを使ってください！

最新のllama.cppを入手するには GitHub ここ。以下のビルド手順にも従うことができます。を変更してください -DGGML_CUDA=ON に -DGGML_CUDA=OFF GPUを持っていない場合やCPUで推論したい場合は Apple Mac / Metalデバイスの場合、次を設定してください -DGGML_CUDA=OFF その後通常通り続行してください — Metalサポートはデフォルトで有効です。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

2. llama.cppで直接モデルをダウンロードすることもできますが、通常は huggingface_hub llama.cppを直接使用するには、次を実行してください：\

export LLAMA_CACHE="unsloth/GLM-4.7-GGUF"
    -hf unsloth/Qwen3-235B-A22B-Instruct-2507-GGUF:Q2_K_XL \
    --jinja \
    --n-gpu-layers 99 \
    model = "unsloth/Kimi-K2-Thinking",
    --temp 0.7 \\
    --min-p 0.0 \\
    --top-p 0.8 \\
    --top-k 20 \\
    --repeat-penalty 1.0

3. モデルをダウンロードします（をインストールした後） モデルをダウンロードするには（ ）UD-Q2_K_XLやその他の量子化バージョンを選択できます。

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "0" # 時折レート制限されることがあるため、無効にするには 0 に設定します
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Qwen3-235B-A22B-Instruct-2507-GGUF",
    local_dir = "unsloth/Qwen3-235B-A22B-Instruct-2507-GGUF",
    allow_patterns = ["*UD-Q2_K_XL*"],
)

4. モデルを実行して任意のプロンプトを試します。5. を編集してください --threads -1 --threads 32 --ctx-size コンテキスト長は262114、 --n-gpu-layers 99 --n-gpu-layers 2

使用してください -ot ".ffn_.*_exps.=CPU" -ot ".ffn_.*_exps.=CPU"

export LLAMA_CACHE="unsloth/GLM-4.7-GGUF"
    --model unsloth/Qwen3-235B-A22B-Instruct-2507-GGUF/UD-Q2_K_XL/Qwen3-235B-A22B-Instruct-2507-UD-Q2_K_XL-00001-of-00002.gguf \
    --jinja \
    --n-gpu-layers 99 \
    model = "unsloth/Kimi-K2-Thinking",
    --temp 0.7 \\
    --min-p 0.0 \\
    --top-p 0.8 \\
    --top-k 20

🛠️ 生成速度の改善

より多くのVRAMがある場合、より多くのMoE層をオフロードするか、層全体をオフロードすることを試せます。

通常は、 -ot ".ffn_.*_exps.=CPU" はすべてのMoE層をCPUにオフロードします！これにより、非MoE層を1つのGPUに収めることができ、生成速度が向上します。GPU容量が多い場合は、より多くの層に合わせて正規表現をカスタマイズできます。

もし少し多くのGPUメモリがあるなら、次を試してください -ot ".ffn_(up|down)_exps.=CPU" これは up と down の投影 MoE 層をオフロードします。

試してみてください -ot ".ffn_(up)_exps.=CPU" さらに多くのGPUメモリがある場合。これは up 投影の MoE 層のみをオフロードします。

正規表現をカスタマイズすることもできます。例えば -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" は gate、up、down の MoE 層をオフロードしますが、6層目以降に限定します。

最新の llama.cpp リリース高スループットモードも導入しています。使用するには llama-parallel。詳細はこちら。また、 KVキャッシュを4ビットに量子化することができます （例えばVRAM / RAMの移動を減らすため）、これにより生成プロセスが高速化されることもあります。次のセクションはKVキャッシュの量子化について説明します。

📐長いコンテキストに対応する方法

より長いコンテキストに対応するには、 KVキャッシュの量子化 を使用してKおよびVキャッシュをより低ビットに量子化できます。これによりRAM / VRAMのデータ移動が減少し、生成速度が向上することもあります。Kの量子化で許容されるオプション（デフォルトは f16)には以下が含まれます。

--cache-type-k f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1

多少精度が向上するので、 _1 バリアントを使用するべきですが、やや遅くなります。例えば q4_1, q5_1 なので試してみてください： --cache-type-k q4_1

Vキャッシュも量子化できますが、 Flash Attentionを使ってllama.cppをコンパイルする必要があります サポートを有効にするには -DGGML_CUDA_FA_ALL_QUANTS=ON、そして --flash-attn を使って有効にします。Flash Attentionをインストールした後、次を使うことができます： --cache-type-v q4_1

🦥 UnslothでQwen3-2507をファインチューニングする

Unslothは Qwen3 とQwen3-2507のファインチューニングを2倍高速化し、VRAMを70%少なくし、コンテキスト長を8倍にサポートします。Qwen3-2507は30Bバリアントでのみ公開されたため、QLoRA（4ビット）でモデルをファインチューニングするには約40GBのA100 GPUが必要になります。

ノートブックの場合、モデルはColabの無料16GB GPUに収まらないため、40GBのA100を使用する必要があります。会話用のノートブックを利用できますが、データセットを任意のものに置き換えてください。今回はモデルに推論能力がないため、データセットに推論を組み合わせる必要はありません。

Qwen3（14B）推論 + 会話ノートブック

古いバージョンのUnslothを使用している、またはローカルでファインチューニングする場合は、最新バージョンのUnslothをインストールしてください：

pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo

Qwen3-2507 MOEモデルのファインチューニング

ファインチューニングのサポートにはMOEモデル（30B-A3Bおよび235B-A22B）が含まれます。Qwen3-30B-A3BはUnslothで30GBのVRAMで動作します。MOEのファインチューニングでは、ルーター層をファインチューニングするのは良い考えではないため、デフォルトで無効にしています。

Qwen3-2507-4B用ノートブック： Thinking と Instruct

30B-A3Bは30GBのVRAMに収まりますが、完全な16ビットモデルをダウンロードしてQLoRAファインチューニングのためにオンザフライで4ビットに変換する必要があるため、RAMやディスクスペースが不足する可能性があります。これは4ビットのBnB MOEモデルを直接インポートする際の問題によるもので、MOEモデルにのみ影響します。

MOEモデルをファインチューニングする場合は、次を使用してください FastModel を使用しないでください FastLanguageModel

from unsloth import FastModel
import torch
model, tokenizer = FastModel.from_pretrained(
    model_name = "unsloth/Qwen3-30B-A3B-Instruct-2507",
    max_seq_length = 2048, # 長いコンテキストに合わせて任意に選択してください！
    load_in_4bit = True,  # メモリ削減のための4ビット量子化
    load_in_8bit = False, # [新機能！] 若干精度が高く、2倍のメモリを使用
    full_finetuning = False, # [新機能！] フルファインチューニングが利用可能です！
    # token = "hf_...", # ゲート付きモデルを使用する場合はこれを使う
)

前へQwen3-VL 次へComplete LLM Directory

最終更新 8 時間前

役に立ちましたか？

hashtag⚙️ ベストプラクティス

hashtag📖 Qwen3-30B-A3B-2507チュートリアルを実行する

hashtagInstruct： Qwen3-30B-A3B-Instruct-2507

hashtag⚙️ ベストプラクティス

hashtag🦙 Ollama： Qwen3-30B-A3B-Instruct-2507チュートリアルを実行する

hashtag✨ Llama.cpp： Qwen3-30B-A3B-Instruct-2507チュートリアルを実行する

hashtagThinking： Qwen3-30B-A3B-Thinking-2507

hashtag⚙️ ベストプラクティス

hashtag🦙 Ollama： Qwen3-30B-A3B-Instruct-2507チュートリアルを実行する

hashtag✨ Llama.cpp： Qwen3-30B-A3B-Instruct-2507チュートリアルを実行する

hashtag📖 実行する Qwen3-235B-A22B-2507 チュートリアル

hashtagThinking： Qwen3-235B-A22B-Thinking-2507

hashtag⚙️ ベストプラクティス

hashtag✨llama.cppを使ってQwen3-235B-A22B-Thinkingを実行する：

hashtagInstruct： Qwen3-235B-A22B-Instruct-2507

hashtag⚙️ ベストプラクティス

hashtag✨llama.cppを使ってQwen3-235B-A22B-Instructを実行する：

hashtag🛠️ 生成速度の改善

hashtag📐長いコンテキストに対応する方法

hashtag🦥 UnslothでQwen3-2507をファインチューニングする

hashtagQwen3-2507 MOEモデルのファインチューニング

⚙️ ベストプラクティス

📖 Qwen3-30B-A3B-2507チュートリアルを実行する

Instruct： Qwen3-30B-A3B-Instruct-2507

⚙️ ベストプラクティス

🦙 Ollama： Qwen3-30B-A3B-Instruct-2507チュートリアルを実行する

✨ Llama.cpp： Qwen3-30B-A3B-Instruct-2507チュートリアルを実行する

Thinking： Qwen3-30B-A3B-Thinking-2507

⚙️ ベストプラクティス

🦙 Ollama： Qwen3-30B-A3B-Instruct-2507チュートリアルを実行する

✨ Llama.cpp： Qwen3-30B-A3B-Instruct-2507チュートリアルを実行する

📖 実行する Qwen3-235B-A22B-2507 チュートリアル

Thinking： Qwen3-235B-A22B-Thinking-2507

⚙️ ベストプラクティス

✨llama.cppを使ってQwen3-235B-A22B-Thinkingを実行する：

Instruct： Qwen3-235B-A22B-Instruct-2507

⚙️ ベストプラクティス

✨llama.cppを使ってQwen3-235B-A22B-Instructを実行する：

🛠️ 生成速度の改善

📐長いコンテキストに対応する方法

🦥 UnslothでQwen3-2507をファインチューニングする

Qwen3-2507 MOEモデルのファインチューニング