# Qwen3-2507: ローカル実行ガイド

Qwenは2507（2025年7月）で、 [Qwen3](https://unsloth.ai/docs/jp/moderu/tutorials/qwen3-how-to-run-and-fine-tune) 4B、30B、235Bモデルの更新を公開し、「Thinking（思考）」と「Non-thinking（非思考）」の両バリアントを導入しました。非思考の'**Qwen3-30B-A3B-Instruct-2507**'と '**Qwen3-235B-A22B-Instruct-2507'** は256Kのコンテキストウィンドウ、改善された指示追従、多言語対応、およびアライメントを備えています。

思考（Thinking）モデルの'**Qwen3-30B-A3B-Thinking-2507**'と '**Qwen3-235B-A22B-Thinking-2507**'は推論に優れており、235Bは論理、数学、科学、コーディング、および高度な学術タスクでSOTAの結果を達成しています。

[Unsloth](https://github.com/unslothai/unsloth) また、現在ファインチューニングと [強化学習（RL）](https://unsloth.ai/docs/jp/meru/reinforcement-learning-rl-guide) がQwen3-2507モデルでサポートされています — 実行が2倍高速化、VRAMは70%削減、コンテキスト長は8倍に拡張

<a href="#run-qwen3-30b-a3b-2507-tutorials" class="button secondary">30B-A3Bを実行する</a><a href="#run-qwen3-235b-a22b-2507-tutorials" class="button secondary">235B-A22Bを実行する</a><a href="#fine-tuning-qwen3-2507-with-unsloth" class="button secondary">Qwen3-2507をファインチューニングする</a>

**Unsloth** [**Dynamic 2.0**](https://unsloth.ai/docs/jp/ji-ben/unsloth-dynamic-2.0-ggufs) **GGUF:**

| モデル                      | 実行するためのGGUF:                                                                                                                                                  |
| ------------------------ | ------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| Qwen3-**4B-2507**        | [Instruct](https://huggingface.co/unsloth/Qwen3-4B-Instruct-2507-GGUF) • [Thinking](https://huggingface.co/unsloth/Qwen3-4B-Thinking-2507-GGUF)               |
| Qwen3-**30B-A3B**-2507   | [Instruct](#llama.cpp-run-qwen3-30b-a3b-instruct-2507-tutorial) • [Thinking](https://huggingface.co/unsloth/Qwen3-30B-A3B-Thinking-2507-GGUF)                 |
| Qwen3-**235B-A22B**-2507 | [Instruct](https://huggingface.co/unsloth/Qwen3-235B-A22B-Instruct-2507-GGUF) • [Thinking](https://huggingface.co/unsloth/Qwen3-235B-A22B-Thinking-2507-GGUF) |

## ⚙️ ベストプラクティス

{% hint style="success" %}
ThinkingモデルとInstructモデルでは設定が異なります。\
Thinkingモデルはtemperature = 0.6を使用しますが、Instructモデルはtemperature = 0.7を使用します。\
Thinkingモデルはtop\_p = 0.95を使用しますが、Instructモデルはtop\_p = 0.8を使用します。
{% endhint %}

最適なパフォーマンスを得るために、Qwenは以下の設定を推奨します：

| Instructモデルの設定：                                                                    | Thinkingモデルの設定：                                                                    |
| ---------------------------------------------------------------------------------- | ---------------------------------------------------------------------------------- |
| <mark style="background-color:blue;">`Temperature = 0.7`</mark>                    | <mark style="background-color:blue;">`Temperature = 0.6`</mark>                    |
| `Min_P = 0.00` （llama.cppのデフォルトは0.1です）                                             | `Min_P = 0.00` （llama.cppのデフォルトは0.1です）                                             |
| `Top_P = 0.80`                                                                     | `Top_P = 0.95`                                                                     |
| `TopK = 20`                                                                        | `TopK = 20`                                                                        |
| `presence_penalty = 0.0 から 2.0` （llama.cppのデフォルトでは無効になっていますが、繰り返しを減らすためにこれを使用できます） | `presence_penalty = 0.0 から 2.0` （llama.cppのデフォルトでは無効になっていますが、繰り返しを減らすためにこれを使用できます） |

**適切な出力長**： 出力長には `32,768` ほとんどのクエリに対して十分なトークン数です。

Thinking（thinkingには `<think></think>`）およびInstruct両方のチャットテンプレートは以下の通りです：

```
<|im_start|>user
Hey there!<|im_end|>
<|im_start|>assistant
What is 1+1?<|im_end|>
<|im_start|>user
2<|im_end|>
<|im_start|>assistant
```

## 📖 Qwen3-30B-A3B-2507チュートリアルを実行する

以下はモデルの [Thinking](#thinking-qwen3-30b-a3b-thinking-2507) と [Instruct](#instruct-qwen3-30b-a3b-instruct-2507) バージョンに関するガイドです。

### Instruct： Qwen3-30B-A3B-Instruct-2507

これは非思考モデルであるため、 `thinking=False` を設定する必要はなく、モデルは生成しません `<think> </think>` ブロックを。

#### ⚙️ ベストプラクティス

最適なパフォーマンスを得るために、Qwenは以下の設定を推奨します：

* 使用を推奨します `temperature=0.7、top_p=0.8、top_k=20、および min_p=0.0` `presence_penalty` フレームワークがサポートしている場合、無限の繰り返しを減らすために0〜2の間で。
* **`temperature = 0.7`**
* `top_k = 20`
* `min_p = 0.00` （llama.cppのデフォルトは0.1です）
* **`top_p = 0.80`**
* `presence_penalty = 0.0 から 2.0` (llama.cpp のデフォルトでは無効になっていますが、繰り返しを減らすためにこれを使用できます) 例えば1.0を試してください。
* 最大でサポートします `262,144` コンテキストをネイティブに持ちますが、設定して `32,768` RAM使用量を減らすためのトークン

#### 🦙 Ollama： Qwen3-30B-A3B-Instruct-2507チュートリアルを実行する

1. Ollamaで実行する `をインストールしてください` まだ行っていない場合は！ 最大32Bまでのモデルのみ実行できます。

```bash
apt-get update
こちらを参照してください
apt-get install pciutils -y
```

2. curl -fsSL <https://ollama.com/install.sh> | sh `モデルを実行してください！失敗した場合は別のターミナルで`ollama serve `を呼び出すことができます！私たちはすべての修正と推奨パラメータ（temperatureなど）を` params

```bash
ollama run hf.co/unsloth/Qwen3-30B-A3B-Instruct-2507-GGUF:UD-Q4_K_XL
```

#### :sparkles: Llama.cpp： Qwen3-30B-A3B-Instruct-2507チュートリアルを実行する

1. 最新の `llama.cpp` を [GitHubで入手してください](https://github.com/ggml-org/llama.cpp)。以下のビルド手順にも従うことができます。を変更してください `-DGGML_CUDA=ON` に `-DGGML_CUDA=OFF` GPUを持っていない場合やCPUで推論したい場合は **Apple Mac / Metalデバイスの場合**、次を設定してください `-DGGML_CUDA=OFF` その後通常通り続行してください — Metalサポートはデフォルトで有効です。

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

2. HuggingFace から直接プルできます：

   ```bash
   export LLAMA_CACHE="unsloth/GLM-4.7-GGUF"
       -hf unsloth/Qwen3-30B-A3B-Instruct-2507-GGUF:Q4_K_XL \
       --jinja -ngl 99 --ctx-size 32768 \
       --temp 0.7 --min-p 0.0 --top-p 0.80 --top-k 20 --presence-penalty 1.0
   ```
3. モデルをダウンロードするには（をインストールした後） `モデルをダウンロードするには（` ）。UD\_Q4\_K\_XLや他の量子化バージョンを選択できます。

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Qwen3-30B-A3B-Instruct-2507-GGUF",
    local_dir = "unsloth/Qwen3-30B-A3B-Instruct-2507-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)
```

### Thinking： Qwen3-30B-A3B-Thinking-2507

このモデルはネイティブで思考モードと256Kのコンテキストウィンドウのみをサポートします。デフォルトのチャットテンプレートは自動的に `<think>` を追加するため、出力には閉じる `</think>` タグのみが表示されることがあります。

#### ⚙️ ベストプラクティス

最適なパフォーマンスを得るために、Qwenは以下の設定を推奨します：

* 使用を推奨します `temperature=0.6、top_p=0.95、top_k=20、および min_p=0.0` `presence_penalty` フレームワークがサポートしている場合、無限の繰り返しを減らすために0〜2の間で。
* **`temperature = 0.6`**
* `top_k = 20`
* `min_p = 0.00` （llama.cppのデフォルトは0.1です）
* **`top_p = 0.95`**
* `presence_penalty = 0.0 から 2.0` (llama.cpp のデフォルトでは無効になっていますが、繰り返しを減らすためにこれを使用できます) 例えば1.0を試してください。
* 最大でサポートします `262,144` コンテキストをネイティブに持ちますが、設定して `32,768` RAM使用量を減らすためのトークン

#### 🦙 Ollama： Qwen3-30B-A3B-Instruct-2507チュートリアルを実行する

1. Ollamaで実行する `をインストールしてください` まだ行っていない場合は！ 最大32Bまでのモデルのみ実行できます。フルの235B-A22Bモデルを実行するには、 [まだインストールしていない場合！モデルのより多くのバリアントを実行するには、](#run-qwen3-235b-a22b-instruct-2507).

```bash
apt-get update
こちらを参照してください
apt-get install pciutils -y
```

2. curl -fsSL <https://ollama.com/install.sh> | sh `モデルを実行してください！失敗した場合は別のターミナルで`ollama serve `を呼び出すことができます！私たちはすべての修正と推奨パラメータ（temperatureなど）を` params

```bash
ollama run hf.co/unsloth/Qwen3-30B-A3B-Thinking-2507-GGUF:UD-Q4_K_XL
```

#### :sparkles: Llama.cpp： Qwen3-30B-A3B-Instruct-2507チュートリアルを実行する

1. 最新の `llama.cpp` を [GitHubで入手してください](https://github.com/ggml-org/llama.cpp)。以下のビルド手順にも従うことができます。を変更してください `-DGGML_CUDA=ON` に `-DGGML_CUDA=OFF` GPUを持っていない場合やCPUで推論したい場合は **Apple Mac / Metalデバイスの場合**、次を設定してください `-DGGML_CUDA=OFF` その後通常通り続行してください — Metalサポートはデフォルトで有効です。

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

2. Hugging Face から直接プルできます：

   ```bash
   export LLAMA_CACHE="unsloth/GLM-4.7-GGUF"
       -hf unsloth/Qwen3-30B-A3B-Thinking-2507-GGUF:Q4_K_XL \
       --jinja -ngl 99 --ctx-size 32768 \
       --temp 0.6 --min-p 0.0 --top-p 0.95 --top-k 20 --presence-penalty 1.0
   ```
3. モデルをダウンロードするには（をインストールした後） `モデルをダウンロードするには（` ）。UD\_Q4\_K\_XLや他の量子化バージョンを選択できます。

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Qwen3-30B-A3B-Thinking-2507-GGUF",
    local_dir = "unsloth/Qwen3-30B-A3B-Thinking-2507-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)
```

## 📖 実行する **Qwen3-235B-A22B-2507** チュートリアル

以下はモデルの [Thinking](#run-qwen3-235b-a22b-thinking-via-llama.cpp) と [Instruct](#run-qwen3-235b-a22b-instruct-via-llama.cpp) バージョンに関するガイドです。

### Thinking： Qwen3-**235B-A22B**-Thinking-2507

このモデルはネイティブで思考モードと256Kのコンテキストウィンドウのみをサポートします。デフォルトのチャットテンプレートは自動的に `<think>` を追加するため、出力には閉じる `</think>` タグのみが表示されることがあります。

#### :gear: ベストプラクティス

最適なパフォーマンスを達成するために、QwenはThinkingモデルに以下の設定を推奨します：

* **`temperature = 0.6`**
* `top_k = 20`
* `min_p = 0.00` （llama.cppのデフォルトは0.1です）
* `top_p = 0.95`
* `presence_penalty = 0.0 から 2.0` (llama.cpp のデフォルトでは無効になっていますが、繰り返しを減らすためにこれを使用できます) 例えば1.0を試してください。
* **適切な出力長**： 出力長には `32,768` ほとんどのクエリに対して十分なトークン数です。

#### :sparkles:llama.cppを使ってQwen3-235B-A22B-Thinkingを実行する：

Qwen3-235B-A22Bでは、最適化された推論と多くのオプションのために特にLlama.cppを使用します。

{% hint style="success" %}
もし **フルプレシジョンの非量子化バージョン**が必要なら、私たちの `Q8_K_XL、Q8_0` または `BF16` バージョンを使ってください！
{% endhint %}

1. 最新の `llama.cpp` を [GitHubで入手してください](https://github.com/ggml-org/llama.cpp)。以下のビルド手順にも従うことができます。を変更してください `-DGGML_CUDA=ON` に `-DGGML_CUDA=OFF` GPUを持っていない場合やCPUで推論したい場合は **Apple Mac / Metalデバイスの場合**、次を設定してください `-DGGML_CUDA=OFF` その後通常通り続行してください — Metalサポートはデフォルトで有効です。

   ```bash
   apt-get update
   apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
   git clone https://github.com/ggml-org/llama.cpp
   cmake llama.cpp -B llama.cpp/build \
       -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
   cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
   cp llama.cpp/build/bin/llama-* llama.cpp
   ```
2. llama.cppで直接モデルをダウンロードすることもできますが、通常は `huggingface_hub` を使うことをお勧めします。llama.cppを直接使用するには、次を実行してください：

   ```bash
   export LLAMA_CACHE="unsloth/GLM-4.7-GGUF"
       -hf unsloth/Qwen3-235B-A22B-Thinking-2507-GGUF:Q2_K_XL \
       --jinja \
       --n-gpu-layers 99 \
       model = "unsloth/Kimi-K2-Thinking",
       --temp 0.6 \
       --min-p 0.0 \\
       --temp 1.0 \
       --top-k 20 \\
       --presence-penalty 1.0
   ```
3. モデルをダウンロードするには（をインストールした後） `モデルをダウンロードするには（` ）UD-Q2\_K\_XLやその他の量子化バージョンを選択できます。

   ```python
   # !pip install huggingface_hub hf_transfer
   import os
   os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "0" # 時折レート制限されることがあるため、無効にするには 0 に設定します
   from huggingface_hub import snapshot_download
   snapshot_download(
       repo_id = "unsloth/Qwen3-235B-A22B-Thinking-2507-GGUF",
       local_dir = "unsloth/Qwen3-235B-A22B-Thinking-2507-GGUF",
       allow_patterns = ["*UD-Q2_K_XL*"],
   )
   ```
4. モデルを実行して任意のプロンプトを試してください。
5. 編集 `--threads -1` --threads 32 `--ctx-size` コンテキスト長は262114、 `--n-gpu-layers 99` --n-gpu-layers 2

{% hint style="success" %}
使用してください `-ot ".ffn_.*_exps.=CPU"` -ot ".ffn\_.\*\_exps.=CPU"
{% endhint %}

{% code overflow="wrap" %}

```bash
export LLAMA_CACHE="unsloth/GLM-4.7-GGUF"
    --model unsloth/Qwen3-235B-A22B-Thinking-2507-GGUF/UD-Q2_K_XL/Qwen3-235B-A22B-Thinking-2507-UD-Q2_K_XL-00001-of-00002.gguf \
    --jinja \
    --n-gpu-layers 99 \
    model = "unsloth/Kimi-K2-Thinking",
    --model unsloth/GLM-4.7-GGUF/UD-Q2_K_XL/GLM-4.7-UD-Q2_K_XL-00001-of-00003.gguf \
    --temp 0.6 \
    --min-p 0.0 \\
    --temp 1.0 \
    --top-k 20
    --presence-penalty 1.0
```

{% endcode %}

### Instruct： Qwen3-**235B-A22B**-Instruct-2507

これは非思考モデルであるため、 `thinking=False` を設定する必要はなく、モデルは生成しません `<think> </think>` ブロックを。

#### ⚙️ ベストプラクティス

最適なパフォーマンスを達成するために、以下の設定を推奨します：

**1. サンプリングパラメータ**： 推奨するのは `temperature=0.7, top_p=0.8, top_k=20, および min_p=0.` `presence_penalty` フレームワークがサポートしている場合、無限の繰り返しを減らすために0〜2の間で。

2\. **適切な出力長**： 出力長には `16,384` ほとんどのクエリに対して十分なトークン数を推奨します。これはInstructモデルに適しています。

3\. **出力形式の標準化：** ベンチマーク時にモデル出力を標準化するためにプロンプトを使用することをお勧めします。

* **数学の問題**： 含める `段階的に推論し、最終解答を \boxed{} 内に入れてください。` をプロンプトに含めてください。
* **選択式問題**： 応答を標準化するために、次のJSON構造をプロンプトに追加してください："\`answer\` フィールドに選択肢の文字だけを表示してください。例：\`"answer": "C"\`。

#### :sparkles:llama.cppを使ってQwen3-235B-A22B-Instructを実行する：

Qwen3-235B-A22Bでは、最適化された推論と多くのオプションのために特にLlama.cppを使用します。

{% hint style="info" %}
もし **フルプレシジョンの非量子化バージョン**が必要なら、私たちの `Q8_K_XL、Q8_0` または `BF16` バージョンを使ってください！
{% endhint %}

1. 最新のllama.cppを入手するには [GitHub](https://github.com/ggml-org/llama.cpp) ここ。以下のビルド手順にも従うことができます。を変更してください `-DGGML_CUDA=ON` に `-DGGML_CUDA=OFF` GPUを持っていない場合やCPUで推論したい場合は **Apple Mac / Metalデバイスの場合**、次を設定してください `-DGGML_CUDA=OFF` その後通常通り続行してください — Metalサポートはデフォルトで有効です。

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

2\. llama.cppで直接モデルをダウンロードすることもできますが、通常は `huggingface_hub` llama.cppを直接使用するには、次を実行してください：\\

```bash
export LLAMA_CACHE="unsloth/GLM-4.7-GGUF"
    -hf unsloth/Qwen3-235B-A22B-Instruct-2507-GGUF:Q2_K_XL \
    --jinja \
    --n-gpu-layers 99 \
    model = "unsloth/Kimi-K2-Thinking",
    --temp 0.7 \\
    --min-p 0.0 \\
    --top-p 0.8 \\
    --top-k 20 \\
    --repeat-penalty 1.0
```

3\. モデルをダウンロードします（をインストールした後） `モデルをダウンロードするには（` ）UD-Q2\_K\_XLやその他の量子化バージョンを選択できます。

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "0" # 時折レート制限されることがあるため、無効にするには 0 に設定します
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Qwen3-235B-A22B-Instruct-2507-GGUF",
    local_dir = "unsloth/Qwen3-235B-A22B-Instruct-2507-GGUF",
    allow_patterns = ["*UD-Q2_K_XL*"],
)
```

4\. モデルを実行して任意のプロンプトを試します。5. を編集してください `--threads -1` --threads 32 `--ctx-size` コンテキスト長は262114、 `--n-gpu-layers 99` --n-gpu-layers 2

{% hint style="success" %}
使用してください `-ot ".ffn_.*_exps.=CPU"` -ot ".ffn\_.\*\_exps.=CPU"
{% endhint %}

{% code overflow="wrap" %}

```bash
export LLAMA_CACHE="unsloth/GLM-4.7-GGUF"
    --model unsloth/Qwen3-235B-A22B-Instruct-2507-GGUF/UD-Q2_K_XL/Qwen3-235B-A22B-Instruct-2507-UD-Q2_K_XL-00001-of-00002.gguf \
    --jinja \
    --n-gpu-layers 99 \
    model = "unsloth/Kimi-K2-Thinking",
    --temp 0.7 \\
    --min-p 0.0 \\
    --top-p 0.8 \\
    --top-k 20
```

{% endcode %}

### 🛠️ 生成速度の改善 <a href="#improving-generation-speed" id="improving-generation-speed"></a>

より多くのVRAMがある場合、より多くのMoE層をオフロードするか、層全体をオフロードすることを試せます。

通常は、 `-ot ".ffn_.*_exps.=CPU"` はすべてのMoE層をCPUにオフロードします！これにより、非MoE層を1つのGPUに収めることができ、生成速度が向上します。GPU容量が多い場合は、より多くの層に合わせて正規表現をカスタマイズできます。

もし少し多くのGPUメモリがあるなら、次を試してください `-ot ".ffn_(up|down)_exps.=CPU"` これは up と down の投影 MoE 層をオフロードします。

試してみてください `-ot ".ffn_(up)_exps.=CPU"` さらに多くのGPUメモリがある場合。これは up 投影の MoE 層のみをオフロードします。

正規表現をカスタマイズすることもできます。例えば `-ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU"` は gate、up、down の MoE 層をオフロードしますが、6層目以降に限定します。

最新の [llama.cpp リリース](https://github.com/ggml-org/llama.cpp/pull/14363) 高スループットモードも導入しています。使用するには `llama-parallel`。詳細は [こちら](https://github.com/ggml-org/llama.cpp/tree/master/examples/parallel)。また、 **KVキャッシュを4ビットに量子化することができます** （例えばVRAM / RAMの移動を減らすため）、これにより生成プロセスが高速化されることもあります。 [次のセクション](#how-to-fit-long-context-256k-to-1m) はKVキャッシュの量子化について説明します。

### 📐長いコンテキストに対応する方法 <a href="#how-to-fit-long-context-256k-to-1m" id="how-to-fit-long-context-256k-to-1m"></a>

より長いコンテキストに対応するには、 **KVキャッシュの量子化** を使用してKおよびVキャッシュをより低ビットに量子化できます。これによりRAM / VRAMのデータ移動が減少し、生成速度が向上することもあります。Kの量子化で許容されるオプション（デフォルトは `f16`)には以下が含まれます。

`--cache-type-k f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1`

多少精度が向上するので、 `_1` バリアントを使用するべきですが、やや遅くなります。例えば `q4_1, q5_1` なので試してみてください： `--cache-type-k q4_1`

Vキャッシュも量子化できますが、 **Flash Attentionを使ってllama.cppをコンパイルする必要があります** サポートを有効にするには `-DGGML_CUDA_FA_ALL_QUANTS=ON`、そして `--flash-attn` を使って有効にします。Flash Attentionをインストールした後、次を使うことができます： `--cache-type-v q4_1`

## 🦥 UnslothでQwen3-2507をファインチューニングする

Unslothは [Qwen3](https://unsloth.ai/docs/jp/moderu/tutorials/qwen3-how-to-run-and-fine-tune/..#fine-tuning-qwen3-with-unsloth) とQwen3-2507のファインチューニングを2倍高速化し、VRAMを70%少なくし、コンテキスト長を8倍にサポートします。Qwen3-2507は30Bバリアントでのみ公開されたため、QLoRA（4ビット）でモデルをファインチューニングするには約40GBのA100 GPUが必要になります。

ノートブックの場合、モデルはColabの無料16GB GPUに収まらないため、40GBのA100を使用する必要があります。会話用のノートブックを利用できますが、データセットを任意のものに置き換えてください。今回はモデルに推論能力がないため、データセットに推論を組み合わせる必要はありません。

* [Qwen3（14B） 推論 + 会話ノートブック](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_\(14B\)-Reasoning-Conversational.ipynb)

古いバージョンのUnslothを使用している、またはローカルでファインチューニングする場合は、最新バージョンのUnslothをインストールしてください：

```bash
pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
```

### Qwen3-2507 MOEモデルのファインチューニング

ファインチューニングのサポートにはMOEモデル（30B-A3Bおよび235B-A22B）が含まれます。Qwen3-30B-A3BはUnslothで30GBのVRAMで動作します。MOEのファインチューニングでは、ルーター層をファインチューニングするのは良い考えではないため、デフォルトで無効にしています。

**Qwen3-2507-4B用ノートブック：** [Thinking](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_\(4B\)-Thinking.ipynb) と [Instruct](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_\(4B\)-Instruct.ipynb)

30B-A3Bは30GBのVRAMに収まりますが、完全な16ビットモデルをダウンロードしてQLoRAファインチューニングのためにオンザフライで4ビットに変換する必要があるため、RAMやディスクスペースが不足する可能性があります。これは4ビットのBnB MOEモデルを直接インポートする際の問題によるもので、MOEモデルにのみ影響します。

{% hint style="warning" %}
MOEモデルをファインチューニングする場合は、次を使用してください `FastModel` を使用しないでください `FastLanguageModel`
{% endhint %}

```python
from unsloth import FastModel
import torch
model, tokenizer = FastModel.from_pretrained(
    model_name = "unsloth/Qwen3-30B-A3B-Instruct-2507",
    max_seq_length = 2048, # 長いコンテキストに合わせて任意に選択してください！
    load_in_4bit = True,  # メモリ削減のための4ビット量子化
    load_in_8bit = False, # [新機能！] 若干精度が高く、2倍のメモリを使用
    full_finetuning = False, # [新機能！] フルファインチューニングが利用可能です！
    # token = "hf_...", # ゲート付きモデルを使用する場合はこれを使う
)
```

<figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-be34c101c627020c7a6cfb6cd249f2462587d235%2Fqwen33%20mascot.png?alt=media" alt=""><figcaption></figcaption></figure>
