# MiniMax-M2.7 - ローカル実行方法

MiniMax-M2.7 は、エージェント型コーディングおよびチャット用途向けの新しいオープンモデルです。このモデルは、SWE-Pro (56.22%) と Terminal Bench 2 (57.0%) で SOTA 性能を達成しています。

この **230B パラメータ** （10B アクティブ）モデルは、 [MiniMax-M25](/docs/jp/moderu/tutorials/minimax-m25.md) の後継であり、 **200K のコンテキスト** ウィンドウを備えています。量子化していない bf16 では **457GB**が必要です。Unsloth Dynamic **4ビット** GGUF によりサイズは **108GB** **(-60%)** まで削減されるため、 **128GB RAM** のデバイスで実行できま&#x3059;**:** [**MiniMax-M2.7 GGUF**](https://huggingface.co/unsloth/MiniMax-M2.7-GGUF)

すべてのアップロードは Unsloth [Dynamic 2.0](/docs/jp/ji-ben/unsloth-dynamic-2.0-ggufs.md) を使用して SOTA の量子化性能を実現します。そのため、重要な層はより高いビット数（例: 8ビットまたは16ビット）へ上位変換されます。初日からのアクセスを提供してくれた MiniMax に感謝します。

{% hint style="success" %}
NEW MiniMax-M2.7 GGUF ベンチマークが利用可能です！ [こちらをご覧ください](#gguf-benchmarks)
{% endhint %}

### :gear: 使用ガイド

4ビットの動的量子化 `UD-IQ4_XS` を使用します **108GB** のディスク容量で済みます。これは **128GB ユニファイドメモリのMac** にちょうど収まり、約15+ tokens/sで動作し、さらに **1x16GB GPU と 96GB の RAM** でもより高速に動作し、25+ tokens/s を実現します。 **2ビット** の量子化、または最大の2ビット版は 96GB のデバイスに収まります。

ほぼ **完全精度**に近い場合は、 `Q8_0` （8ビット）を使用してください。これは 243GB を使用し、256GB RAM のデバイス / Mac で 15+ tokens/s で動作します。

{% hint style="success" %}
最高の性能を得るには、利用可能な総メモリ（VRAM + システムRAM）が、ダウンロードする量子化モデルファイルのサイズを上回っていることを確認してください。そうでない場合でも、llama.cpp は SSD/HDD オフロード経由で実行できますが、推論は遅くなります。
{% endhint %}

### 推奨設定

MiniMax は、最良の性能のために次のパラメータを使用することを推奨しています: `temperature=1.0`, `top_p = 0.95`, `top_k = 40`.

{% columns %}
{% column %}

| デフォルト設定（ほとんどのタスク）   |
| ------------------- |
| `temperature = 1.0` |
| `top_p = 0.95`      |
| `top_k = 40`        |
| {% endcolumn %}     |

{% column %}

* **最大コンテキストウィンドウ:** `196,608`
* デフォルトのシステムプロンプト:

{% code overflow="wrap" %}

```
あなたは役立つアシスタントです。あなたの名前は MiniMax-M2.7 で、MiniMax によって作られています。
```

{% endcode %}
{% endcolumn %}
{% endcolumns %}

## MiniMax-M2.7 のチュートリアルを実行:

MiniMax-M2.7 を 128GB RAM のデバイスで動かすために、4ビットの [`UD-IQ4_XS` 量子化](https://huggingface.co/unsloth/MiniMax-M2.7-GGUF?show_file_info=UD-IQ4_XS%2FMiniMax-M2.7-UD-IQ4_XS-00001-of-00004.gguf)を使用します。これで MiniMax-M2.7 を [llama.cpp](#run-in-llama.cpp) と [Unsloth Studio](#run-in-unsloth-studio).

{% hint style="warning" %}
で実行できるようになります。どのモデルを実行する場合でも CUDA 13.2 は使用しないでください。文字化けや品質の低い出力の原因になる可能性があります。NVIDIA は修正に取り組んでいます。
{% endhint %}

### 🦥 Unsloth Studio で実行

MiniMax-M2.7 は現在 [Unsloth Studio](/docs/jp/xin-zhe/studio.md)、ローカルAI向けの新しいオープンソースWeb UIである私たちの環境で実行できます。Unsloth Studio を使うと、モデルをローカルで **MacOS、Windows**、Linux で実行でき、さらに:

{% columns %}
{% column %}

* 検索、ダウンロード、 [GGUF を実行し](/docs/jp/xin-zhe/studio.md#run-models-locally) safetensor モデルを実行
* [**自己修復** ツール呼び出し](/docs/jp/xin-zhe/studio.md#execute-code--heal-tool-calling) + **ウェブ検索**
* [**コード実行**](/docs/jp/xin-zhe/studio.md#run-models-locally) （Python、Bash）
* [自動推論](/docs/jp/xin-zhe/studio.md#model-arena) パラメータ調整（temp、top-p など）
* 高速な CPU + GPU 推論と CPU オフロードのために llama.cpp を使用
  {% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/52ac81606e9a31b3f691aabcec5c0ad84f45aee2" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% stepper %}
{% step %}

#### Unsloth をインストール

ターミナルで次を実行:

**MacOS、Linux、WSL:**

```bash
curl -fsSL https://unsloth.ai/install.sh | sh
```

**Windows PowerShell:**

```bash
irm https://unsloth.ai/install.ps1 | iex
```

{% endstep %}

{% step %}

#### Unsloth を起動

**MacOS、Linux、WSL および Windows:**

```bash
unsloth studio -H 0.0.0.0 -p 8888
```

**次に開きます `http://localhost:8888` をブラウザで開いてください。**
{% endstep %}

{% step %}

#### MiniMax-M2.7 を検索してダウンロード

初回起動時には、アカウントを保護するためのパスワードを作成し、後で再度サインインする必要があります。その後、モデル、データセット、基本設定を選ぶ簡単な初期設定ウィザードが表示されます。いつでもスキップできます。

選択できます `UD-IQ4_XS` （動的4ビット量子化）または、次のような他の量子化版: `UD-Q4_K_XL` 。ダウンロードが止まる場合は、 [Hugging Face Hub、XETデバッグ](/docs/jp/ji-ben/troubleshooting-and-faqs/hugging-face-hub-xet-debugging.md)

次に [Studio Chat](/docs/jp/xin-zhe/studio/chat.md) タブへ移動し、検索バーで MiniMax-M2.7 を検索して、希望するモデルと量子化版をダウンロードしてください。サイズが大きいためダウンロードに時間がかかります。しばらくお待ちください。高速な推論を確実にするには、 [十分な RAM/VRAM](#usage-guide)があることを確認してください。そうでない場合でも推論は動作しますが、Unsloth は CPU にオフロードします。

<div data-with-frame="true"><figure><img src="/files/c21064c24a5115a413055cb29ee0dea307866d04" alt=""><figcaption></figcaption></figure></div>
{% endstep %}

{% step %}

#### MiniMax-M2.7 を実行

Unsloth Studio を使用すると推論パラメータは自動設定されますが、手動で変更することもできます。コンテキスト長、チャットテンプレート、その他の設定も編集できます。

詳細については、 [Unsloth Studio 推論ガイド](/docs/jp/xin-zhe/studio/chat.md).
{% endstep %}
{% endstepper %}

### ✨ llama.cpp で実行

{% hint style="warning" %}
で実行できるようになります。どのモデルを実行する場合でも CUDA 13.2 は使用しないでください。文字化けや品質の低い出力の原因になる可能性があります。NVIDIA は修正に取り組んでいます。
{% endhint %}

{% stepper %}
{% step %}
最新の `llama.cpp` を [GitHub こちら](https://github.com/ggml-org/llama.cpp)で入手してください。以下のビルド手順に従うこともできます。 `-DGGML_CUDA=ON` を `-DGGML_CUDA=OFF` に変更してください。GPU がない場合、または CPU 推論だけを使いたい場合です。 **Apple Mac / Metal デバイスの場合**、 `-DGGML_CUDA=OFF` を設定してから通常どおり続けてください。Metal サポートはデフォルトで有効です。

{% code overflow="wrap" %}

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \\
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

{% endcode %}
{% endstep %}

{% step %}
もし `llama.cpp` を直接使ってモデルを読み込みたい場合は、以下のようにできます: (:IQ4\_XS) は量子化タイプです。Hugging Face 経由でダウンロードすることもできます（3番）。これは `ollama run` に似ています。 `export LLAMA_CACHE="folder"` を使って `llama.cpp` を特定の場所に保存するよう強制できます。モデルの最大コンテキスト長は 200K であることを忘れないでください。

以下は **ほとんどのデフォルト** 用途向けです:

```bash
export LLAMA_CACHE="unsloth/MiniMax-M2.7-GGUF"
./llama.cpp/llama-cli \\
    -hf unsloth/MiniMax-M2.7-GGUF:UD-IQ4_XS \\
    --temp 1.0 \\
    --top-p 0.95 \\
    --top-k 40
```

{% endstep %}

{% step %}
モデルをダウンロードします（以下をインストール後） `pip install huggingface_hub hf_transfer`）。UD-IQ4\_XS（動的4ビット量子化）または次のような他の量子化版を選べます `UD-Q6_K_XL` 。サイズと精度のバランスを取るために、4bit 動的量子化 UD-IQ4\_XS の使用を推奨します。ダウンロードが止まる場合は、 [Hugging Face Hub、XETデバッグ](/docs/jp/ji-ben/troubleshooting-and-faqs/hugging-face-hub-xet-debugging.md)

```bash
hf download unsloth/MiniMax-M2.7-GGUF \\
    --local-dir unsloth/MiniMax-M2.7-GGUF \\
    --include "*UD-IQ4_XS*" # 8ビットの場合は "*Q8_0*" を使用
```

{% endstep %}

{% step %}
編集できます `--threads 32` CPU スレッド数を、 `--ctx-size 16384` コンテキスト長を、 `--n-gpu-layers 2` GPU オフロードする層数を指定します。GPU のメモリ不足になる場合は調整してみてください。CPU のみで推論する場合は、これも削除してください。

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \\
    --model unsloth/MiniMax-M2.7-GGUF/UD-IQ4_XS/MiniMax-M2.7-UD-IQ4_XS-00001-of-00004.gguf \\
    --temp 1.0 \\
    --top-p 0.95 \\
    --top-k 40
```

{% endcode %}
{% endstep %}
{% endstepper %}

#### 🦙 Llama-server と OpenAI の completion ライブラリ

MiniMax-M2.7 を本番環境にデプロイするには、 `llama-server` または OpenAI API を使用します。tmux などで新しいターミナルを開き、次のようにモデルをデプロイします:

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-server \\
    --model unsloth/MiniMax-M2.7-GGUF/UD-IQ4_XS/MiniMax-M2.7-UD-IQ4_XS-00001-of-00004.gguf \\
    --alias "unsloth/MiniMax-M2.7" \\
    --prio 3 \\
    --temp 1.0 \\
    --top-p 0.95 \\
    --min-p 0.01 \\
    --top-k 40 \\
    --port 8001
```

{% endcode %}

次に、新しいターミナルで `pip install openai`を実行した後、次を行います:

{% code overflow="wrap" %}

```python
from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/MiniMax-M2.7",
    messages = [{"role": "user", "content": "Create a Snake game."},],
)
print(completion.choices[0].message.content)
```

{% endcode %}

## 📊 ベンチマーク

### GGUF ベンチマーク

以下は MiniMax-M2.7 の KLD 99% ベンチマークです。左下が良いです:

<figure><img src="/files/c3fc42af7112b04ffc41cec031d2e42c8119db41" alt=""><figcaption></figcaption></figure>

MiniMax-M2.7 は MiniMax-M2.5 と同じアーキテクチャを使用しているため、M2.7 の GGUF 量子化ベンチマークは M2.5 と非常に似ているはずです。そのため、M2.5 に対して実施された以前の量子化ベンチマークも参照します:

<figure><img src="/files/76def291f438cd1ff454aa7c6f1de12650b34040" alt=""><figcaption></figcaption></figure>

[Benjamin Marie（第三者）が](https://x.com/bnjmn_marie/status/2027043753484021810/photo/1) **MiniMax-M2.5** を **Unsloth GGUF 量子化** で **750プロンプトの混合セット** （LiveCodeBench v6、MMLU Pro、GPQA、Math500）を用いてベンチマークし、 **全体精度** と **相対誤差増加** （量子化モデルが元モデルよりどれだけ多く誤りを起こすか）を報告しました。

Unsloth の量子化版は、精度と相対誤差の両方で、非 Unsloth 版よりはるかに優れています（8GB 小さいにもかかわらず）。

**主な結果:**

* **ここでの最良の品質/サイズのトレードオフ: `unsloth UD-Q4_K_XL`.**\
  元モデルに最も近く、低下はわずか **6.0 ポイント** で、「わずか」 **+22.8%** ベースラインより多いエラーのみ。
* **他の Unsloth Q4 量子化版は互いに近い性能です（約64.5〜64.9の精度）。**\
  `IQ4_NL`, `MXFP4_MOE`、および `UD-IQ2_XXS` は、このベンチマークでは実質的に同じ品質で、元モデルより **約33〜35%** 多くのエラーがあります。
* Unsloth GGUF は他の非 Unsloth GGUF よりはるかに優れています。たとえば、 `lmstudio-community - Q4_K_M` （8GB 小さいにもかかわらず）や `AesSedai - IQ3_S`.

### 公式ベンチマーク

<figure><img src="/files/58e1786b73ed45d87dc0997a20523be11a9391ce" alt=""><figcaption></figcaption></figure>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/jp/moderu/tutorials/minimax-m27.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.