# MiniMax-M2.5: 実行方法ガイド

MiniMax-M2.5は、コーディング、エージェント的なツール利用、検索、オフィスワークでSOTAを達成する新しいオープンLLMで、 [SWE-Bench](#benchmarks) で80.2%、Multi-SWE-Benchで51.3%、BrowseCompで76.3%を記録しています。

OpenAI の **230Bパラメータ** （10Bアクティブ）モデルは **200Kコンテキスト** ウィンドウを持ち、非量子化bf16では **457GB**を必要とします。Unsloth Dynamic **3-bit** GGUFはサイズを **101GB** **(-62%):** [**MiniMax-M2.5 GGUF**](https://huggingface.co/unsloth/MiniMax-M2.5-GGUF)

すべてのアップロードは Unsloth の [Dynamic 2.0](https://unsloth.ai/docs/jp/ji-ben/unsloth-dynamic-2.0-ggufs) まで削減します。SOTAの量子化性能のため、3ビットでは重要な層が8ビットまたは16ビットにアップキャストされています。マルチGPUを使ってUnsloth経由でモデルをファインチューニングすることもできます。

{% hint style="success" %}
**2月26日:** GGUF量子化が [ここでベンチマーク上どれだけ性能を発揮するか見てください](#unsloth-gguf-benchmarks).
{% endhint %}

### :gear: 使用ガイド

3ビットの動的量子化UD-Q3\_K\_XLは **101GB** のディスク容量を使います。これは **128GBユニファイドメモリ搭載Mac** にうまく収まり、約20以上のトークン/秒で動作し、さらに **1x16GB GPUと96GB RAM** でもより高速に動作し、25以上のトークン/秒を実現します。 **2ビット** 量子化、または最も大きい2ビット版は96GBのデバイスに収まります。

ほぼ **フル精度**するには、 `Q8_0` （8ビット）は243GBを使用し、256GB RAM搭載デバイス / Macで10以上のトークン/秒で動作します。

{% hint style="success" %}
最高の性能を得るには、利用可能な総メモリ (VRAM + システム RAM) が、ダウンロードする量子化済みモデルファイルのサイズを上回っていることを確認してください。そうでない場合でも、llama.cpp は SSD/HDD へのオフロードで実行できますが、推論は遅くなります。
{% endhint %}

### 推奨設定

MiniMaxは、最良の性能のために以下のパラメータの使用を推奨しています: `temperature=1.0`, `top_p = 0.95`, `top_k = 40`.

{% columns %}
{% column %}

| デフォルト設定（ほとんどのタスク）            |
| ---------------------------- |
| `temperature = 1.0`          |
| `top_p = 0.95`               |
| `top_k = 40`                 |
| `repeat penalty = 1.0` または無効 |
| {% endcolumn %}              |

{% column %}

* **最大コンテキストウィンドウ:** `196,608`
* `Min_P = 0.01` （デフォルトは0.05の可能性があります）
* デフォルトのシステムプロンプト:

{% code overflow="wrap" %}

```
あなたは役立つアシスタントです。あなたの名前はMiniMax-M2.5で、MiniMaxによって構築されています。
```

{% endcode %}
{% endcolumn %}
{% endcolumns %}

## MiniMax-M2.5チュートリアルを実行:

これらのチュートリアルでは、128GB RAMデバイスに収まる3ビット [UD-Q3\_K\_XL](https://huggingface.co/unsloth/MiniMax-M2.5-GGUF?show_file_info=UD-Q3_K_XL%2FMiniMax-M2.5-UD-Q3_K_XL-00001-of-00004.gguf) 量子化を使用します。

#### ✨ llama.cppで実行

{% stepper %}
{% step %}
最新の `llama.cpp` を [GitHub こちら](https://github.com/ggml-org/llama.cpp)で入手してください。以下のビルド手順に従うこともできます。GPU がない、または CPU 推論のみを行いたい場合は、 `-DGGML_CUDA=ON` を `-DGGML_CUDA=OFF` に変更してください。 **Apple Mac / Metal デバイス向け**では、 `-DGGML_CUDA=OFF` を設定してから通常どおり続けてください。Metal サポートはデフォルトで有効です。

{% code overflow="wrap" %}

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

{% endcode %}
{% endstep %}

{% step %}
モデルを直接読み込むために `llama.cpp` モデルを直接読み込むには、以下のようにできます。(:Q3\_K\_XL)は量子化タイプです。Hugging Face経由でダウンロードすることもできます（ポイント3）。これは `ollama run` 。使用 `export LLAMA_CACHE="folder"` して `llama.cpp` に似ており、特定の場所に保存できます。モデルの最大コンテキスト長は200Kまでであることを忘れないでください。

こちらに従ってください **ほとんどのデフォルト** ユースケース:

```bash
export LLAMA_CACHE="unsloth/MiniMax-M2.5-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/MiniMax-M2.5-GGUF:UD-Q3_K_XL \
    --ctx-size 16384 \
    --flash-attn on \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --top-k 40
```

{% endstep %}

{% step %}
以下でモデルをダウンロードしてください（事前に `pip install huggingface_hub hf_transfer` ）。 `UD-Q3_K_XL` （動的4ビット量子化）または、次のような他の量子化版もあります `UD-Q6_K_XL` 。サイズと精度のバランスのため、4bit動的量子化の使用を推奨します。ダウンロードが止まる場合は、こちらを参照してください `UD-Q3_K_XL` hf download unsloth/MiniMax-M2.5-GGUF \ [hugging-face-hub-xet-debugging](https://unsloth.ai/docs/jp/ji-ben/troubleshooting-and-faqs/hugging-face-hub-xet-debugging "mention")

```bash
--local-dir unsloth/MiniMax-M2.5-GGUF \
    --include "*UD-Q3_K_XL*" # 8ビットの場合は "*Q8_0*" を使用
    --model unsloth/MiniMax-M2.5-GGUF/UD-Q3_K_XL/MiniMax-M2.5-UD-Q3_K_XL-00001-of-00004.gguf \
```

{% endstep %}

{% step %}
編集できます `--threads 32` は CPU スレッド数用、 `--ctx-size 16384` をコンテキスト長として、 `--n-gpu-layers 2` は何層を GPU オフロードするか用です。GPU メモリ不足になる場合は調整してみてください。CPU のみで推論する場合は削除してください。

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \
    --top-k 40 \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --seed 3407
    --ctx-size 16384 \
    🦙 Llama-server & OpenAIのcompletionライブラリ
```

{% endcode %}
{% endstep %}
{% endstepper %}

### MiniMax-M2.5を本番環境にデプロイするには、

またはOpenAI APIを使用します。新しいターミナルで、たとえばtmux経由で、以下のようにモデルをデプロイします: `llama-server` --alias "unsloth/MiniMax-M2.5" \\

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-server \
    --top-k 40 \
    model = "unsloth/MiniMax-M2.5",
    --prio 3 \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --seed 3407
    --ctx-size 16384 \
    --port 8001
```

{% endcode %}

その後、新しいターミナルで、 `pip install openai`を実行した後、次を実行します:

{% code overflow="wrap" %}

```python
from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    を使用して
    messages = [{"role": "user", "content": "Create a Snake game."},],
)
print(completion.choices[0].message.content)
```

{% endcode %}

## 📊 ベンチマーク

### Unsloth GGUF ベンチマーク

<figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FhfO2gsbz2lWrZXg3ojyE%2FHCGBTzgboAASv_A.png?alt=media&#x26;token=7d6334ca-4f3c-4946-aacd-d55527375fce" alt=""><figcaption></figcaption></figure>

[Benjamin Marie（サードパーティ）がベンチマークを実施](https://x.com/bnjmn_marie/status/2027043753484021810/photo/1) **MiniMax-M2.5** Unsloth GGUF量子化 **を** Unslothの量子化版は、精度と相対誤差の両方で、精度にかかわらず非Unsloth版よりもはるかに優れており（8GB小さいにもかかわらず）、 **750 プロンプトの混合スイートで** （LiveCodeBench v6、MMLU Pro、GPQA、Math500）、以下の両方を報告: **全体精度** および **相対誤差増加** （量子化モデルが元モデルよりどれだけ多く間違えるか）。

主な結果:

**ここでの最良の品質/サイズのトレードオフ:**

* **unsloth UD-Q4\_K\_XL `これはOriginalに最も近く、低下はわずか`.**\
  6.0ポイント **だけで、さらに「わずか」** ベースラインよりもエラーが多いです。 **+22.8%** 他のUnsloth Q4量子化版も互いに近い性能です（約64.5～64.9の精度）。
* **IQ4\_NL**\
  `、および`, `MXFP4_MOE`UD-IQ2\_XXS `は、このベンチマークでは実質的に同じ品質で、Originalよりも` 約33～35% **エラーが多いです。** Unsloth GGUFは、他の非Unsloth GGUFよりもはるかに優れた性能を示します。例えば、
* lmstudio-community - Q4\_K\_M `（8GB小さいにもかかわらず）や` AesSedai - IQ3\_S `を参照してください。`.

### 公式ベンチマーク

以下で、表形式のベンチマークをさらに確認できます:

<figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FHtuBCFNe7qeVG538VVQV%2F97f76950-2c60-4a9b-bb96-228454afabe9.png?alt=media&#x26;token=a16edc7e-db1a-4052-aa99-1b516539b896" alt="" width="563"><figcaption></figcaption></figure>

<table data-full-width="true"><thead><tr><th>ベンチマーク</th><th>MiniMax-M2.5</th><th>MiniMax-M2.1</th><th>Claude Opus 4.5</th><th>Claude Opus 4.6</th><th>Gemini 3 Pro</th><th>GPT-5.2（thinking）</th></tr></thead><tbody><tr><td>AIME25</td><td>86.3</td><td>83.0</td><td>91.0</td><td>95.6</td><td>96.0</td><td>98.0</td></tr><tr><td>GPQA-D</td><td>85.2</td><td>83.0</td><td>87.0</td><td>90.0</td><td>91.0</td><td>90.0</td></tr><tr><td>SciCode</td><td>44.4</td><td>41.0</td><td>50.0</td><td>52.0</td><td>56.0</td><td>52.0</td></tr><tr><td>IFBench</td><td>70.0</td><td>70.0</td><td>58.0</td><td>53.0</td><td>70.0</td><td>75.0</td></tr><tr><td>AA-LCR</td><td>69.5</td><td>62.0</td><td>74.0</td><td>71.0</td><td>71.0</td><td>73.0</td></tr><tr><td>SWE-Bench Verified</td><td>80.2</td><td>74.0</td><td>80.9</td><td>80.8</td><td>78.0</td><td>80.0</td></tr><tr><td>SWE-Bench Pro</td><td>55.4</td><td>49.7</td><td>56.9</td><td>55.4</td><td>54.1</td><td>55.6</td></tr><tr><td>Terminal Bench 2</td><td>51.7</td><td>47.9</td><td>53.4</td><td>55.1</td><td>54.0</td><td>54.0</td></tr><tr><td>ツールなしのHLE</td><td>19.4</td><td>22.2</td><td>28.4</td><td>30.7</td><td>37.2</td><td>31.4</td></tr><tr><td>Multi-SWE-Bench</td><td>51.3</td><td>47.2</td><td>50.0</td><td>50.3</td><td>42.7</td><td>—</td></tr><tr><td>SWE-Bench Multilingual</td><td>74.1</td><td>71.9</td><td>77.5</td><td>77.8</td><td>65.0</td><td>72.0</td></tr><tr><td>VIBE-Pro（平均）</td><td>54.2</td><td>42.4</td><td>55.2</td><td>55.6</td><td>36.9</td><td>—</td></tr><tr><td>BrowseComp（ctxあり）</td><td>76.3</td><td>62.0</td><td>67.8</td><td>84.0</td><td>59.2</td><td>65.8</td></tr><tr><td>Wide Search</td><td>70.3</td><td>63.2</td><td>76.2</td><td>79.4</td><td>57.0</td><td>—</td></tr><tr><td>RISE</td><td>50.2</td><td>34.0</td><td>50.5</td><td>62.5</td><td>36.8</td><td>50.0</td></tr><tr><td>BFCL マルチターン</td><td>76.8</td><td>37.4</td><td>68.0</td><td>63.3</td><td>61.0</td><td>—</td></tr><tr><td>τ² Telecom</td><td>97.8</td><td>87.0</td><td>98.2</td><td>99.3</td><td>98.0</td><td>98.7</td></tr><tr><td>MEWC</td><td>74.4</td><td>55.6</td><td>82.1</td><td>89.8</td><td>78.7</td><td>41.3</td></tr><tr><td>GDPval-MM</td><td>59.0</td><td>24.6</td><td>61.1</td><td>73.5</td><td>28.1</td><td>54.5</td></tr><tr><td>Finance Modeling</td><td>21.6</td><td>17.3</td><td>30.1</td><td>33.2</td><td>15.0</td><td>20.0</td></tr></tbody></table>

<div><figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FfHyJbhPs4k10iiauD3zo%2F1f5a4e78-1a5c-4263-8a65-36c6fe703041.png?alt=media&#x26;token=346519a3-5dee-4ea1-b395-c7de12b6f6cd" alt="" width="563"><figcaption><p>コーディングのコアベンチマークスコア</p></figcaption></figure> <figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FhJmbCVK6CNZPw2FSJLPT%2F2003295c-001c-4381-af89-8859c197b5a0.png?alt=media&#x26;token=aaa9968d-f694-4b1e-b734-086c2cf8988b" alt="" width="563"><figcaption><p>検索とツール使用</p></figcaption></figure></div>

<div><figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FaG1VqXpVwoCWG3RxMWDL%2F91c4825c-1813-4cad-9e36-4b69c6cd0272.png?alt=media&#x26;token=ae956a3f-a25e-4ebc-80cb-97733573e654" alt=""><figcaption><p>100件あたりの完了タスク数</p></figcaption></figure> <figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fj2PwoDid8zWRyYnXA6of%2F8c25f392-275d-4730-aa92-e9ea27315d83.png?alt=media&#x26;token=a59cf4d3-ff63-4383-90c8-2d089db19b50" alt=""><figcaption><p>オフィス機能</p></figcaption></figure></div>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/jp/moderu/tutorials/minimax-m25.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
