MiniMax-M2.5: 実行ガイド

MiniMax-M2.5 を自分のデバイスでローカルに実行しましょう！

MiniMax-M2.5は、コーディング、エージェンシックなツール使用、検索およびオフィスワークでSOTAを達成した新しいオープンLLMで、で80.2%を記録しています SWE-Bench Verifiedでは51.3%、Multi-SWE-Benchでは51.3%、BrowseCompでは76.3%を記録しました。

この 230Bパラメータ （アクティブ10B）のモデルは 200Kコンテキスト ウィンドウを持ち、未量子化のbf16では必要な 457GBです。Unsloth Dynamic 3ビット GGUFはサイズを 101GB (-62%): MiniMax-M2.5 GGUF

すべてのアップロードはUnslothを使用します Dynamic 2.0 はSOTAの量子化性能のために使用しています—したがって3ビットでは重要なレイヤーが8または16ビットにアップキャストされています。Unslothを使ってマルチGPUでモデルをファインチューニングすることもできます。

2月26日： 当社のGGUF量子化がどれだけ優れているかを確認するベンチマークでのパフォーマンスはこちら.

⚙️ 使用ガイド

3ビットの動的量子化UD-Q3_K_XLは 101GB のディスク空間を使用します—これは 128GBユニファイドメモリのMacにちょうど収まります で約20+トークン/秒を実現し、また 1x16GB GPUと96GBのRAMの組み合わせでは で25+トークン/秒でも動作します。 2ビット 量子化または最も大きな2ビットは96GBデバイスに収まります。

ほぼ フルプレシジョンで、を使用してください Q8_0 （8ビット）は243GBを使用し、256GBのRAMデバイス／Macで10+トークン/秒に収まります。

最高のパフォーマンスを得るには、利用可能な合計メモリ（VRAM＋システムRAM）がダウンロードしている量子化モデルファイルのサイズを上回っていることを確認してください。そうでない場合でも、llama.cppはSSD/HDDのオフローディングを介して実行できますが、推論は遅くなります。

推奨設定

MiniMaxは最高のパフォーマンスのために以下のパラメータを推奨します： temperature=1.0, top_p = 0.95, top_k = 40.

デフォルト設定（ほとんどのタスク）

temperature = 1.0

top_p = 0.95

top_k = 40

repeat penalty = 1.0 または無効

最大コンテキストウィンドウ： 196,608
Min_P = 0.01 （デフォルトは0.05かもしれません）
デフォルトのシステムプロンプト：

あなたは役に立つアシスタントです。あなたの名前はMiniMax-M2.5で、MiniMaxによって構築されました。

MiniMax-M2.5チュートリアルを実行する：

これらのチュートリアルでは、128GB RAMデバイスに収まる3ビットの UD-Q3_K_XL 量子化を利用します。

✨ llama.cppで実行する

最新の llama.cpp を入手してください GitHubはこちら。以下のビルド手順に従うこともできます。 -DGGML_CUDA=ON を -DGGML_CUDA=OFF に変更してください。GPUがない場合やCPUによる推論のみを行いたい場合。 AppleのMac/Metalデバイスの場合、を設定し、 -DGGML_CUDA=OFF 通常通り続けてください - Metalサポートはデフォルトで有効です。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

もし直接モデルを読み込むために llama.cpp を使ってモデルをロードしたい場合、以下を実行できます：（:Q3_K_XL）は量子化タイプです。Hugging Face（ポイント3）からダウンロードすることもできます。これは ollama run に似ています。 export LLAMA_CACHE="folder" を使って特定の場所に保存するように強制できます。モデルの最大コンテキスト長は256Kです。 llama.cpp を使って特定の場所に保存するように強制できます。モデルは最大200Kのコンテキスト長しか持たないことを忘れないでください。

こちらに従ってください ユースケースについては以下に従ってください： 使用例：

export LLAMA_CACHE="unsloth/MiniMax-M2.5-GGUF"
-hf unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL \
    -hf unsloth/MiniMax-M2.5-GGUF:UD-Q3_K_XL \
    --temp 0.6 \
    --flash-attn on \
    非思考モード：
    --top-k 20 \
    --min-p 0.01 \
    --top-k 40

pip install huggingface_hub hf_transfer をインストールしてください）。Q4_K_Mや他の量子化バージョンを選ぶことができます。 ）。選択できます UD-Q3_K_XL （動的4ビット量子化）や他の量子化バージョンのような UD-Q6_K_XL があります。当社はサイズと精度のバランスを取るために4bitの動的量子化を推奨します。 UD-Q3_K_XL ダウンロードが途中で止まる場合は、こちらを参照してください Hugging Face Hub、XET デバッグ

hf download unsloth/MiniMax-M2.5-GGUF \
    --local-dir unsloth/MiniMax-M2.5-GGUF \
    --include "*UD-Q3_K_XL*" # 8ビットは "*Q8_0*" を使用

を編集できます --threads 32 CPUスレッド数用、 --ctx-size 16384 コンテキスト長用、 --n-gpu-layers 2 GPUオフローディングで何層オフロードするかの指定用です。GPUがメモリ不足になる場合は調整してみてください。CPUのみの推論の場合はこれを削除してください。

-hf unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL \
    --model unsloth/MiniMax-M2.5-GGUF/UD-Q3_K_XL/MiniMax-M2.5-UD-Q3_K_XL-00001-of-00004.gguf \
    非思考モード：
    --top-k 20 \
    --min-p 0.01 \
    --top-k 40 \
    --temp 0.6 \
    --seed 3407

🦙 Llama-server と OpenAI の completion ライブラリ

MiniMax-M2.5を本番環境にデプロイするには、我々は llama-server またはOpenAI APIを使用します。新しいターミナル（tmuxなど）でモデルを次のようにデプロイします：

./llama.cpp/llama-server \
    --model unsloth/MiniMax-M2.5-GGUF/UD-Q3_K_XL/MiniMax-M2.5-UD-Q3_K_XL-00001-of-00004.gguf \
    --alias "unsloth/MiniMax-M2.5" \
    --prio 3 \
    非思考モード：
    --top-k 20 \
    --min-p 0.01 \
    --top-k 40 \
    --temp 0.6 \
    --port 8001

その後、新しいターミナルで、 pip install openaiを行った後、次を実行します：

from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/MiniMax-M2.5",
    messages = [{"role": "user", "content": "Create a Snake game."},],
)
print(completion.choices[0].message.content)

📊 ベンチマーク

Unsloth GGUF ベンチマーク

Benjamin Marie（第三者）がベンチマークを実施しました MiniMax-M2.5 を使用して Unsloth GGUF 量子化 上で 750プロンプトの混合スイートで （LiveCodeBench v6、MMLU Pro、GPQA、Math500）、両方を報告しています： 全体的な精度 および 相対誤差増加 （量子化モデルがどれだけ多く元のモデルより誤答するか）。

Unsloth量子化は、精度と相対誤差の両方で非Unsloth版よりもはるかに良好に動作します（8GB小さいにもかかわらず）。

主要な結果：

ここでの最良の品質／サイズのトレードオフ： unsloth UD-Q4_K_XL. これはオリジナルに最も近く：わずか 6.0ポイント の低下で、そして「わずか」 +22.8% より多くの誤りがベースラインよりあります。
他のUnsloth Q4量子化も近い性能を示します（約64.5–64.9の精度）。 IQ4_NL, MXFP4_MOE、および UD-IQ2_XXS は、このベンチマークでは基本的に同等の品質で、 約33–35% ほどオリジナルより多くの誤りがあります。
Unsloth GGUFは他の非Unsloth GGUFよりはるかに良い性能を示します。例として lmstudio-community - Q4_K_M （8GB小さいにもかかわらず）や AesSedai - IQ3_S.

公式ベンチマーク

以下で表形式のベンチマークをさらに確認できます：

ベンチマーク

MiniMax-M2.5

MiniMax-M2.1

Claude Opus 4.5

Claude Opus 4.6

Gemini 3 Pro

GPT-5.2（思考中）

AIME25

86.3

83.0

91.0

95.6

96.0

98.0

GPQA-D

85.2

83.0

87.0

90.0

91.0

90.0

SciCode

44.4

41.0

50.0

52.0

56.0

52.0

IFBench

70.0

58.0

53.0

70.0

75.0

AA-LCR

69.5

62.0

74.0

71.0

73.0

SWE-Bench 検証済み

80.2

74.0

80.9

80.8

78.0

80.0

SWE-Bench Pro

55.4

49.7

56.9

55.4

54.1

55.6

Terminal Bench 2

51.7

47.9

53.4

55.1

54.0

ツールなしのHLE

19.4

22.2

28.4

30.7

37.2

31.4

Multi-SWE-Bench

51.3

47.2

50.0

50.3

42.7

—

SWE-Bench 多言語

74.1

71.9

77.5

77.8

65.0

72.0

VIBE-Pro（平均）

54.2

42.4

55.2

55.6

36.9

—

BrowseComp（コンテキストあり）

76.3

62.0

67.8

84.0

59.2

65.8

ワイドサーチ

70.3

63.2

76.2

79.4

57.0

—

RISE

50.2

34.0

50.5

62.5

36.8

50.0

BFCL マルチターン

76.8

37.4

68.0

63.3

61.0

—

τ² テレコム

97.8

87.0

98.2

99.3

98.0

98.7

MEWC

74.4

55.6

82.1

89.8

78.7

41.3

GDPval-MM

59.0

24.6

61.1

73.5

28.1

54.5

ファイナンスモデリング

21.6

17.3

30.1

33.2

15.0

20.0

前へQwen3-Coder-Next 次へGLM-4.7-Flash

最終更新 7 時間前

役に立ちましたか？

hashtag⚙️ 使用ガイド

hashtag推奨設定

hashtagMiniMax-M2.5チュートリアルを実行する：

hashtag✨ llama.cppで実行する

hashtag🦙 Llama-server と OpenAI の completion ライブラリ

hashtag📊 ベンチマーク

hashtagUnsloth GGUF ベンチマーク

hashtag公式ベンチマーク

⚙️ 使用ガイド

推奨設定

MiniMax-M2.5チュートリアルを実行する：

✨ llama.cppで実行する

🦙 Llama-server と OpenAI の completion ライブラリ

📊 ベンチマーク

Unsloth GGUF ベンチマーク

公式ベンチマーク