waveformMiniMax-M2.5: 実行方法ガイド

MiniMax-M2.5 をご自身のデバイスでローカル実行しましょう!

MiniMax-M2.5は、コーディング、エージェント的なツール利用、検索、オフィスワークでSOTAを達成する新しいオープンLLMで、 SWE-Bench で80.2%、Multi-SWE-Benchで51.3%、BrowseCompで76.3%を記録しています。

OpenAI の 230Bパラメータ (10Bアクティブ)モデルは 200Kコンテキスト ウィンドウを持ち、非量子化bf16では 457GBを必要とします。Unsloth Dynamic 3-bit GGUFはサイズを 101GB (-62%): MiniMax-M2.5 GGUFarrow-up-right

すべてのアップロードは Unsloth の Dynamic 2.0 まで削減します。SOTAの量子化性能のため、3ビットでは重要な層が8ビットまたは16ビットにアップキャストされています。マルチGPUを使ってUnsloth経由でモデルをファインチューニングすることもできます。

⚙️ 使用ガイド

3ビットの動的量子化UD-Q3_K_XLは 101GB のディスク容量を使います。これは 128GBユニファイドメモリ搭載Mac にうまく収まり、約20以上のトークン/秒で動作し、さらに 1x16GB GPUと96GB RAM でもより高速に動作し、25以上のトークン/秒を実現します。 2ビット 量子化、または最も大きい2ビット版は96GBのデバイスに収まります。

ほぼ フル精度するには、 Q8_0 (8ビット)は243GBを使用し、256GB RAM搭載デバイス / Macで10以上のトークン/秒で動作します。

circle-check

推奨設定

MiniMaxは、最良の性能のために以下のパラメータの使用を推奨しています: temperature=1.0, top_p = 0.95, top_k = 40.

デフォルト設定(ほとんどのタスク)

temperature = 1.0

top_p = 0.95

top_k = 40

repeat penalty = 1.0 または無効

  • 最大コンテキストウィンドウ: 196,608

  • Min_P = 0.01 (デフォルトは0.05の可能性があります)

  • デフォルトのシステムプロンプト:

あなたは役立つアシスタントです。あなたの名前はMiniMax-M2.5で、MiniMaxによって構築されています。

MiniMax-M2.5チュートリアルを実行:

これらのチュートリアルでは、128GB RAMデバイスに収まる3ビット UD-Q3_K_XLarrow-up-right 量子化を使用します。

✨ llama.cppで実行

1

最新の llama.cppGitHub こちらarrow-up-rightで入手してください。以下のビルド手順に従うこともできます。GPU がない、または CPU 推論のみを行いたい場合は、 -DGGML_CUDA=ON-DGGML_CUDA=OFF に変更してください。 Apple Mac / Metal デバイス向けでは、 -DGGML_CUDA=OFF を設定してから通常どおり続けてください。Metal サポートはデフォルトで有効です。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
2

モデルを直接読み込むために llama.cpp モデルを直接読み込むには、以下のようにできます。(:Q3_K_XL)は量子化タイプです。Hugging Face経由でダウンロードすることもできます(ポイント3)。これは ollama run 。使用 export LLAMA_CACHE="folder" して llama.cpp に似ており、特定の場所に保存できます。モデルの最大コンテキスト長は200Kまでであることを忘れないでください。

こちらに従ってください ほとんどのデフォルト ユースケース:

export LLAMA_CACHE="unsloth/MiniMax-M2.5-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/MiniMax-M2.5-GGUF:UD-Q3_K_XL \
    --ctx-size 16384 \
    --flash-attn on \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --top-k 40
3

以下でモデルをダウンロードしてください(事前に pip install huggingface_hub hf_transfer )。 UD-Q3_K_XL (動的4ビット量子化)または、次のような他の量子化版もあります UD-Q6_K_XL 。サイズと精度のバランスのため、4bit動的量子化の使用を推奨します。ダウンロードが止まる場合は、こちらを参照してください UD-Q3_K_XL hf download unsloth/MiniMax-M2.5-GGUF \ Hugging Face Hub、XET デバッグ

--local-dir unsloth/MiniMax-M2.5-GGUF \
    --include "*UD-Q3_K_XL*" # 8ビットの場合は "*Q8_0*" を使用
    --model unsloth/MiniMax-M2.5-GGUF/UD-Q3_K_XL/MiniMax-M2.5-UD-Q3_K_XL-00001-of-00004.gguf \
4

編集できます --threads 32 は CPU スレッド数用、 --ctx-size 16384 をコンテキスト長として、 --n-gpu-layers 2 は何層を GPU オフロードするか用です。GPU メモリ不足になる場合は調整してみてください。CPU のみで推論する場合は削除してください。

./llama.cpp/llama-cli \
    --top-k 40 \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --seed 3407
    --ctx-size 16384 \
    🦙 Llama-server & OpenAIのcompletionライブラリ

MiniMax-M2.5を本番環境にデプロイするには、

またはOpenAI APIを使用します。新しいターミナルで、たとえばtmux経由で、以下のようにモデルをデプロイします: llama-server --alias "unsloth/MiniMax-M2.5" \

その後、新しいターミナルで、 pip install openaiを実行した後、次を実行します:

📊 ベンチマーク

Unsloth GGUF ベンチマーク

Benjamin Marie(サードパーティ)がベンチマークを実施arrow-up-right MiniMax-M2.5 Unsloth GGUF量子化 Unslothの量子化版は、精度と相対誤差の両方で、精度にかかわらず非Unsloth版よりもはるかに優れており(8GB小さいにもかかわらず)、 750 プロンプトの混合スイートで (LiveCodeBench v6、MMLU Pro、GPQA、Math500)、以下の両方を報告: 全体精度 および 相対誤差増加 (量子化モデルが元モデルよりどれだけ多く間違えるか)。

主な結果:

ここでの最良の品質/サイズのトレードオフ:

  • unsloth UD-Q4_K_XL これはOriginalに最も近く、低下はわずか. 6.0ポイント だけで、さらに「わずか」 ベースラインよりもエラーが多いです。 +22.8% 他のUnsloth Q4量子化版も互いに近い性能です(約64.5~64.9の精度)。

  • IQ4_NL 、および, MXFP4_MOEUD-IQ2_XXS は、このベンチマークでは実質的に同じ品質で、Originalよりも 約33~35% エラーが多いです。 Unsloth GGUFは、他の非Unsloth GGUFよりもはるかに優れた性能を示します。例えば、

  • lmstudio-community - Q4_K_M (8GB小さいにもかかわらず)や AesSedai - IQ3_S を参照してください。.

公式ベンチマーク

以下で、表形式のベンチマークをさらに確認できます:

ベンチマーク
MiniMax-M2.5
MiniMax-M2.1
Claude Opus 4.5
Claude Opus 4.6
Gemini 3 Pro
GPT-5.2(thinking)

AIME25

86.3

83.0

91.0

95.6

96.0

98.0

GPQA-D

85.2

83.0

87.0

90.0

91.0

90.0

SciCode

44.4

41.0

50.0

52.0

56.0

52.0

IFBench

70.0

70.0

58.0

53.0

70.0

75.0

AA-LCR

69.5

62.0

74.0

71.0

71.0

73.0

SWE-Bench Verified

80.2

74.0

80.9

80.8

78.0

80.0

SWE-Bench Pro

55.4

49.7

56.9

55.4

54.1

55.6

Terminal Bench 2

51.7

47.9

53.4

55.1

54.0

54.0

ツールなしのHLE

19.4

22.2

28.4

30.7

37.2

31.4

Multi-SWE-Bench

51.3

47.2

50.0

50.3

42.7

SWE-Bench Multilingual

74.1

71.9

77.5

77.8

65.0

72.0

VIBE-Pro(平均)

54.2

42.4

55.2

55.6

36.9

BrowseComp(ctxあり)

76.3

62.0

67.8

84.0

59.2

65.8

Wide Search

70.3

63.2

76.2

79.4

57.0

RISE

50.2

34.0

50.5

62.5

36.8

50.0

BFCL マルチターン

76.8

37.4

68.0

63.3

61.0

τ² Telecom

97.8

87.0

98.2

99.3

98.0

98.7

MEWC

74.4

55.6

82.1

89.8

78.7

41.3

GDPval-MM

59.0

24.6

61.1

73.5

28.1

54.5

Finance Modeling

21.6

17.3

30.1

33.2

15.0

20.0

コーディングのコアベンチマークスコア
検索とツール使用
100件あたりの完了タスク数
オフィス機能

最終更新

役に立ちましたか?