waveformMiniMax-M2.5: 実行ガイド

MiniMax-M2.5 を自分のデバイスでローカルに実行しましょう!

MiniMax-M2.5は、コーディング、エージェンシックなツール使用、検索およびオフィスワークでSOTAを達成した新しいオープンLLMで、で80.2%を記録しています SWE-Bench Verifiedでは51.3%、Multi-SWE-Benchでは51.3%、BrowseCompでは76.3%を記録しました。

この 230Bパラメータ (アクティブ10B)のモデルは 200Kコンテキスト ウィンドウを持ち、未量子化のbf16では必要な 457GBです。Unsloth Dynamic 3ビット GGUFはサイズを 101GB (-62%): MiniMax-M2.5 GGUFarrow-up-right

すべてのアップロードはUnslothを使用します Dynamic 2.0 はSOTAの量子化性能のために使用しています—したがって3ビットでは重要なレイヤーが8または16ビットにアップキャストされています。Unslothを使ってマルチGPUでモデルをファインチューニングすることもできます。

circle-check

⚙️ 使用ガイド

3ビットの動的量子化UD-Q3_K_XLは 101GB のディスク空間を使用します—これは 128GBユニファイドメモリのMacにちょうど収まります で約20+トークン/秒を実現し、また 1x16GB GPUと96GBのRAMの組み合わせでは で25+トークン/秒でも動作します。 2ビット 量子化または最も大きな2ビットは96GBデバイスに収まります。

ほぼ フルプレシジョンで、を使用してください Q8_0 (8ビット)は243GBを使用し、256GBのRAMデバイス/Macで10+トークン/秒に収まります。

circle-check

推奨設定

MiniMaxは最高のパフォーマンスのために以下のパラメータを推奨します: temperature=1.0, top_p = 0.95, top_k = 40.

デフォルト設定(ほとんどのタスク)

temperature = 1.0

top_p = 0.95

top_k = 40

repeat penalty = 1.0 または無効

  • 最大コンテキストウィンドウ: 196,608

  • Min_P = 0.01 (デフォルトは0.05かもしれません)

  • デフォルトのシステムプロンプト:

あなたは役に立つアシスタントです。あなたの名前はMiniMax-M2.5で、MiniMaxによって構築されました。

MiniMax-M2.5チュートリアルを実行する:

これらのチュートリアルでは、128GB RAMデバイスに収まる3ビットの UD-Q3_K_XLarrow-up-right 量子化を利用します。

✨ llama.cppで実行する

1

最新の llama.cpp を入手してください GitHubはこちらarrow-up-right。以下のビルド手順に従うこともできます。 -DGGML_CUDA=ON-DGGML_CUDA=OFF に変更してください。GPUがない場合やCPUによる推論のみを行いたい場合。 AppleのMac/Metalデバイスの場合、を設定し、 -DGGML_CUDA=OFF 通常通り続けてください - Metalサポートはデフォルトで有効です。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
2

もし直接モデルを読み込むために llama.cpp を使ってモデルをロードしたい場合、以下を実行できます:(:Q3_K_XL)は量子化タイプです。Hugging Face(ポイント3)からダウンロードすることもできます。これは ollama run に似ています。 export LLAMA_CACHE="folder" を使って特定の場所に保存するように強制できます。モデルの最大コンテキスト長は256Kです。 llama.cpp を使って特定の場所に保存するように強制できます。モデルは最大200Kのコンテキスト長しか持たないことを忘れないでください。

こちらに従ってください ユースケースについては以下に従ってください: 使用例:

export LLAMA_CACHE="unsloth/MiniMax-M2.5-GGUF"
-hf unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL \
    -hf unsloth/MiniMax-M2.5-GGUF:UD-Q3_K_XL \
    --temp 0.6 \
    --flash-attn on \
    非思考モード:
    --top-k 20 \
    --min-p 0.01 \
    --top-k 40
3

pip install huggingface_hub hf_transfer をインストールしてください)。Q4_K_Mや他の量子化バージョンを選ぶことができます。 )。選択できます UD-Q3_K_XL (動的4ビット量子化)や他の量子化バージョンのような UD-Q6_K_XL があります。当社はサイズと精度のバランスを取るために4bitの動的量子化を推奨します。 UD-Q3_K_XL ダウンロードが途中で止まる場合は、こちらを参照してください Hugging Face Hub、XET デバッグ

hf download unsloth/MiniMax-M2.5-GGUF \
    --local-dir unsloth/MiniMax-M2.5-GGUF \
    --include "*UD-Q3_K_XL*" # 8ビットは "*Q8_0*" を使用
4

を編集できます --threads 32 CPUスレッド数用、 --ctx-size 16384 コンテキスト長用、 --n-gpu-layers 2 GPUオフローディングで何層オフロードするかの指定用です。GPUがメモリ不足になる場合は調整してみてください。CPUのみの推論の場合はこれを削除してください。

-hf unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL \
    --model unsloth/MiniMax-M2.5-GGUF/UD-Q3_K_XL/MiniMax-M2.5-UD-Q3_K_XL-00001-of-00004.gguf \
    非思考モード:
    --top-k 20 \
    --min-p 0.01 \
    --top-k 40 \
    --temp 0.6 \
    --seed 3407

🦙 Llama-server と OpenAI の completion ライブラリ

MiniMax-M2.5を本番環境にデプロイするには、我々は llama-server またはOpenAI APIを使用します。新しいターミナル(tmuxなど)でモデルを次のようにデプロイします:

その後、新しいターミナルで、 pip install openaiを行った後、次を実行します:

📊 ベンチマーク

Unsloth GGUF ベンチマーク

Benjamin Marie(第三者)がベンチマークを実施しましたarrow-up-right MiniMax-M2.5 を使用して Unsloth GGUF 量子化 上で 750プロンプトの混合スイートで (LiveCodeBench v6、MMLU Pro、GPQA、Math500)、両方を報告しています: 全体的な精度 および 相対誤差増加 (量子化モデルがどれだけ多く元のモデルより誤答するか)。

Unsloth量子化は、精度と相対誤差の両方で非Unsloth版よりもはるかに良好に動作します(8GB小さいにもかかわらず)。

主要な結果:

  • ここでの最良の品質/サイズのトレードオフ: unsloth UD-Q4_K_XL. これはオリジナルに最も近く:わずか 6.0ポイント の低下で、そして「わずか」 +22.8% より多くの誤りがベースラインよりあります。

  • 他のUnsloth Q4量子化も近い性能を示します(約64.5–64.9の精度)。 IQ4_NL, MXFP4_MOE、および UD-IQ2_XXS は、このベンチマークでは基本的に同等の品質で、 約33–35% ほどオリジナルより多くの誤りがあります。

  • Unsloth GGUFは他の非Unsloth GGUFよりはるかに良い性能を示します。例として lmstudio-community - Q4_K_M (8GB小さいにもかかわらず)や AesSedai - IQ3_S.

公式ベンチマーク

以下で表形式のベンチマークをさらに確認できます:

ベンチマーク
MiniMax-M2.5
MiniMax-M2.1
Claude Opus 4.5
Claude Opus 4.6
Gemini 3 Pro
GPT-5.2(思考中)

AIME25

86.3

83.0

91.0

95.6

96.0

98.0

GPQA-D

85.2

83.0

87.0

90.0

91.0

90.0

SciCode

44.4

41.0

50.0

52.0

56.0

52.0

IFBench

70.0

70.0

58.0

53.0

70.0

75.0

AA-LCR

69.5

62.0

74.0

71.0

71.0

73.0

SWE-Bench 検証済み

80.2

74.0

80.9

80.8

78.0

80.0

SWE-Bench Pro

55.4

49.7

56.9

55.4

54.1

55.6

Terminal Bench 2

51.7

47.9

53.4

55.1

54.0

54.0

ツールなしのHLE

19.4

22.2

28.4

30.7

37.2

31.4

Multi-SWE-Bench

51.3

47.2

50.0

50.3

42.7

SWE-Bench 多言語

74.1

71.9

77.5

77.8

65.0

72.0

VIBE-Pro(平均)

54.2

42.4

55.2

55.6

36.9

BrowseComp(コンテキストあり)

76.3

62.0

67.8

84.0

59.2

65.8

ワイドサーチ

70.3

63.2

76.2

79.4

57.0

RISE

50.2

34.0

50.5

62.5

36.8

50.0

BFCL マルチターン

76.8

37.4

68.0

63.3

61.0

τ² テレコム

97.8

87.0

98.2

99.3

98.0

98.7

MEWC

74.4

55.6

82.1

89.8

78.7

41.3

GDPval-MM

59.0

24.6

61.1

73.5

28.1

54.5

ファイナンスモデリング

21.6

17.3

30.1

33.2

15.0

20.0

コーディングコアベンチマークスコア
検索とツール使用
100件あたり完了したタスク数
オフィス機能

最終更新

役に立ちましたか?