waveformMiniMax-M2.5:実行ガイド

MiniMax-M2.5 を自分のデバイスでローカルに実行しましょう!

MiniMax-M2.5 は、コーディング、エージェント的ツール使用、検索およびオフィス作業で SOTA を達成した新しいオープンな大規模言語モデルで、でのスコアは 80.2% です SWE-Bench Verified で 51.3%、BrowseComp で 76.3% を記録しています。

この 230B パラメータ (アクティブ 10B) モデルは 200K コンテキスト ウィンドウを持ち、非量子化の bf16 では必要な容量は 457GBです。Unsloth Dynamic 3-bit GGUF によりサイズは 101GB (-62%): MiniMax-M2.5 GGUFarrow-up-right

すべてのアップロードは Unsloth Dynamic 2.0 を使用して SOTA の量子化性能を実現しています - つまり 3-bit では重要なレイヤーが 8 または 16-bit にアップキャストされています。Unsloth を使ってマルチ GPU によるファインチューニングも可能です。

⚙️ 使用ガイド

3-bit 動的量子化 UD-Q3_K_XL は 101GB のディスクスペースを使用します - これは 128GB 統一メモリの Mac にちょうど収まります で約 20+ トークン/秒 の性能を出し、また 1x16GB GPU と 96GB の RAM で 25+ トークン/秒 でより速く動作します。 2-bit 量子化や最大の 2-bit は 96GB デバイスに収まります。

ほぼ フル精度で使用する場合は Q8_0 (8-bit) を使用してください。これは 243GB を使用し、256GB RAM のデバイス/Mac 上で 10+ トークン/秒 を実現します。

circle-check

推奨設定

MiniMax は最高のパフォーマンスのために次のパラメータを推奨します: temperature=1.0, top_p = 0.95, top_k = 40.

デフォルト設定(ほとんどのタスク)

temperature = 1.0

top_p = 0.95

top_k = 40

repeat penalty = 1.0 または無効

  • 最大コンテキストウィンドウ: 196,608

  • Min_P = 0.01 (デフォルトは 0.05 の場合があります)

  • デフォルトのシステムプロンプト:

あなたは役に立つアシスタントです。あなたの名前は MiniMax-M2.5 で、MiniMax によって作られました。

MiniMax-M2.5 チュートリアルを実行する:

これらのチュートリアルでは、128GB RAM デバイスに収まる 3-bit の UD-Q3_K_XLarrow-up-right 量子化を使用します。

✨ llama.cpp で実行する

1

最新の llama.cppGitHub で入手してくださいarrow-up-right。以下のビルド手順に従うこともできます。GPU を持っていないか CPU 推論だけを行いたい場合は、 -DGGML_CUDA=ON-DGGML_CUDA=OFF に変更してください。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
2

もしモデルを直接読み込むために llama.cpp を使いたい場合は、以下のようにできます:(:Q3_K_XL)は量子化タイプです。Hugging Face(ポイント 3)経由でダウンロードすることもできます。これは ollama run に似ています。 export LLAMA_CACHE="folder" を使って llama.cpp が特定の場所に保存するように強制できます。モデルは最大で 200K のコンテキスト長しか持たないことを忘れないでください。

次に従ってください(ほとんどのデフォルト ユースケース): export LLAMA_CACHE="unsloth/MiniMax-M2.5-GGUF"

./llama.cpp/llama-cli \
-hf unsloth/MiniMax-M2.5-GGUF:UD-Q3_K_XL \
    --ctx-size 16384 \
    --flash-attn on \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --top-k 40
    モデルをダウンロードする(インストール後) via:
3

pip install huggingface_hub hf_transfer )。次に選択できます (動的 4-bit 量子化)や他の量子化版(例えば UD-Q3_K_XL UD-Q6_K_XL )を選べます。 サイズと精度のバランスを取るために、我々の 4bit 動的量子化の使用を推奨します。 UD-Q3_K_XL hf download unsloth/MiniMax-M2.5-GGUF \

--local-dir unsloth/MiniMax-M2.5-GGUF \
    --include "*UD-Q3_K_XL*" # 8-bit の場合は "*Q8_0*" を使用
    CPU スレッド数を指定するには
4

--threads 32 コンテキスト長を指定するには --ctx-size 16384 GPU オフローディングするレイヤー数を指定するには --n-gpu-layers 2 を使用してください。GPU がメモリ不足になる場合は調整してみてください。CPU のみの推論の場合はこのオプションを削除してください。 --model unsloth/MiniMax-M2.5-GGUF/UD-Q3_K_XL/MiniMax-M2.5-UD-Q3_K_XL-00001-of-00004.gguf \

-hf unsloth/MiniMax-M2.5-GGUF:UD-Q3_K_XL \
    --top-k 40 \
    --top-p 0.95 \
    --min-p 0.01 \
    --top-k 40
    --seed 3407
    --flash-attn on \
    🦙 Llama-server  OpenAI  completion ライブラリ

MiniMax-M2.5 を本番展開するために、我々は

llama-server または OpenAI API を使用します。新しいターミナル(tmux 等)でモデルを次のようにデプロイしてください: ./llama.cpp/llama-server \

pip install openai を実行してから、次を行ってください:from openai import OpenAI

以下で表形式のベンチマークをさらにご覧になれます:

ベンチマーク

MiniMax-M2.5
MiniMax-M2.1
Claude Opus 4.5
Claude Opus 4.6
Gemini 3 Pro
GPT-5.2 (thinking)
AIME25

GPQA-D

86.3

83.0

91.0

95.6

96.0

98.0

ツールなしの HLE

85.2

83.0

87.0

90.0

91.0

90.0

IFBench

44.4

41.0

50.0

52.0

56.0

52.0

AA-LCR

70.0

70.0

58.0

53.0

70.0

75.0

SWE-Bench Verified

69.5

62.0

74.0

71.0

71.0

73.0

SWE-Bench Pro

80.2

74.0

80.9

80.8

78.0

80.0

Terminal Bench 2

55.4

49.7

56.9

55.4

54.1

55.6

Multi-SWE-Bench

51.7

47.9

53.4

55.1

54.0

54.0

SciCode

19.4

22.2

28.4

30.7

37.2

31.4

51.3

47.2

50.0

50.3

42.7

SWE-Bench 多言語版

VIBE-Pro (平均)

74.1

71.9

77.5

77.8

65.0

72.0

BrowseComp (コンテキスト有り)

54.2

42.4

55.2

55.6

36.9

SWE-Bench 多言語版

Wide Search

76.3

62.0

67.8

84.0

59.2

65.8

RISE

70.3

63.2

76.2

79.4

57.0

SWE-Bench 多言語版

BFCL マルチターン

50.2

34.0

50.5

62.5

36.8

50.0

τ² Telecom

76.8

37.4

68.0

63.3

61.0

SWE-Bench 多言語版

MEWC

97.8

87.0

98.2

99.3

98.0

98.7

GDPval-MM

74.4

55.6

82.1

89.8

78.7

41.3

ファイナンスモデリング

59.0

24.6

61.1

73.5

28.1

54.5

コーディング コア ベンチマークスコア

21.6

17.3

30.1

33.2

15.0

20.0

検索とツール使用
100 件あたりの完了タスク数
オフィス機能
Office Capabilities

最終更新

役に立ちましたか?