waveformMiniMax-M2.5: 実行方法ガイド

MiniMax-M2.5 をご自身のデバイスでローカルに実行しましょう!

MiniMax-M2.5は、コーディング、エージェント的なツール利用、検索およびオフィス作業でSOTAを達成した新しいオープンな大規模言語モデルであり、で80.2%を記録しています。 SWE-Bench Verifiedで51.3%、Multi-SWE-Benchで51.3%、BrowseCompで76.3%を記録しています。

この 230Bパラメータ (アクティブ10B)モデルは 200Kのコンテキスト ウィンドウを持ち、未量子化のbf16では 457GBが必要です。Unsloth Dynamic 3ビット GGUFはサイズを 101GB (-62%): に削減します。MiniMax-M2.5 GGUFarrow-up-right

すべてのアップロードはUnslothを使用しています Dynamic 2.0 はSOTAの量子化性能のために重要なレイヤーが8ビットまたは16ビットにアップキャストされています。Unslothを使ってマルチGPUでモデルをファインチューニングすることもできます。

⚙️ 使用ガイド

この3ビット動的量子化UD-Q3_K_XLは 101GB のディスク容量を使用します — これは 128GB統合メモリのMac で約20+トークン/秒を実現し、また 1x16GB GPUと96GBのRAM で25+トークン/秒でより高速に動作します。 2ビット 量子化や最も大きい2ビットは96GBのデバイスに収まります。

ほぼ フル精度で利用するには、 Q8_0 (8ビット)は243GBを使用し、256GBのRAMデバイス/Macに収まり、10+トークン/秒を実現します。

circle-check

推奨設定

MiniMaxは最高の性能のために以下のパラメータを推奨します: temperature=1.0, top_p = 0.95, top_k = 40.

デフォルト設定(ほとんどのタスク)

temperature = 1.0

top_p = 0.95

top_k = 40

repeat penalty = 1.0 または無効

  • 最大コンテキストウィンドウ: 196,608

  • Min_P = 0.01 (デフォルトは0.05かもしれません)

  • デフォルトのシステムプロンプト:

あなたは有用なアシスタントです。あなたの名前はMiniMax-M2.5で、MiniMaxによって構築されています。

MiniMax-M2.5チュートリアルを実行:

これらのチュートリアルでは、128GB RAMデバイスに収まる3ビットの UD-Q3_K_XLarrow-up-right 量子化を利用します。

✨ llama.cppで実行する

1

最新の llama.cpp を入手してください GitHubはこちらarrow-up-right。以下のビルド手順にも従えます。変更するには -DGGML_CUDA=ON から -DGGML_CUDA=OFF にして、GPUを持っていない場合やCPU推論のみを行いたい場合に設定してください。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \\
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
2

もし直接モデルをロードするために llama.cpp を使いたい場合は、以下を実行できます:(:Q3_K_XL)は量子化タイプです。Hugging Face(ポイント3)経由でもダウンロードできます。これは ollama run に類似しています。使用するには export LLAMA_CACHE="folder" を使って llama.cpp に特定の場所へ保存させることができます。モデルは最大200Kのコンテキスト長しか持たないことを忘れないでください。

以下に従って ほとんどのデフォルト ユースケース:

export LLAMA_CACHE="unsloth/MiniMax-M2.5-GGUF"
./llama.cpp/llama-cli \\
    -hf unsloth/MiniMax-M2.5-GGUF:UD-Q3_K_XL \
    --ctx-size 16384 \\
    --flash-attn on \
    --temp 1.0 \
    --top-p 0.95 \\
    --min-p 0.01 \
    --top-k 40
3

(インストール後)以下でモデルをダウンロードします pip install huggingface_hub hf_transfer )。次に選べます UD-Q3_K_XL (動的4ビット量子化)や、他の量子化バージョンのような UD-Q6_K_XL があります。サイズと精度のバランスを取るために我々の4ビット動的量子化を推奨します。ダウンロードが停止した場合は、次を参照してください UD-Q3_K_XL hf download unsloth/MiniMax-M2.5-GGUF \ Hugging Face Hub、XET デバッグ

--local-dir unsloth/MiniMax-M2.5-GGUF \
    --include "*UD-Q3_K_XL*" # 8ビットは "*Q8_0*" を使用
    --model unsloth/MiniMax-M2.5-GGUF/UD-Q3_K_XL/MiniMax-M2.5-UD-Q3_K_XL-00001-of-00004.gguf \
4

CPUスレッド数を設定するには --threads 32 、コンテキスト長を設定するには --ctx-size 16384 、GPUオフロードするレイヤー数を設定するには --n-gpu-layers 2 を使用します。GPUがメモリ不足になる場合は調整してください。CPUのみの推論の場合はこれを削除してください。

./llama.cpp/llama-cli \\
    --top-k 40 \
    --temp 1.0 \
    --top-p 0.95 \\
    --min-p 0.01 \
    🦙 Llama-server & OpenAIのcompletionライブラリ
    --ctx-size 16384 \\
    --seed 3407

MiniMax-M2.5を本番環境にデプロイするには、

またはOpenAI APIを使用します。新しい端末でtmuxなどを使い、次のようにモデルをデプロイします: llama-server --alias "unsloth/MiniMax-M2.5" \

その後、新しいターミナルで、 pip install openaiを行った後、次を実行します:

📊 ベンチマーク

MiniMax-M2.5

ベンチマーク
MiniMax-M2.1
Claude Opus 4.5
Claude Opus 4.6
Gemini 3 Pro
GPT-5.2(思考中)
AIME25

GPQA-D

86.3

83.0

91.0

95.6

96.0

98.0

ツールなしのHLE

85.2

83.0

87.0

90.0

91.0

90.0

SWE-Bench Verified

44.4

41.0

50.0

52.0

56.0

52.0

IFBench

70.0

70.0

58.0

53.0

70.0

75.0

AA-LCR

69.5

62.0

74.0

71.0

71.0

73.0

SWE-Bench Pro

80.2

74.0

80.9

80.8

78.0

80.0

Multi-SWE-Bench

55.4

49.7

56.9

55.4

54.1

55.6

Terminal Bench 2

51.7

47.9

53.4

55.1

54.0

54.0

SciCode

19.4

22.2

28.4

30.7

37.2

31.4

51.3

47.2

50.0

50.3

42.7

SWE-Bench 多言語版

VIBE-Pro(平均)

74.1

71.9

77.5

77.8

65.0

72.0

BrowseComp(コンテキストあり)

54.2

42.4

55.2

55.6

36.9

SWE-Bench 多言語版

ワイドサーチ

76.3

62.0

67.8

84.0

59.2

65.8

RISE

70.3

63.2

76.2

79.4

57.0

SWE-Bench 多言語版

BFCL マルチターン

50.2

34.0

50.5

62.5

36.8

50.0

τ² テレコム

76.8

37.4

68.0

63.3

61.0

SWE-Bench 多言語版

MEWC

97.8

87.0

98.2

99.3

98.0

98.7

GDPval-MM

74.4

55.6

82.1

89.8

78.7

41.3

ファイナンスモデリング

59.0

24.6

61.1

73.5

28.1

54.5

コーディング コア ベンチマークスコア

21.6

17.3

30.1

33.2

15.0

20.0

検索とツール利用
100あたりの完了タスク数
オフィス機能
オフィス機能

最終更新

役に立ちましたか?