waveformMiniMax-M2.5 : Guide d'exécution

Exécutez MiniMax-M2.5 localement sur votre propre appareil !

MiniMax-M2.5 est un nouveau LLM open atteignant l'état de l'art en codage, utilisation agentique d'outils, recherche et travail de bureau, obtenant 80,2 % dans SWE-Bench Vérifié, 51,3 % dans Multi-SWE-Bench, et 76,3 % dans BrowseComp.

Le modèle de 230B paramètres (10B actifs) a un fenêtre de contexte de 200K et bf16 non quantifié nécessite 457 Go. Unsloth Dynamic 3 bits GGUF réduit la taille à 101 Go (-62%): MiniMax-M2.5 GGUFarrow-up-right

Tous les téléchargements utilisent Unsloth Dynamic 2.0 pour des performances de quantification SOTA - donc le 3 bits a des couches importantes suréchelonnées en 8 ou 16 bits. Vous pouvez aussi affiner le modèle via Unsloth, en utilisant des multiGPU.

⚙️ Guide d'utilisation

La quantification dynamique 3 bits UD-Q3_K_XL utilise 101 Go d'espace disque - cela tient bien sur un Mac à mémoire unifiée de 128 Go pour ~20+ tokens/s, et fonctionne aussi plus rapidement avec un GPU 1x16Go et 96 Go de RAM pour 25+ tokens/s. 2 bits les quants ou le plus grand 2 bits tiendront sur un appareil de 96 Go.

Pour une presque pleine précision, utilisez Q8_0 (8 bits) qui utilise 243 Go et tiendra sur un appareil / Mac avec 256 Go de RAM pour 10+ tokens/s.

circle-check

Paramètres recommandés

MiniMax recommande d'utiliser les paramètres suivants pour de meilleures performances : temperature=1.0, top_p = 0.95, top_k = 40.

Paramètres par défaut (la plupart des tâches)

temperature = 1.0

top_p = 0.95

top_k = 40

repeat penalty = 1.0 ou désactivé

  • Fenêtre de contexte maximale : 196,608

  • Min_P = 0.01 (la valeur par défaut peut être 0,05)

  • Invite système par défaut :

Vous êtes un assistant utile. Votre nom est MiniMax-M2.5 et il est développé par MiniMax.

Exécuter les tutoriels MiniMax-M2.5 :

Pour ces tutoriels, nous utiliserons la quantification 3 bits UD-Q3_K_XLarrow-up-right qui tient dans un appareil avec 128 Go de RAM.

✨ Exécuter dans llama.cpp

1

Obtenez le dernier llama.cpp sur GitHub iciarrow-up-right. Vous pouvez également suivre les instructions de compilation ci-dessous. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU ou si vous souhaitez simplement une inférence CPU.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
2

Si vous voulez utiliser llama.cpp directement pour charger des modèles, vous pouvez faire ce qui suit : (:Q3_K_XL) est le type de quantification. Vous pouvez aussi télécharger via Hugging Face (point 3). C'est similaire à ollama run . Utilisez export LLAMA_CACHE="folder" pour forcer llama.cpp à enregistrer dans un emplacement spécifique. N'oubliez pas que le modèle n'a qu'une longueur de contexte maximale de 200K.

Suivez ceci pour la plupart des cas d'utilisation :

export LLAMA_CACHE="unsloth/MiniMax-M2.5-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/MiniMax-M2.5-GGUF:UD-Q3_K_XL \
    --ctx-size 16384 \
    --flash-attn on \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --top-k 40
3

Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir UD-Q3_K_XL (quant dynamique 4 bits) ou d'autres versions quantifiées comme UD-Q6_K_XL . Nous recommandons d'utiliser notre quant dynamique 4 bits UD-Q3_K_XL pour équilibrer taille et précision.

hf download unsloth/MiniMax-M2.5-GGUF \
    --local-dir unsloth/MiniMax-M2.5-GGUF \
    --include "*UD-Q3_K_XL*" # Utilisez "*Q8_0*" pour 8 bits
4

Vous pouvez éditer --threads 32 pour le nombre de threads CPU, --ctx-size 16384 pour la longueur de contexte, --n-gpu-layers 2 pour le déchargement GPU sur combien de couches. Essayez de l'ajuster si votre GPU manque de mémoire. Supprimez-le aussi si vous n'avez qu'une inférence CPU.

./llama.cpp/llama-cli \
    --model unsloth/MiniMax-M2.5-GGUF/UD-Q3_K_XL/MiniMax-M2.5-UD-Q3_K_XL-00001-of-00004.gguf \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --top-k 40 \
    --ctx-size 16384 \
    --seed 3407

🦙 Llama-server & la bibliothèque de complétions d'OpenAI

Pour déployer MiniMax-M2.5 en production, nous utilisons llama-server ou l'API OpenAI. Dans un nouveau terminal, par exemple via tmux, déployez le modèle via :

Puis dans un nouveau terminal, après avoir fait pip install openai, faites :

📊 Benchmarks

Vous pouvez voir ci-dessous des benchmarks au format tableau :

Benchmark
MiniMax-M2.5
MiniMax-M2.1
Claude Opus 4.5
Claude Opus 4.6
Gemini 3 Pro
GPT-5.2 (en réflexion)

AIME25

86.3

83.0

91.0

95.6

96.0

98.0

GPQA-D

85.2

83.0

87.0

90.0

91.0

90.0

SciCode

44.4

41.0

50.0

52.0

56.0

52.0

IFBench

70.0

70.0

58.0

53.0

70.0

75.0

AA-LCR

69.5

62.0

74.0

71.0

71.0

73.0

SWE-Bench Vérifié

80.2

74.0

80.9

80.8

78.0

80.0

SWE-Bench Pro

55.4

49.7

56.9

55.4

54.1

55.6

Terminal Bench 2

51.7

47.9

53.4

55.1

54.0

54.0

HLE sans outils

19.4

22.2

28.4

30.7

37.2

31.4

Multi-SWE-Bench

51.3

47.2

50.0

50.3

42.7

SWE-Bench multilingue

74.1

71.9

77.5

77.8

65.0

72.0

VIBE-Pro (AVG)

54.2

42.4

55.2

55.6

36.9

BrowseComp (avec contexte)

76.3

62.0

67.8

84.0

59.2

65.8

Recherche large

70.3

63.2

76.2

79.4

57.0

RISE

50.2

34.0

50.5

62.5

36.8

50.0

BFCL multi-tour

76.8

37.4

68.0

63.3

61.0

τ² Télécom

97.8

87.0

98.2

99.3

98.0

98.7

MEWC

74.4

55.6

82.1

89.8

78.7

41.3

GDPval-MM

59.0

24.6

61.1

73.5

28.1

54.5

Modélisation financière

21.6

17.3

30.1

33.2

15.0

20.0

Scores de référence du cœur de codage
Recherche et utilisation d'outils
Tâches accomplies pour 100
Capacités de bureau

Mis à jour

Ce contenu vous a-t-il été utile ?