waveformMiniMax-M2.5 : Guide d'exécution

Exécutez MiniMax-M2.5 localement sur votre propre appareil !

MiniMax-M2.5 est un nouveau LLM open atteignant l'état de l'art en codage, utilisation d'outils agentiques, recherche et travail bureautique, obtenant 80,2 % dans SWE-Bench Vérifié, 51,3 % dans Multi-SWE-Bench, et 76,3 % dans BrowseComp.

Le modèle de 230 milliards de paramètres (10 milliards actifs) a un fenêtre de contexte de 200K et non quantifié bf16 nécessite 457 Go. Unsloth Dynamic 3 bits GGUF réduit la taille à 101 Go (-62%): MiniMax-M2.5 GGUFarrow-up-right

Tous les téléchargements utilisent Unsloth Dynamic 2.0 pour des performances de quantification SOTA - ainsi la version 3 bits a des couches importantes rehaussées à 8 ou 16 bits. Vous pouvez également affiner le modèle via Unsloth, en utilisant multiGPU.

circle-check

⚙️ Guide d'utilisation

La quantification dynamique 3 bits UD-Q3_K_XL utilise 101 Go d'espace disque - cela tient bien sur un Mac à mémoire unifiée 128 Go pour ~20+ tokens/s, et fonctionne aussi plus vite avec un GPU 1x16Go et 96 Go de RAM pour 25+ tokens/s. 2 bits les quants ou le plus grand 2 bits tiendront sur un appareil 96 Go.

Pour une pleine précision, utilisez Q8_0 (8 bits) qui utilise 243 Go et tiendra sur un appareil / Mac avec 256 Go de RAM pour 10+ tokens/s.

circle-check

Paramètres recommandés

MiniMax recommande d'utiliser les paramètres suivants pour de meilleures performances : temperature=1.0, top_p = 0.95, top_k = 40.

Paramètres par défaut (la plupart des tâches)

temperature = 1.0

top_p = 0.95

top_k = 40

repeat penalty = 1.0 ou désactivé

  • Fenêtre de contexte maximale : 196,608

  • Min_P = 0.01 (la valeur par défaut peut être 0,05)

  • Invite système par défaut :

Vous êtes un assistant utile. Votre nom est MiniMax-M2.5 et il est développé par MiniMax.

Exécuter les tutoriels MiniMax-M2.5 :

Pour ces tutoriels, nous utiliserons la quantification 3 bits UD-Q3_K_XLarrow-up-right qui tient dans un appareil à 128 Go de RAM.

✨ Exécuter dans llama.cpp

1

Obtenez la dernière llama.cpp sur GitHub iciarrow-up-right. Vous pouvez également suivre les instructions de compilation ci-dessous. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU ou si vous voulez seulement une inférence CPU. Pour appareils Apple Mac / Metal, définissez -DGGML_CUDA=OFF puis continuez comme d'habitude - le support Metal est activé par défaut.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
2

Si vous voulez utiliser llama.cpp directement pour charger des modèles, vous pouvez faire ce qui suit : (:Q3_K_XL) est le type de quantification. Vous pouvez aussi télécharger via Hugging Face (point 3). Ceci est similaire à ollama run . Utilisez export LLAMA_CACHE="dossier" pour forcer llama.cpp à enregistrer dans un emplacement spécifique. Rappelez-vous que le modèle n'a qu'une longueur maximale de contexte de 200K.

Suivez ceci pour la plupart des cas d'utilisation par défaut :

export LLAMA_CACHE="unsloth/MiniMax-M2.5-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/MiniMax-M2.5-GGUF:UD-Q3_K_XL \
    --ctx-size 16384 \
    --flash-attn on \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --top-k 40
3

Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir UD-Q3_K_XL (quant dynamique 4 bits) ou d'autres versions quantifiées comme UD-Q6_K_XL . Nous recommandons d'utiliser notre quant dynamique 4 bits UD-Q3_K_XL pour équilibrer taille et précision. Si les téléchargements restent bloqués, consultez Hugging Face Hub, débogage XET

hf download unsloth/MiniMax-M2.5-GGUF \
    --local-dir unsloth/MiniMax-M2.5-GGUF \
    --include "*UD-Q3_K_XL*" # Utilisez "*Q8_0*" pour 8 bits
4

Vous pouvez modifier --threads 32 pour le nombre de threads CPU, --ctx-size 16384 pour la longueur de contexte, --n-gpu-layers 2 pour le déchargement GPU sur le nombre de couches. Essayez de l'ajuster si votre GPU manque de mémoire. Retirez-le aussi si vous avez une inférence uniquement CPU.

./llama.cpp/llama-cli \
    --model unsloth/MiniMax-M2.5-GGUF/UD-Q3_K_XL/MiniMax-M2.5-UD-Q3_K_XL-00001-of-00004.gguf \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --top-k 40 \
    --ctx-size 16384 \
    --seed 3407

🦙 Llama-server & la bibliothèque de complétions d'OpenAI

Pour déployer MiniMax-M2.5 en production, nous utilisons llama-server ou l'API OpenAI. Dans un nouveau terminal, par exemple via tmux, déployez le modèle via :

Puis dans un nouveau terminal, après avoir fait pip install openai, faites :

📊 Références de performance

Repères Unsloth GGUF

Benjamin Marie (tiers) a évaluéarrow-up-right MiniMax-M2.5 en utilisant les quantifications Unsloth GGUF sur une ensemble mixte de 750 prompts (LiveCodeBench v6, MMLU Pro, GPQA, Math500), rapportant à la fois la précision globale et l'augmentation relative de l'erreur (à quelle fréquence le modèle quantifié fait des erreurs de plus que l'original).

Les quants Unsloth, quelle que soit leur précision, performent bien mieux que leurs homologues non-Unsloth tant en précision qu'en erreur relative (malgré être 8 Go plus petits).

Résultats clés :

  • Meilleur compromis qualité/taille ici : unsloth UD-Q4_K_XL. C'est le plus proche de l'Original : seulement 6,0 points en moins, et « seulement » +22.8% d'erreurs de plus que la référence.

  • Les autres quants Unsloth Q4 se comportent de manière très proche (~64,5–64,9 de précision). IQ4_NL, MXFP4_MOE, et UD-IQ2_XXS sont tous essentiellement de la même qualité sur ce benchmark, avec ~33–35 % d'erreurs de plus que l'Original.

  • Les GGUFs Unsloth performent bien mieux que d'autres GGUFs non-Unsloth, par ex. voir lmstudio-community - Q4_K_M (malgré être 8 Go plus petit) et AesSedai - IQ3_S.

Benchmarks officiels

Vous pouvez voir ci‑dessous davantage de benchmarks au format tableau :

Benchmark
MiniMax-M2.5
MiniMax-M2.1
Claude Opus 4.5
Claude Opus 4.6
Gemini 3 Pro
GPT-5.2 (en réflexion)

AIME25

86.3

83.0

91.0

95.6

96.0

98.0

GPQA-D

85.2

83.0

87.0

90.0

91.0

90.0

SciCode

44.4

41.0

50.0

52.0

56.0

52.0

IFBench

70.0

70.0

58.0

53.0

70.0

75.0

AA-LCR

69.5

62.0

74.0

71.0

71.0

73.0

SWE-Bench Vérifié

80.2

74.0

80.9

80.8

78.0

80.0

SWE-Bench Pro

55.4

49.7

56.9

55.4

54.1

55.6

Terminal Bench 2

51.7

47.9

53.4

55.1

54.0

54.0

HLE sans outils

19.4

22.2

28.4

30.7

37.2

31.4

Multi-SWE-Bench

51.3

47.2

50.0

50.3

42.7

SWE-Bench Multilingue

74.1

71.9

77.5

77.8

65.0

72.0

VIBE-Pro (AVG)

54.2

42.4

55.2

55.6

36.9

BrowseComp (avec contexte)

76.3

62.0

67.8

84.0

59.2

65.8

Recherche large

70.3

63.2

76.2

79.4

57.0

RISE

50.2

34.0

50.5

62.5

36.8

50.0

BFCL multi-turn

76.8

37.4

68.0

63.3

61.0

τ² Télécom

97.8

87.0

98.2

99.3

98.0

98.7

MEWC

74.4

55.6

82.1

89.8

78.7

41.3

GDPval-MM

59.0

24.6

61.1

73.5

28.1

54.5

Modélisation financière

21.6

17.3

30.1

33.2

15.0

20.0

Scores de référence du noyau de codage
Recherche et utilisation d'outils
Tâches accomplies pour 100
Capacités bureautiques

Mis à jour

Ce contenu vous a-t-il été utile ?