waveformMiniMax-M2.5 : guide d'exécution

Exécutez MiniMax-M2.5 en local sur votre propre appareil !

MiniMax-M2.5 est un nouveau LLM ouvert atteignant l’état de l’art en codage, utilisation d’outils agentiques, recherche et travail de bureau, avec un score de 80,2 % dans SWE-Bench Verified, 51,3 % dans Multi-SWE-Bench, et 76,3 % dans BrowseComp.

gpt-oss 230B de paramètres (10B actifs) a une fenêtre de contexte de 200K et le bf16 non quantifié nécessite 457 Go. Unsloth Dynamic 3 bits GGUF réduit la taille à 101 Go (-62%): MiniMax-M2.5 GGUFarrow-up-right

Tous les envois utilisent Unsloth Dynamic 2.0 pour des performances de quantification SOTA — ainsi, le 3 bits a des couches importantes remontées en 8 ou 16 bits. Vous pouvez aussi affiner le modèle via Unsloth, en utilisant plusieurs GPU.

circle-check

⚙️ Guide d’utilisation

La quantification dynamique 3 bits UD-Q3_K_XL utilise 101 Go d’espace disque — cela tient parfaitement sur un Mac avec mémoire unifiée de 128 Go pour environ 20+ tokens/s, et fonctionne aussi plus vite avec un GPU 1x16 Go et 96 Go de RAM pour 25+ tokens/s. 2 bits les quants ou le plus grand 2 bits tiendront sur un appareil de 96 Go.

Pour une précision complète, utilisez Q8_0 (8 bits), qui utilise 243 Go et tiendra sur un appareil / Mac avec 256 Go de RAM pour 10+ tokens/s.

circle-check

Paramètres recommandés

MiniMax recommande d’utiliser les paramètres suivants pour de meilleures performances : top_p=1.0, top_p = 0.95, top_k = 40.

Paramètres par défaut (la plupart des tâches)

temperature = 1.0

top_p = 0.95

top_k = 40

pénalité de répétition = 1,0 ou désactivée

  • Fenêtre de contexte maximale : 196,608

  • Min_P = 0,01 (la valeur par défaut pourrait être 0,05)

  • Prompt système par défaut :

Vous êtes un assistant utile. Votre nom est MiniMax-M2.5 et vous êtes conçu par MiniMax.

Exécuter les tutoriels MiniMax-M2.5 :

Pour ces tutoriels, nous utiliserons la quantification 3 bits UD-Q3_K_XLarrow-up-right qui tient sur un appareil avec 128 Go de RAM.

✨ Exécuter directement dans llama.cpp

1

Obtenez la dernière llama.cpp sur GitHub iciarrow-up-right. Vous pouvez également suivre les instructions de compilation ci-dessous. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n’avez pas de GPU ou si vous voulez simplement une inférence CPU. Pour les appareils Apple Mac / Metal, définissez -DGGML_CUDA=OFF puis continuez comme d’habitude - la prise en charge de Metal est activée par défaut.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
2

Si vous voulez utiliser llama.cpp pour charger les modèles directement, vous pouvez faire ce qui suit : (:Q3_K_XL) est le type de quantification. Vous pouvez aussi télécharger via Hugging Face (point 3). C’est similaire à ollama run . Utilisez export LLAMA_CACHE="folder" pour forcer llama.cpp pour enregistrer vers un emplacement spécifique. N’oubliez pas que le modèle a une longueur de contexte maximale de seulement 200K.

Suivez ceci pour le la plupart des valeurs par défaut :

export LLAMA_CACHE="unsloth/MiniMax-M2.5-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/MiniMax-M2.5-GGUF:UD-Q3_K_XL \
    --ctx-size 16384 \
    --flash-attn on \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0,01 \
    --top-k 40
3

Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir UD-Q3_K_XL (quantification dynamique 4 bits) ou d’autres versions quantifiées comme UD-Q6_K_XL . Nous recommandons d’utiliser notre quantification dynamique 4 bits UD-Q3_K_XL pour équilibrer taille et précision. Si les téléchargements se bloquent, voir Hugging Face Hub, débogage XET

hf download unsloth/MiniMax-M2.5-GGUF \
    --local-dir unsloth/MiniMax-M2.5-GGUF \
    --include "*UD-Q3_K_XL*" # Utilisez "*Q8_0*" pour 8 bits
4

Vous pouvez modifier --threads 32 pour le nombre de threads CPU, --ctx-size 16384 pour la longueur du contexte, --n-gpu-layers 2 pour le déchargement GPU sur le nombre de couches. Essayez d’ajuster ce paramètre si votre GPU manque de mémoire. Supprimez-le également si vous n’utilisez que l’inférence CPU.

./llama.cpp/llama-cli \
    --model unsloth/MiniMax-M2.5-GGUF/UD-Q3_K_XL/MiniMax-M2.5-UD-Q3_K_XL-00001-of-00004.gguf \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0,01 \
    --top-k 40 \
    --ctx-size 16384 \
    --seed 3407

🦙 Llama-server et la bibliothèque de complétion d’OpenAI

Pour déployer MiniMax-M2.5 en production, nous utilisons llama-server ou l’API OpenAI. Dans un nouveau terminal, par exemple via tmux, déployez le modèle via :

Puis dans un nouveau terminal, après avoir fait pip install openai, faites :

📊 Benchmarks

Benchmarks Unsloth GGUF

Benjamin Marie (tiers) a évaluéarrow-up-right MiniMax-M2.5 en utilisant les quantifications Unsloth GGUF sur un suite mixte de 750 prompts (LiveCodeBench v6, MMLU Pro, GPQA, Math500), en rapportant à la fois précision globale et augmentation relative de l'erreur (à quel point le modèle quantifié fait plus souvent des erreurs par rapport à l'original).

Les quantifications Unsloth, quelle que soit leur précision, donnent de bien meilleurs résultats que leurs équivalents non-Unsloth, tant en précision qu’en erreur relative (bien qu’elles soient 8 Go plus petites).

Résultats clés :

  • Meilleur compromis qualité/taille ici : unsloth UD-Q4_K_XL. C’est le plus proche de l’original : seulement 6,0 points de moins, et « seulement » +22.8% plus d’erreurs que la base de référence.

  • Les autres quants Q4 d’Unsloth ont des performances très proches (~64,5–64,9 de précision). IQ4_NL, MXFP4_MOEet UD-IQ2_XXS ont globalement la même qualité sur ce benchmark, avec ~33–35 % plus d’erreurs que l’original.

  • Les GGUF Unsloth donnent de bien meilleurs résultats que les autres GGUF non-Unsloth, par exemple voir lmstudio-community - Q4_K_M (bien qu’il soit 8 Go plus petit) et AesSedai - IQ3_S.

Benchmarks officiels

Vous pouvez voir plus bas les benchmarks sous forme de tableau :

Benchmark
MiniMax-M2.5
MiniMax-M2.1
Claude Opus 4.5
Claude Opus 4.6
Gemini 3 Pro
GPT-5.2 (réflexion)

AIME25

86.3

83.0

91.0

95.6

96.0

98.0

GPQA-D

85.2

83.0

87.0

90.0

91.0

90.0

SciCode

44.4

41.0

50.0

52.0

56.0

52.0

IFBench

70.0

70.0

58.0

53.0

70.0

75.0

AA-LCR

69.5

62.0

74.0

71.0

71.0

73.0

SWE-Bench vérifié

80.2

74.0

80.9

80.8

78.0

80.0

SWE-Bench Pro

55.4

49.7

56.9

55.4

54.1

55.6

Terminal Bench 2

51.7

47.9

53.4

55.1

54.0

54.0

HLE sans outils

19.4

22.2

28.4

30.7

37.2

31.4

Multi-SWE-Bench

51.3

47.2

50.0

50.3

42.7

SWE-Bench multilingue

74.1

71.9

77.5

77.8

65.0

72.0

VIBE-Pro (MOY)

54.2

42.4

55.2

55.6

36.9

BrowseComp (avec ctx)

76.3

62.0

67.8

84.0

59.2

65.8

Recherche large

70.3

63.2

76.2

79.4

57.0

RISE

50.2

34.0

50.5

62.5

36.8

50.0

BFCL multi-tours

76.8

37.4

68.0

63.3

61.0

τ² Telecom

97.8

87.0

98.2

99.3

98.0

98.7

MEWC

74.4

55.6

82.1

89.8

78.7

41.3

GDPval-MM

59.0

24.6

61.1

73.5

28.1

54.5

Modélisation financière

21.6

17.3

30.1

33.2

15.0

20.0

Scores du benchmark principal de codage
Recherche et utilisation d’outils
Tâches accomplies par 100
Capacités de bureau

Mis à jour

Ce contenu vous a-t-il été utile ?