waveformMiniMax-M2.5: Anleitung zum Ausführen

Führe MiniMax-M2.5 lokal auf deinem eigenen Gerät aus!

MiniMax-M2.5 ist ein neues offenes LLM, das SOTA in den Bereichen Programmierung, agentische Werkzeugnutzung sowie Suche und Büroarbeit erreicht und 80,2 % erzielt in SWE-Bench Verified, 51,3 % in Multi-SWE-Bench und 76,3 % in BrowseComp.

Die 230B Parameter (10B aktiv) Modell hat ein 200K-Kontext Fenster und unquantisiertes bf16 erfordert 457 GB. Unsloth Dynamic 3-Bit GGUF reduziert die Größe auf 101 GB (-62%): MiniMax-M2.5 GGUFarrow-up-right

Alle Uploads verwenden Unsloth Dynamic 2.0 für SOTA-Quantisierungsleistung – daher werden bei 3-Bit wichtige Schichten auf 8 oder 16 Bit hochskaliert. Du kannst das Modell auch über Unsloth mit Multi-GPUs feinabstimmen.

circle-check

⚙️ Nutzungsanleitung

Die 3-Bit-Dynamik-Quant UD-Q3_K_XL verwendet 101 GB an Speicherplatz – das passt gut auf einen Mac mit 128 GB Unified Memory für ~20+ Tokens/s und funktioniert auch schneller mit einer 1x16GB-GPU und 96 GB RAM für 25+ Tokens/s. 2-Bit Quantisierungen oder die größte 2-Bit-Version passen auf ein 96-GB-Gerät.

Für nahezu volle Präzision, verwende Q8_0 (8-Bit), die 243 GB nutzt und auf ein Gerät / einen Mac mit 256 GB RAM für 10+ Tokens/s passt.

circle-check

Empfohlene Einstellungen

MiniMax empfiehlt zur besten Leistung die folgenden Parameter zu verwenden: temperature=1.0, top_p = 0.95, top_k = 40.

Standardeinstellungen (meiste Aufgaben)

temperature = 1.0

top_p = 0.95

top_k = 40

Wiederholungsstrafe = 1,0 oder deaktiviert

  • Maximales Kontextfenster: 196,608

  • Min_P = 0,01 (Standard kann 0,05 sein)

  • Standard-Systemprompt:

Du bist ein hilfreicher Assistent. Dein Name ist MiniMax-M2.5 und du wurdest von MiniMax entwickelt.

MiniMax-M2.5-Tutorials ausführen:

Für diese Tutorials verwenden wir die 3-Bit UD-Q3_K_XLarrow-up-right Quantisierung, die auf ein Gerät mit 128 GB RAM passt.

✨ In llama.cpp ausführen

1

Beschaffe die neueste llama.cpp auf GitHub hierarrow-up-right. Du kannst unten auch den Build-Anweisungen folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF und fahre dann wie gewohnt fort – Metal-Unterstützung ist standardmäßig aktiviert.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
2

Wenn du llama.cpp Um Modelle direkt zu laden, kannst du Folgendes tun: (:Q3_K_XL) ist der Quantisierungstyp. Du kannst auch über Hugging Face herunterladen (Punkt 3). Das ist ähnlich wie ollama run . Verwende export LLAMA_CACHE="folder" um llama.cpp um an einem bestimmten Ort zu speichern. Denk daran, dass das Modell nur eine maximale Kontextlänge von 200K hat.

Folge dies für meiste Standard- Anwendungsfälle:

export LLAMA_CACHE="unsloth/MiniMax-M2.5-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/MiniMax-M2.5-GGUF:UD-Q3_K_XL \\
    --ctx-size 16384 \
    --flash-attn on \\
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \\
    --top-k 40
3

Lade das Modell über (nach Installation von pip install huggingface_hub hf_transfer ). Du kannst UD-Q3_K_XL (dynamische 4-Bit-Quantisierung) oder andere quantisierte Versionen wie UD-Q6_K_XL . Wir empfehlen die Verwendung unserer dynamischen 4-Bit-Quantisierung UD-Q3_K_XL um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe Hugging Face Hub, XET-Debugging

hf download unsloth/MiniMax-M2.5-GGUF \\
    --local-dir unsloth/MiniMax-M2.5-GGUF \\
    --include "*UD-Q3_K_XL*" # Verwende "*Q8_0*" für 8-Bit
4

Du kannst bearbeiten --threads 32 für die Anzahl der CPU-Threads, --ctx-size 16384 für die Kontextlänge, --n-gpu-layers 2 für GPU-Offloading, auf wie viele Schichten. Versuchen Sie, dies anzupassen, wenn Ihre GPU nicht mehr in den Speicher passt. Entfernen Sie es auch, wenn Sie nur auf der CPU inferieren.

./llama.cpp/llama-cli \
    --model unsloth/MiniMax-M2.5-GGUF/UD-Q3_K_XL/MiniMax-M2.5-UD-Q3_K_XL-00001-of-00004.gguf \\
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \\
    --top-k 40 \\
    --ctx-size 16384 \
    --seed 3407

🦙 Llama-Server & OpenAIs Completion-Bibliothek

Um MiniMax-M2.5 produktiv bereitzustellen, verwenden wir llama-server oder die OpenAI-API. In einem neuen Terminal, z. B. via tmux, stelle das Modell bereit mit:

Dann in einem neuen Terminal, nachdem du pip install openaiausgeführt hast:

📊 Benchmarks

Unsloth GGUF-Benchmarks

Benjamin Marie (Drittanbieter) hat Benchmarks durchgeführtarrow-up-right MiniMax-M2.5 unter Verwendung von Unsloth-GGUF-Quantisierungen auf einem 750-Prompt-Mix-Suite (LiveCodeBench v6, MMLU Pro, GPQA, Math500), wobei sowohl Gesamtgenauigkeit und relative Fehlerzunahme (wie viel häufiger das quantisierte Modell im Vergleich zum Original Fehler macht).

Unsloth-Quantisierungen schneiden, unabhängig von ihrer Präzision, sowohl bei der Genauigkeit als auch beim relativen Fehler deutlich besser ab als ihre Nicht-Unsloth-Pendants (obwohl sie 8 GB kleiner sind).

Wichtigste Ergebnisse:

  • Hier das beste Verhältnis von Qualität zu Größe: unsloth UD-Q4_K_XL. Es kommt dem Original am nächsten: nur 6,0 Punkte niedriger, und „nur“ +22.8% mehr Fehler als die Basisversion.

  • Andere Unsloth-Q4-Quantisierungen liegen eng beieinander (~64,5–64,9 Genauigkeit). IQ4_NL, MXFP4_MOEund UD-IQ2_XXS haben bei diesem Benchmark im Grunde die gleiche Qualität, mit ~33–35 % mehr Fehlern als das Original.

  • Unsloth-GGUFs schneiden deutlich besser ab als andere Nicht-Unsloth-GGUFs, z. B. siehe lmstudio-community - Q4_K_M (obwohl sie 8 GB kleiner sind) und AesSedai - IQ3_S.

Offizielle Benchmarks

Weitere Benchmarks in Tabellenform findest du weiter unten:

Benchmark
MiniMax-M2.5
MiniMax-M2.1
Claude Opus 4.5
Claude Opus 4.6
Gemini 3 Pro
GPT-5.2 (Denken)

AIME25

86.3

83.0

91.0

95.6

96.0

98.0

GPQA-D

85.2

83.0

87.0

90.0

91.0

90.0

SciCode

44.4

41.0

50.0

52.0

56.0

52.0

IFBench

70.0

70.0

58.0

53.0

70.0

75.0

AA-LCR

69.5

62.0

74.0

71.0

71.0

73.0

SWE-Bench Verified

80.2

74.0

80.9

80.8

78.0

80.0

SWE-Bench Pro

55.4

49.7

56.9

55.4

54.1

55.6

Terminal Bench 2

51.7

47.9

53.4

55.1

54.0

54.0

HLE ohne Werkzeuge

19.4

22.2

28.4

30.7

37.2

31.4

Multi-SWE-Bench

51.3

47.2

50.0

50.3

42.7

SWE-Bench Mehrsprachig

74.1

71.9

77.5

77.8

65.0

72.0

VIBE-Pro (AVG)

54.2

42.4

55.2

55.6

36.9

BrowseComp (mit Kontext)

76.3

62.0

67.8

84.0

59.2

65.8

Wide Search

70.3

63.2

76.2

79.4

57.0

RISE

50.2

34.0

50.5

62.5

36.8

50.0

BFCL Multi-Turn

76.8

37.4

68.0

63.3

61.0

τ² Telecom

97.8

87.0

98.2

99.3

98.0

98.7

MEWC

74.4

55.6

82.1

89.8

78.7

41.3

GDPval-MM

59.0

24.6

61.1

73.5

28.1

54.5

Finanzmodellierung

21.6

17.3

30.1

33.2

15.0

20.0

Core-Benchmark-Ergebnisse für Programmierung
Suche und Werkzeugnutzung
Abgeschlossene Aufgaben pro 100
Büro-Fähigkeiten

Zuletzt aktualisiert

War das hilfreich?