waveformMiniMax-M2.5: Anleitung zum Ausführen

Führe MiniMax-M2.5 lokal auf deinem eigenen Gerät aus!

MiniMax-M2.5 ist ein neues offenes LLM, das SOTA in Codierung, agentischer Werkzeugnutzung sowie Suche und Büroarbeiten erreicht und 80,2 % in SWE-Bench Verified, 51,3 % in Multi-SWE-Bench und 76,3 % in BrowseComp.

Das 230B Parameter (10B aktiv) Modell hat ein 200K Kontext- Fenster und unquantisiertes bf16 benötigt 457 GB. Unsloth Dynamic 3-Bit GGUF reduziert die Größe auf 101 GB (-62%): MiniMax-M2.5 GGUFarrow-up-right

Alle Uploads verwenden Unsloth Dynamic 2.0 für SOTA-Quantisierungsleistung – daher werden bei 3-Bit wichtige Schichten auf 8- oder 16-Bit hochgestuft. Sie können das Modell auch über Unsloth feinabstimmen und mehrere GPUs verwenden.

circle-check

⚙️ Nutzungsanleitung

Der 3-Bit dynamische Quant UD-Q3_K_XL verwendet 101 GB an Festplattenspeicher – das passt gut auf ein 128GB Unified Memory Mac für ~20+ Tokens/s und funktioniert auch schneller mit einer 1x16GB GPU und 96GB RAM für 25+ Tokens/s. 2-Bit Quants oder das größte 2-Bit passen auf ein 96GB-Gerät.

Für nahezu voller Präzision, verwende Q8_0 (8-Bit), das 243GB nutzt und auf ein 256GB-RAM-Gerät / Mac für 10+ Tokens/s passt.

circle-check

Empfohlene Einstellungen

MiniMax empfiehlt die folgenden Parameter für beste Leistung: temperature=1.0, top_p = 0.95, top_k = 40.

Standardeinstellungen (die meisten Aufgaben)

temperature = 1.0

top_p = 0.95

top_k = 40

repeat penalty = 1.0 oder deaktiviert

  • Maximales Kontextfenster: 196,608

  • Min_P = 0.01 (Standard könnte 0.05 sein)

  • Standard System-Prompt:

Sie sind ein hilfreicher Assistent. Ihr Name ist MiniMax-M2.5 und wurde von MiniMax erstellt.

Führen Sie MiniMax-M2.5 Tutorials aus:

Für diese Tutorials verwenden wir den 3-Bit UD-Q3_K_XLarrow-up-right Quant, der in ein 128GB-RAM-Gerät passt.

✨ In llama.cpp ausführen

1

Holen Sie sich das neueste llama.cpp auf GitHub hierarrow-up-right. Sie können auch den Build-Anweisungen unten folgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder einfach nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF und fahre dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
2

Wenn du llama.cpp direkt zum Laden von Modellen verwenden möchten, können Sie Folgendes tun: (:Q3_K_XL) ist der Quantisierungstyp. Sie können auch über Hugging Face (Punkt 3) herunterladen. Dies ist ähnlich wie ollama run . Verwende export LLAMA_CACHE="Ordner" um zu erzwingen, dass llama.cpp zu zwingen, an einem bestimmten Ort zu speichern. Denken Sie daran, dass das Modell nur eine maximale Kontextlänge von 200K hat.

Folge dem für die meisten Standard- Anwendungsfälle:

export LLAMA_CACHE="unsloth/MiniMax-M2.5-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/MiniMax-M2.5-GGUF:UD-Q3_K_XL \
    --ctx-size 16384 \
    --flash-attn on \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --top-k 40
3

Laden Sie das Modell über (nach Installation von pip install huggingface_hub hf_transfer ). Sie können UD-Q3_K_XL (dynamischer 4-Bit-Quant) oder andere quantisierte Versionen wie UD-Q6_K_XL . Wir empfehlen die Verwendung unseres 4-Bit-dynamischen Quants UD-Q3_K_XL um Größe und Genauigkeit auszubalancieren. Falls Downloads stecken bleiben, siehe Hugging Face Hub, XET-Debugging

hf download unsloth/MiniMax-M2.5-GGUF \
    --local-dir unsloth/MiniMax-M2.5-GGUF \
    --include "*UD-Q3_K_XL*" # Verwenden Sie "*Q8_0*" für 8-Bit
4

Du kannst bearbeiten --threads 32 für die Anzahl der CPU-Threads, --ctx-size 16384 für Kontextlänge, --n-gpu-layers 2 für GPU-Offloading, wie viele Schichten. Versuche, es anzupassen, wenn deine GPU nicht genug Speicher hat. Entferne es auch, wenn du nur CPU-Inferenz hast.

./llama.cpp/llama-cli \
    --model unsloth/MiniMax-M2.5-GGUF/UD-Q3_K_XL/MiniMax-M2.5-UD-Q3_K_XL-00001-of-00004.gguf \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --top-k 40 \
    --ctx-size 16384 \
    --seed 3407

🦙 Llama-server & OpenAIs Completion-Bibliothek

Um MiniMax-M2.5 produktiv einzusetzen, verwenden wir llama-server oder die OpenAI API. In einem neuen Terminal, z. B. via tmux, deployen Sie das Modell mittels:

Dann in einem neuen Terminal, nachdem Sie pip install openaiausgeführt hast, mache:

📊 Benchmarks

Unsloth GGUF Benchmarks

Benjamin Marie (Drittpartei) hat bewertetarrow-up-right MiniMax-M2.5 unter Verwendung von Unsloth GGUF-Quantisierungen auf einer 750-Prompt-Misch-Suite (LiveCodeBench v6, MMLU Pro, GPQA, Math500) und berichtete sowohl über gesamte Genauigkeit und relative Fehlerzunahme (wie viel häufiger das quantisierte Modell Fehler macht im Vergleich zum Original).

Unsloth-Quants, unabhängig von ihrer Präzision, schneiden sowohl in Genauigkeit als auch in relativem Fehler deutlich besser ab als ihre Nicht-Unsloth-Pendants (trotz 8GB geringerer Größe).

Wesentliche Ergebnisse:

  • Beste Qualitäts-/Größenkompromiss hier: unsloth UD-Q4_K_XL. Es ist dem Original am nächsten: nur 6,0 Punkte weniger, und „nur“ +22.8% mehr Fehler als die Basislinie.

  • Andere Unsloth Q4-Quants liegen nahe beieinander (~64,5–64,9 Genauigkeit). IQ4_NL, MXFP4_MOE, und UD-IQ2_XXS sind in diesem Benchmark im Grunde gleichwertig in der Qualität, mit ~33–35% mehr Fehlern als das Original.

  • Unsloth GGUFs schneiden deutlich besser ab als andere Nicht-Unsloth GGUFs, z. B. siehe lmstudio-community - Q4_K_M (trotz 8GB geringerer Größe) und AesSedai - IQ3_S.

Offizielle Benchmarks

Sie können weiter unten weitere Benchmarks im Tabellenformat sehen:

Benchmark
MiniMax-M2.5
MiniMax-M2.1
Claude Opus 4.5
Claude Opus 4.6
Gemini 3 Pro
GPT-5.2 (in Entwicklung)

AIME25

86.3

83.0

91.0

95.6

96.0

98.0

GPQA-D

85.2

83.0

87.0

90.0

91.0

90.0

SciCode

44.4

41.0

50.0

52.0

56.0

52.0

IFBench

70.0

70.0

58.0

53.0

70.0

75.0

AA-LCR

69.5

62.0

74.0

71.0

71.0

73.0

SWE-Bench Verifiziert

80.2

74.0

80.9

80.8

78.0

80.0

SWE-Bench Pro

55.4

49.7

56.9

55.4

54.1

55.6

Terminal Bench 2

51.7

47.9

53.4

55.1

54.0

54.0

HLE ohne Werkzeuge

19.4

22.2

28.4

30.7

37.2

31.4

Multi-SWE-Bench

51.3

47.2

50.0

50.3

42.7

SWE-Bench Mehrsprachig

74.1

71.9

77.5

77.8

65.0

72.0

VIBE-Pro (AVG)

54.2

42.4

55.2

55.6

36.9

BrowseComp (mit Kontext)

76.3

62.0

67.8

84.0

59.2

65.8

Breite Suche

70.3

63.2

76.2

79.4

57.0

RISE

50.2

34.0

50.5

62.5

36.8

50.0

BFCL Multi-Turn

76.8

37.4

68.0

63.3

61.0

τ² Telekom

97.8

87.0

98.2

99.3

98.0

98.7

MEWC

74.4

55.6

82.1

89.8

78.7

41.3

GDPval-MM

59.0

24.6

61.1

73.5

28.1

54.5

Finanzmodellierung

21.6

17.3

30.1

33.2

15.0

20.0

Kern-Benchmark-Ergebnisse für Codierung
Suche und Werkzeugnutzung
Abgeschlossene Aufgaben pro 100
Büro-Fähigkeiten

Zuletzt aktualisiert

War das hilfreich?