MiniMax-M2.5: Anleitung zum Ausführen

Führe MiniMax-M2.5 lokal auf deinem eigenen Gerät aus!

MiniMax-M2.5 ist ein neues offenes LLM, das SOTA in Codierung, agentischer Werkzeugnutzung sowie Suche und Büroarbeiten erreicht und 80,2 % in SWE-Bench Verified, 51,3 % in Multi-SWE-Bench und 76,3 % in BrowseComp.

Das 230B Parameter (10B aktiv) Modell hat ein 200K Kontext- Fenster und unquantisiertes bf16 benötigt 457 GB. Unsloth Dynamic 3-Bit GGUF reduziert die Größe auf 101 GB (-62%): MiniMax-M2.5 GGUF

Alle Uploads verwenden Unsloth Dynamic 2.0 für SOTA-Quantisierungsleistung – daher werden bei 3-Bit wichtige Schichten auf 8- oder 16-Bit hochgestuft. Sie können das Modell auch über Unsloth feinabstimmen und mehrere GPUs verwenden.

26. Feb: Sehen Sie hier, wie gut unsere GGUF-Quants bei Benchmarks abschneiden.

⚙️ Nutzungsanleitung

Der 3-Bit dynamische Quant UD-Q3_K_XL verwendet 101 GB an Festplattenspeicher – das passt gut auf ein 128GB Unified Memory Mac für ~20+ Tokens/s und funktioniert auch schneller mit einer 1x16GB GPU und 96GB RAM für 25+ Tokens/s. 2-Bit Quants oder das größte 2-Bit passen auf ein 96GB-Gerät.

Für nahezu voller Präzision, verwende Q8_0 (8-Bit), das 243GB nutzt und auf ein 256GB-RAM-Gerät / Mac für 10+ Tokens/s passt.

Für beste Leistung stelle sicher, dass dein insgesamt verfügbarer Speicher (VRAM + System-RAM) größer ist als die Größe der quantisierten Modelldatei, die du herunterlädst. Wenn dies nicht der Fall ist, kann llama.cpp immer noch über SSD/HDD-Offloading laufen, aber die Inferenz wird langsamer sein.

Empfohlene Einstellungen

MiniMax empfiehlt die folgenden Parameter für beste Leistung: temperature=1.0, top_p = 0.95, top_k = 40.

Standardeinstellungen (die meisten Aufgaben)

temperature = 1.0

top_p = 0.95

top_k = 40

repeat penalty = 1.0 oder deaktiviert

Maximales Kontextfenster: 196,608
Min_P = 0.01 (Standard könnte 0.05 sein)
Standard System-Prompt:

Sie sind ein hilfreicher Assistent. Ihr Name ist MiniMax-M2.5 und wurde von MiniMax erstellt.

Führen Sie MiniMax-M2.5 Tutorials aus:

Für diese Tutorials verwenden wir den 3-Bit UD-Q3_K_XL Quant, der in ein 128GB-RAM-Gerät passt.

✨ In llama.cpp ausführen

Holen Sie sich das neueste llama.cpp auf GitHub hier. Sie können auch den Build-Anweisungen unten folgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder einfach nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF und fahre dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Wenn du llama.cpp direkt zum Laden von Modellen verwenden möchten, können Sie Folgendes tun: (:Q3_K_XL) ist der Quantisierungstyp. Sie können auch über Hugging Face (Punkt 3) herunterladen. Dies ist ähnlich wie ollama run . Verwende export LLAMA_CACHE="Ordner" um zu erzwingen, dass llama.cpp zu zwingen, an einem bestimmten Ort zu speichern. Denken Sie daran, dass das Modell nur eine maximale Kontextlänge von 200K hat.

Folge dem für die meisten Standard- Anwendungsfälle:

export LLAMA_CACHE="unsloth/MiniMax-M2.5-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/MiniMax-M2.5-GGUF:UD-Q3_K_XL \
    --ctx-size 16384 \
    --flash-attn on \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --top-k 40

Laden Sie das Modell über (nach Installation von pip install huggingface_hub hf_transfer ). Sie können UD-Q3_K_XL (dynamischer 4-Bit-Quant) oder andere quantisierte Versionen wie UD-Q6_K_XL . Wir empfehlen die Verwendung unseres 4-Bit-dynamischen Quants UD-Q3_K_XL um Größe und Genauigkeit auszubalancieren. Falls Downloads stecken bleiben, siehe Hugging Face Hub, XET-Debugging

hf download unsloth/MiniMax-M2.5-GGUF \
    --local-dir unsloth/MiniMax-M2.5-GGUF \
    --include "*UD-Q3_K_XL*" # Verwenden Sie "*Q8_0*" für 8-Bit

Du kannst bearbeiten --threads 32 für die Anzahl der CPU-Threads, --ctx-size 16384 für Kontextlänge, --n-gpu-layers 2 für GPU-Offloading, wie viele Schichten. Versuche, es anzupassen, wenn deine GPU nicht genug Speicher hat. Entferne es auch, wenn du nur CPU-Inferenz hast.

./llama.cpp/llama-cli \
    --model unsloth/MiniMax-M2.5-GGUF/UD-Q3_K_XL/MiniMax-M2.5-UD-Q3_K_XL-00001-of-00004.gguf \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --top-k 40 \
    --ctx-size 16384 \
    --seed 3407

🦙 Llama-server & OpenAIs Completion-Bibliothek

Um MiniMax-M2.5 produktiv einzusetzen, verwenden wir llama-server oder die OpenAI API. In einem neuen Terminal, z. B. via tmux, deployen Sie das Modell mittels:

./llama.cpp/llama-server \
    --model unsloth/MiniMax-M2.5-GGUF/UD-Q3_K_XL/MiniMax-M2.5-UD-Q3_K_XL-00001-of-00004.gguf \
    --alias "unsloth/MiniMax-M2.5" \
    --prio 3 \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --top-k 40 \
    --ctx-size 16384 \
    --gpu-memory-utilization 0.93 \

Dann in einem neuen Terminal, nachdem Sie pip install openaiausgeführt hast, mache:

from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/MiniMax-M2.5",
    messages = [{"role": "user", "content": "Erstelle ein Snake-Spiel."},],
)
print(completion.choices[0].message.content)

📊 Benchmarks

Unsloth GGUF Benchmarks

Benjamin Marie (Drittpartei) hat bewertet MiniMax-M2.5 unter Verwendung von Unsloth GGUF-Quantisierungen auf einer 750-Prompt-Misch-Suite (LiveCodeBench v6, MMLU Pro, GPQA, Math500) und berichtete sowohl über gesamte Genauigkeit und relative Fehlerzunahme (wie viel häufiger das quantisierte Modell Fehler macht im Vergleich zum Original).

Unsloth-Quants, unabhängig von ihrer Präzision, schneiden sowohl in Genauigkeit als auch in relativem Fehler deutlich besser ab als ihre Nicht-Unsloth-Pendants (trotz 8GB geringerer Größe).

Wesentliche Ergebnisse:

Beste Qualitäts-/Größenkompromiss hier: unsloth UD-Q4_K_XL. Es ist dem Original am nächsten: nur 6,0 Punkte weniger, und „nur“ +22.8% mehr Fehler als die Basislinie.
Andere Unsloth Q4-Quants liegen nahe beieinander (~64,5–64,9 Genauigkeit). IQ4_NL, MXFP4_MOE, und UD-IQ2_XXS sind in diesem Benchmark im Grunde gleichwertig in der Qualität, mit ~33–35% mehr Fehlern als das Original.
Unsloth GGUFs schneiden deutlich besser ab als andere Nicht-Unsloth GGUFs, z. B. siehe lmstudio-community - Q4_K_M (trotz 8GB geringerer Größe) und AesSedai - IQ3_S.

Offizielle Benchmarks

Sie können weiter unten weitere Benchmarks im Tabellenformat sehen:

Benchmark

MiniMax-M2.5

MiniMax-M2.1

Claude Opus 4.5

Claude Opus 4.6

Gemini 3 Pro

GPT-5.2 (in Entwicklung)

AIME25

86.3

83.0

91.0

95.6

96.0

98.0

GPQA-D

85.2

83.0

87.0

90.0

91.0

90.0

SciCode

44.4

41.0

50.0

52.0

56.0

52.0

IFBench

70.0

58.0

53.0

70.0

75.0

AA-LCR

69.5

62.0

74.0

71.0

73.0

SWE-Bench Verifiziert

80.2

74.0

80.9

80.8

78.0

80.0

SWE-Bench Pro

55.4

49.7

56.9

55.4

54.1

55.6

Terminal Bench 2

51.7

47.9

53.4

55.1

54.0

HLE ohne Werkzeuge

19.4

22.2

28.4

30.7

37.2

31.4

Multi-SWE-Bench

51.3

47.2

50.0

50.3

42.7

—

SWE-Bench Mehrsprachig

74.1

71.9

77.5

77.8

65.0

72.0

VIBE-Pro (AVG)

54.2

42.4

55.2

55.6

36.9

—

BrowseComp (mit Kontext)

76.3

62.0

67.8

84.0

59.2

65.8

Breite Suche

70.3

63.2

76.2

79.4

57.0

—

RISE

50.2

34.0

50.5

62.5

36.8

50.0

BFCL Multi-Turn

76.8

37.4

68.0

63.3

61.0

—

τ² Telekom

97.8

87.0

98.2

99.3

98.0

98.7

MEWC

74.4

55.6

82.1

89.8

78.7

41.3

GDPval-MM

59.0

24.6

61.1

73.5

28.1

54.5

Finanzmodellierung

21.6

17.3

30.1

33.2

15.0

20.0

VorherigeQwen3-Coder-Next NächsteGLM-4.7-Flash

Zuletzt aktualisiert vor 7 Stunden

War das hilfreich?

hashtag⚙️ Nutzungsanleitung

hashtagEmpfohlene Einstellungen

hashtagFühren Sie MiniMax-M2.5 Tutorials aus:

hashtag✨ In llama.cpp ausführen

hashtag🦙 Llama-server & OpenAIs Completion-Bibliothek

hashtag📊 Benchmarks

hashtagUnsloth GGUF Benchmarks

hashtagOffizielle Benchmarks

⚙️ Nutzungsanleitung

Empfohlene Einstellungen

Führen Sie MiniMax-M2.5 Tutorials aus:

✨ In llama.cpp ausführen

🦙 Llama-server & OpenAIs Completion-Bibliothek

📊 Benchmarks

Unsloth GGUF Benchmarks

Offizielle Benchmarks