waveformMiniMax-M2.5: Anleitung zum Ausführen

Führe MiniMax-M2.5 lokal auf deinem eigenen Gerät aus!

MiniMax-M2.5 ist ein neues offenes LLM, das SOTA im Bereich Kodierung, agentische Werkzeugnutzung sowie Suche und Büroarbeit erreicht und dabei 80,2 % in SWE-Bench Verified, 51,3 % in Multi-SWE-Bench und 76,3 % in BrowseComp.

Das 230B Parameter (10B aktiv) Modell hat ein 200K Kontext- Fenster und unquantisiertes bf16 benötigt 457GB. Unsloth Dynamic 3-Bit GGUF reduziert die Größe auf 101GB (-62%): MiniMax-M2.5 GGUFarrow-up-right

Alle Uploads verwenden Unsloth Dynamic 2.0 für SOTA-Quantisierungsleistung – daher werden bei 3-Bit wichtige Schichten auf 8- oder 16-Bit hochskaliert. Sie können das Modell auch über Unsloth feinabstimmen und mehrere GPUs verwenden.

circle-check

⚙️ Gebrauchsanleitung

Der 3-Bit dynamische Quant UD-Q3_K_XL verwendet 101GB Festplattenspeicher – das passt gut auf ein 128GB Unified-Memory Mac für ~20+ Tokens/s und läuft auch schneller mit einer 1x16GB GPU und 96GB RAM für 25+ Tokens/s. 2-Bit Quants oder das größte 2-Bit passen auf ein 96GB Gerät.

Für nahezu vollständige Präzision, verwenden Sie Q8_0 (8-Bit), das 243GB nutzt und auf ein Gerät / Mac mit 256GB RAM für 10+ Tokens/s passt.

circle-check

Empfohlene Einstellungen

MiniMax empfiehlt für beste Leistung die folgenden Parameter: temperature=1.0, top_p = 0.95, top_k = 40.

Standard-Einstellungen (die meisten Aufgaben)

temperature = 1.0

top_p = 0.95

top_k = 40

repeat penalty = 1.0 oder deaktiviert

  • Maximales Kontextfenster: 196,608

  • Min_P = 0.01 (Standard könnte 0.05 sein)

  • Standard-System-Prompt:

Sie sind ein hilfreicher Assistent. Ihr Name ist MiniMax-M2.5 und wurde von MiniMax entwickelt.

Führen Sie MiniMax-M2.5 Tutorials aus:

Für diese Tutorials werden wir den 3-Bit UD-Q3_K_XLarrow-up-right Quant verwenden, das in ein 128GB RAM-Gerät passt.

✨ In llama.cpp ausführen

1

Holen Sie sich das neueste llama.cpp auf GitHub hierarrow-up-right. Sie können auch den untenstehenden Build-Anleitungen folgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz wünschen.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
2

Wenn Sie llama.cpp direkt zum Laden von Modellen verwenden möchten, können Sie Folgendes tun: (:Q3_K_XL) ist der Quantisierungstyp. Sie können auch über Hugging Face herunterladen (Punkt 3). Dies ist ähnlich zu ollama run . Verwenden Sie export LLAMA_CACHE="Ordner" um llama.cpp zu zwingen, an einen bestimmten Ort zu speichern. Denken Sie daran, dass das Modell nur eine maximale Kontextlänge von 200K hat.

Folgen Sie dies für die meisten Standard- Anwendungsfälle:

export LLAMA_CACHE="unsloth/MiniMax-M2.5-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/MiniMax-M2.5-GGUF:UD-Q3_K_XL \
    --ctx-size 16384 \
    --flash-attn on \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --top-k 40
3

Laden Sie das Modell herunter über (nach der Installation von pip install huggingface_hub hf_transfer ). Sie können wählen UD-Q3_K_XL (dynamischer 4-Bit-Quant) oder andere quantisierte Versionen wie UD-Q6_K_XL . Wir empfehlen die Verwendung unseres 4-Bit dynamischen Quants UD-Q3_K_XL um Größe und Genauigkeit auszubalancieren. Wenn Downloads stecken bleiben, siehe Hugging Face Hub, XET-Debugging

hf download unsloth/MiniMax-M2.5-GGUF \
    --local-dir unsloth/MiniMax-M2.5-GGUF \
    --include "*UD-Q3_K_XL*" # Verwenden Sie "*Q8_0*" für 8-Bit
4

Sie können --threads 32 für die Anzahl der CPU-Threads bearbeiten, --ctx-size 16384 für die Kontextlänge, --n-gpu-layers 2 für GPU-Offloading auf wie viele Schichten. Versuchen Sie, dies anzupassen, wenn Ihre GPU in den Out-of-Memory-Zustand gerät. Entfernen Sie es auch, wenn Sie nur CPU-Inferenz haben.

./llama.cpp/llama-cli \
    --model unsloth/MiniMax-M2.5-GGUF/UD-Q3_K_XL/MiniMax-M2.5-UD-Q3_K_XL-00001-of-00004.gguf \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --top-k 40 \
    --ctx-size 16384 \
    --seed 3407

🦙 Llama-server & OpenAIs Completion-Bibliothek

Um MiniMax-M2.5 in Produktion bereitzustellen, verwenden wir llama-server oder die OpenAI-API. In einem neuen Terminal, z. B. via tmux, stellen Sie das Modell bereit via:

Dann in einem neuen Terminal, nachdem Sie pip install openai, tun Sie:

📊 Benchmarks

Unsloth GGUF Benchmarks

Benjamin Marie (Drittpartei) hat bewertetarrow-up-right MiniMax-M2.5 unter Verwendung von Unsloth GGUF-Quantisierungen auf einer 750-Prompt gemischten Suite (LiveCodeBench v6, MMLU Pro, GPQA, Math500) und berichtete sowohl Gesamtgenauigkeit als auch relative Fehlerzunahme (wie viel öfter das quantisierte Modell Fehler macht im Vergleich zum Original).

Unsloth-Quants, unabhängig von ihrer Präzision, schneiden sowohl bei Genauigkeit als auch relativer Fehlerzahl viel besser ab als ihre Nicht-Unsloth-Pendants (trotz 8GB kleinerer Größe).

Wichtigste Ergebnisse:

  • Bestes Qualitäts-/Größenverhältnis hier: unsloth UD-Q4_K_XL. Es ist dem Original am nächsten: nur 6,0 Punkte weniger, und „nur“ +22.8% mehr Fehler als die Basislinie.

  • Andere Unsloth Q4-Quants liegen eng beieinander (~64,5–64,9 Genauigkeit). IQ4_NL, MXFP4_MOE, und UD-IQ2_XXS sind alle im Wesentlichen gleichwertig in diesem Benchmark, mit ~33–35% mehr Fehlern als das Original.

  • Unsloth GGUFs schneiden deutlich besser ab als andere Nicht-Unsloth GGUFs, z. B. siehe lmstudio-community - Q4_K_M (trotz 8GB kleinerer Größe) und AesSedai - IQ3_S.

Offizielle Benchmarks

Sie können weiter unten Benchmarks im Tabellenformat einsehen:

Benchmark
MiniMax-M2.5
MiniMax-M2.1
Claude Opus 4.5
Claude Opus 4.6
Gemini 3 Pro
GPT-5.2 (thinking)

AIME25

86.3

83.0

91.0

95.6

96.0

98.0

GPQA-D

85.2

83.0

87.0

90.0

91.0

90.0

SciCode

44.4

41.0

50.0

52.0

56.0

52.0

IFBench

70.0

70.0

58.0

53.0

70.0

75.0

AA-LCR

69.5

62.0

74.0

71.0

71.0

73.0

SWE-Bench Verified

80.2

74.0

80.9

80.8

78.0

80.0

SWE-Bench Pro

55.4

49.7

56.9

55.4

54.1

55.6

Terminal Bench 2

51.7

47.9

53.4

55.1

54.0

54.0

HLE ohne Tools

19.4

22.2

28.4

30.7

37.2

31.4

Multi-SWE-Bench

51.3

47.2

50.0

50.3

42.7

SWE-Bench Mehrsprachig

74.1

71.9

77.5

77.8

65.0

72.0

VIBE-Pro (DURCHSCHNITT)

54.2

42.4

55.2

55.6

36.9

BrowseComp (mit Kontext)

76.3

62.0

67.8

84.0

59.2

65.8

Weite Suche

70.3

63.2

76.2

79.4

57.0

RISE

50.2

34.0

50.5

62.5

36.8

50.0

BFCL Mehrfach-Durchlauf

76.8

37.4

68.0

63.3

61.0

τ² Telekom

97.8

87.0

98.2

99.3

98.0

98.7

MEWC

74.4

55.6

82.1

89.8

78.7

41.3

GDPval-MM

59.0

24.6

61.1

73.5

28.1

54.5

Finanzmodellierung

21.6

17.3

30.1

33.2

15.0

20.0

Kern-Benchmark-Werte für Kodierung
Suche und Werkzeugnutzung
Aufgaben abgeschlossen pro 100
Bürofähigkeiten

Zuletzt aktualisiert

War das hilfreich?