waveformMiniMax-M2.5: Anleitung zum Ausführen

Führe MiniMax-M2.5 lokal auf deinem eigenen Gerät aus!

MiniMax-M2.5 ist ein neues offenes LLM, das SOTA in Codierung, agentischem Werkzeuggebrauch sowie Suche und Büroarbeit erreicht und 80,2 % in SWE-Bench Verified, 51,3 % in Multi-SWE-Bench und 76,3 % in BrowseComp.

Das 230B Parameter (10B aktiv) Modell hat ein 200K Kontext Fenster und unquantisiertes bf16 benötigt 457GB. Unsloth Dynamic 3-Bit GGUF reduziert die Größe auf 101GB (-62%): MiniMax-M2.5 GGUFarrow-up-right

Alle Uploads verwenden Unsloth Dynamic 2.0 für SOTA-Quantisierungsleistung – daher werden bei 3-Bit wichtige Schichten auf 8- oder 16-Bit hochgestuft. Sie können das Modell auch über Unsloth feinabstimmen und mehrere GPUs verwenden.

⚙️ Gebrauchsanleitung

Die 3-Bit-dynamische Quant UD-Q3_K_XL verwendet 101GB Festplattenspeicher – dies passt gut auf ein 128GB Unified Memory Mac für ~20+ Tokens/s und funktioniert auch schneller mit einer 1x16GB GPU und 96GB RAM für 25+ Tokens/s. 2-Bit Quants oder das größte 2-Bit passen auf ein 96GB-Gerät.

Für nahezu vollständige Präzision, verwenden Sie Q8_0 (8-Bit), das 243GB nutzt und auf einem Gerät / Mac mit 256GB RAM für 10+ Tokens/s passt.

circle-check

Empfohlene Einstellungen

MiniMax empfiehlt für beste Leistung die folgenden Parameter: temperature=1.0, top_p = 0.95, top_k = 40.

Standard-Einstellungen (die meisten Aufgaben)

temperature = 1.0

top_p = 0.95

top_k = 40

repeat penalty = 1.0 oder deaktiviert

  • Maximales Kontextfenster: 196,608

  • Min_P = 0.01 (Standard könnte 0,05 sein)

  • Standard System-Prompt:

Du bist ein hilfreicher Assistent. Dein Name ist MiniMax-M2.5 und wurde von MiniMax entwickelt.

MiniMax-M2.5 Tutorials ausführen:

Für diese Tutorials werden wir das 3-Bit UD-Q3_K_XLarrow-up-right Quant verwenden, das in ein 128GB-RAM-Gerät passt.

✨ In llama.cpp ausführen

1

Besorge dir das neueste llama.cpp auf GitHub hierarrow-up-right. Du kannst auch den Build-Anleitungen unten folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
2

Wenn du llama.cpp direkt zum Laden von Modellen verwenden möchtest, kannst du folgendes tun: (:Q3_K_XL) ist der Quantisierungstyp. Du kannst auch über Hugging Face (Punkt 3) herunterladen. Das ist ähnlich wie ollama run . Verwende export LLAMA_CACHE="Ordner" um zu erzwingen, dass llama.cpp an einem bestimmten Ort gespeichert wird. Denk daran, dass das Modell nur eine maximale Kontextlänge von 200K hat.

Folge dem für die meisten Standard- Anwendungsfälle:

export LLAMA_CACHE="unsloth/MiniMax-M2.5-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/MiniMax-M2.5-GGUF:UD-Q3_K_XL \
    --ctx-size 16384 \
    --flash-attn on \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --top-k 40
3

Lade das Modell herunter (nachdem du installiert hast pip install huggingface_hub hf_transfer ). Du kannst wählen UD-Q3_K_XL (dynamischer 4-Bit-Quant) oder andere quantisierte Versionen wie UD-Q6_K_XL . Wir empfehlen die Verwendung unseres 4-Bit-dynamischen Quants UD-Q3_K_XL um Größe und Genauigkeit auszubalancieren.

hf download unsloth/MiniMax-M2.5-GGUF \
    --local-dir unsloth/MiniMax-M2.5-GGUF \
    --include "*UD-Q3_K_XL*" # Verwende "*Q8_0*" für 8-Bit
4

Du kannst --threads 32 für die Anzahl der CPU-Threads bearbeiten, --ctx-size 16384 für die Kontextlänge, --n-gpu-layers 2 für GPU-Offloading, also wie viele Schichten. Versuche, dies anzupassen, wenn deine GPU nicht genug Speicher hat. Entferne es auch, wenn du nur CPU-Inferenz hast.

./llama.cpp/llama-cli \
    --model unsloth/MiniMax-M2.5-GGUF/UD-Q3_K_XL/MiniMax-M2.5-UD-Q3_K_XL-00001-of-00004.gguf \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --top-k 40 \
    --ctx-size 16384 \
    --seed 3407

🦙 Llama-server & OpenAIs Completion-Bibliothek

Um MiniMax-M2.5 in der Produktion bereitzustellen, verwenden wir llama-server oder die OpenAI API. In einem neuen Terminal, z. B. via tmux, deploye das Modell mit:

Dann in einem neuen Terminal, nachdem du pip install openai, mache:

📊 Benchmarks

Unten kannst du weitere Benchmarks in Tabellenform einsehen:

Benchmark
MiniMax-M2.5
MiniMax-M2.1
Claude Opus 4.5
Claude Opus 4.6
Gemini 3 Pro
GPT-5.2 (in Entwicklung)

AIME25

86.3

83.0

91.0

95.6

96.0

98.0

GPQA-D

85.2

83.0

87.0

90.0

91.0

90.0

SciCode

44.4

41.0

50.0

52.0

56.0

52.0

IFBench

70.0

70.0

58.0

53.0

70.0

75.0

AA-LCR

69.5

62.0

74.0

71.0

71.0

73.0

SWE-Bench Verified

80.2

74.0

80.9

80.8

78.0

80.0

SWE-Bench Pro

55.4

49.7

56.9

55.4

54.1

55.6

Terminal Bench 2

51.7

47.9

53.4

55.1

54.0

54.0

HLE ohne Tools

19.4

22.2

28.4

30.7

37.2

31.4

Multi-SWE-Bench

51.3

47.2

50.0

50.3

42.7

SWE-Bench Mehrsprachig

74.1

71.9

77.5

77.8

65.0

72.0

VIBE-Pro (AVG)

54.2

42.4

55.2

55.6

36.9

BrowseComp (mit Kontext)

76.3

62.0

67.8

84.0

59.2

65.8

Weite Suche

70.3

63.2

76.2

79.4

57.0

RISE

50.2

34.0

50.5

62.5

36.8

50.0

BFCL Mehrfach-Dialog

76.8

37.4

68.0

63.3

61.0

τ² Telekom

97.8

87.0

98.2

99.3

98.0

98.7

MEWC

74.4

55.6

82.1

89.8

78.7

41.3

GDPval-MM

59.0

24.6

61.1

73.5

28.1

54.5

Finanzmodellierung

21.6

17.3

30.1

33.2

15.0

20.0

Kern-Benchmark-Werte für Codierung
Suche und Werkzeuggebrauch
Abgeschlossene Aufgaben pro 100
Büro-Fähigkeiten

Zuletzt aktualisiert

War das hilfreich?