# MiniMax-M2.5: Leitfaden zum Ausführen

MiniMax-M2.5 ist ein neues offenes LLM, das SOTA in den Bereichen Programmierung, agentische Werkzeugnutzung sowie Suche und Büroarbeit erreicht und 80,2 % erzielt in [SWE-Bench](#benchmarks) Verified, 51,3 % in Multi-SWE-Bench und 76,3 % in BrowseComp.

Die **230B Parameter** (10B aktiv) Modell hat ein **200K-Kontext** Fenster und unquantisiertes bf16 erfordert **457 GB**. Unsloth Dynamic **3-Bit** GGUF reduziert die Größe auf **101 GB** **(-62%):** [**MiniMax-M2.5 GGUF**](https://huggingface.co/unsloth/MiniMax-M2.5-GGUF)

Alle Uploads verwenden Unsloth [Dynamic 2.0](/docs/de/grundlagen/unsloth-dynamic-2.0-ggufs.md) für SOTA-Quantisierungsleistung – daher werden bei 3-Bit wichtige Schichten auf 8 oder 16 Bit hochskaliert. Du kannst das Modell auch über Unsloth mit Multi-GPUs feinabstimmen.

{% hint style="success" %}
**26. Feb.:** Sieh hier, wie gut unsere GGUF-Quantisierungen [bei Benchmarks abschneiden](#unsloth-gguf-benchmarks).
{% endhint %}

### :gear: Nutzungsanleitung

Die 3-Bit-Dynamik-Quant UD-Q3\_K\_XL verwendet **101 GB** an Speicherplatz – das passt gut auf einen **Mac mit 128 GB Unified Memory** für \~20+ Tokens/s und funktioniert auch schneller mit einer **1x16GB-GPU und 96 GB RAM** für 25+ Tokens/s. **2-Bit** Quantisierungen oder die größte 2-Bit-Version passen auf ein 96-GB-Gerät.

Für nahezu **volle Präzision**, verwende `Q8_0` (8-Bit), die 243 GB nutzt und auf ein Gerät / einen Mac mit 256 GB RAM für 10+ Tokens/s passt.

{% hint style="success" %}
Für beste Leistung stelle sicher, dass dein insgesamt verfügbarer Speicher (VRAM + Systemspeicher) die Größe der quantisierten Modelldatei übersteigt, die du herunterlädst. Wenn nicht, kann llama.cpp weiterhin per SSD/HDD-Offloading ausgeführt werden, aber die Inferenz wird langsamer sein.
{% endhint %}

### Empfohlene Einstellungen

MiniMax empfiehlt zur besten Leistung die folgenden Parameter zu verwenden: `temperature=1.0`, `top_p = 0.95`, `top_k = 40`.

{% columns %}
{% column %}

| Standardeinstellungen (meiste Aufgaben)      |
| -------------------------------------------- |
| `temperature = 1.0`                          |
| `top_p = 0.95`                               |
| `top_k = 40`                                 |
| `Wiederholungsstrafe = 1,0` oder deaktiviert |
| {% endcolumn %}                              |

{% column %}

* **Maximales Kontextfenster:** `196,608`
* `Min_P = 0,01` (Standard kann 0,05 sein)
* Standard-Systemprompt:

{% code overflow="wrap" %}

```
Du bist ein hilfreicher Assistent. Dein Name ist MiniMax-M2.5 und du wurdest von MiniMax entwickelt.
```

{% endcode %}
{% endcolumn %}
{% endcolumns %}

## MiniMax-M2.5-Tutorials ausführen:

Für diese Tutorials verwenden wir die 3-Bit [UD-Q3\_K\_XL](https://huggingface.co/unsloth/MiniMax-M2.5-GGUF?show_file_info=UD-Q3_K_XL%2FMiniMax-M2.5-UD-Q3_K_XL-00001-of-00004.gguf) Quantisierung, die auf ein Gerät mit 128 GB RAM passt.

#### ✨ In llama.cpp ausführen

{% stepper %}
{% step %}
Beschaffe die neueste `llama.cpp` auf [GitHub hier](https://github.com/ggml-org/llama.cpp). Du kannst unten auch den Build-Anweisungen folgen. Ändere `-DGGML_CUDA=ON` zu `-DGGML_CUDA=OFF` wenn du keine GPU hast oder nur CPU-Inferenz möchtest. **Für Apple Mac / Metal-Geräte**, setze `-DGGML_CUDA=OFF` und fahre dann wie gewohnt fort – Metal-Unterstützung ist standardmäßig aktiviert.

{% code overflow="wrap" %}

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

{% endcode %}
{% endstep %}

{% step %}
Wenn du `llama.cpp` Um Modelle direkt zu laden, kannst du Folgendes tun: (:Q3\_K\_XL) ist der Quantisierungstyp. Du kannst auch über Hugging Face herunterladen (Punkt 3). Das ist ähnlich wie `ollama run` . Verwende `export LLAMA_CACHE="folder"` um `llama.cpp` um an einem bestimmten Ort zu speichern. Denk daran, dass das Modell nur eine maximale Kontextlänge von 200K hat.

Folge dies für **meiste Standard-** Anwendungsfälle:

```bash
export LLAMA_CACHE="unsloth/MiniMax-M2.5-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/MiniMax-M2.5-GGUF:UD-Q3_K_XL \\
    --ctx-size 16384 \
    --flash-attn on \\
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \\
    --top-k 40
```

{% endstep %}

{% step %}
Lade das Modell über (nach Installation von `pip install huggingface_hub hf_transfer` ). Du kannst `UD-Q3_K_XL` (dynamische 4-Bit-Quantisierung) oder andere quantisierte Versionen wie `UD-Q6_K_XL` . Wir empfehlen die Verwendung unserer dynamischen 4-Bit-Quantisierung `UD-Q3_K_XL` um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe [Hugging Face Hub, XET-Debugging](/docs/de/grundlagen/troubleshooting-and-faqs/hugging-face-hub-xet-debugging.md)

```bash
hf download unsloth/MiniMax-M2.5-GGUF \\
    --local-dir unsloth/MiniMax-M2.5-GGUF \\
    --include "*UD-Q3_K_XL*" # Verwende "*Q8_0*" für 8-Bit
```

{% endstep %}

{% step %}
Du kannst bearbeiten `--threads 32` für die Anzahl der CPU-Threads, `--ctx-size 16384` für die Kontextlänge, `--n-gpu-layers 2` für GPU-Offloading, auf wie viele Schichten. Versuchen Sie, dies anzupassen, wenn Ihre GPU nicht mehr in den Speicher passt. Entfernen Sie es auch, wenn Sie nur auf der CPU inferieren.

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \
    --model unsloth/MiniMax-M2.5-GGUF/UD-Q3_K_XL/MiniMax-M2.5-UD-Q3_K_XL-00001-of-00004.gguf \\
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \\
    --top-k 40 \\
    --ctx-size 16384 \
    --seed 3407
```

{% endcode %}
{% endstep %}
{% endstepper %}

### 🦙 Llama-Server & OpenAIs Completion-Bibliothek

Um MiniMax-M2.5 produktiv bereitzustellen, verwenden wir `llama-server` oder die OpenAI-API. In einem neuen Terminal, z. B. via tmux, stelle das Modell bereit mit:

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-server \
    --model unsloth/MiniMax-M2.5-GGUF/UD-Q3_K_XL/MiniMax-M2.5-UD-Q3_K_XL-00001-of-00004.gguf \\
    --alias "unsloth/MiniMax-M2.5" \\
    --prio 3 \\
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \\
    --top-k 40 \\
    --ctx-size 16384 \
    --port 8001
```

{% endcode %}

Dann in einem neuen Terminal, nachdem du `pip install openai`ausgeführt hast:

{% code overflow="wrap" %}

```python
from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/MiniMax-M2.5",
    messages = [{"role": "user", "content": "Erstelle ein Snake-Spiel."},],
)
print(completion.choices[0].message.content)
```

{% endcode %}

## 📊 Benchmarks

### Unsloth GGUF-Benchmarks

<figure><img src="/files/842f81160683e416edff8cb6476057d37328d1e2" alt=""><figcaption></figcaption></figure>

[Benjamin Marie (Drittanbieter) hat Benchmarks durchgeführt](https://x.com/bnjmn_marie/status/2027043753484021810/photo/1) **MiniMax-M2.5** unter Verwendung von **Unsloth-GGUF-Quantisierungen** auf einem **750-Prompt-Mix-Suite** (LiveCodeBench v6, MMLU Pro, GPQA, Math500), wobei sowohl **Gesamtgenauigkeit** und **relative Fehlerzunahme** (wie viel häufiger das quantisierte Modell im Vergleich zum Original Fehler macht).

Unsloth-Quantisierungen schneiden, unabhängig von ihrer Präzision, sowohl bei der Genauigkeit als auch beim relativen Fehler deutlich besser ab als ihre Nicht-Unsloth-Pendants (obwohl sie 8 GB kleiner sind).

**Wichtigste Ergebnisse:**

* **Hier das beste Verhältnis von Qualität zu Größe: `unsloth UD-Q4_K_XL`.**\
  Es kommt dem Original am nächsten: nur **6,0 Punkte** niedriger, und „nur“ **+22.8%** mehr Fehler als die Basisversion.
* **Andere Unsloth-Q4-Quantisierungen liegen eng beieinander (\~64,5–64,9 Genauigkeit).**\
  `IQ4_NL`, `MXFP4_MOE`und `UD-IQ2_XXS` haben bei diesem Benchmark im Grunde die gleiche Qualität, mit **\~33–35 %** mehr Fehlern als das Original.
* Unsloth-GGUFs schneiden deutlich besser ab als andere Nicht-Unsloth-GGUFs, z. B. siehe `lmstudio-community - Q4_K_M` (obwohl sie 8 GB kleiner sind) und `AesSedai - IQ3_S`.

### Offizielle Benchmarks

Weitere Benchmarks in Tabellenform findest du weiter unten:

<figure><img src="/files/437598b201d45b3fe11d39cf2800155f970be7fb" alt="" width="563"><figcaption></figcaption></figure>

<table data-full-width="true"><thead><tr><th>Benchmark</th><th>MiniMax-M2.5</th><th>MiniMax-M2.1</th><th>Claude Opus 4.5</th><th>Claude Opus 4.6</th><th>Gemini 3 Pro</th><th>GPT-5.2 (Denken)</th></tr></thead><tbody><tr><td>AIME25</td><td>86.3</td><td>83.0</td><td>91.0</td><td>95.6</td><td>96.0</td><td>98.0</td></tr><tr><td>GPQA-D</td><td>85.2</td><td>83.0</td><td>87.0</td><td>90.0</td><td>91.0</td><td>90.0</td></tr><tr><td>SciCode</td><td>44.4</td><td>41.0</td><td>50.0</td><td>52.0</td><td>56.0</td><td>52.0</td></tr><tr><td>IFBench</td><td>70.0</td><td>70.0</td><td>58.0</td><td>53.0</td><td>70.0</td><td>75.0</td></tr><tr><td>AA-LCR</td><td>69.5</td><td>62.0</td><td>74.0</td><td>71.0</td><td>71.0</td><td>73.0</td></tr><tr><td>SWE-Bench Verified</td><td>80.2</td><td>74.0</td><td>80.9</td><td>80.8</td><td>78.0</td><td>80.0</td></tr><tr><td>SWE-Bench Pro</td><td>55.4</td><td>49.7</td><td>56.9</td><td>55.4</td><td>54.1</td><td>55.6</td></tr><tr><td>Terminal Bench 2</td><td>51.7</td><td>47.9</td><td>53.4</td><td>55.1</td><td>54.0</td><td>54.0</td></tr><tr><td>HLE ohne Werkzeuge</td><td>19.4</td><td>22.2</td><td>28.4</td><td>30.7</td><td>37.2</td><td>31.4</td></tr><tr><td>Multi-SWE-Bench</td><td>51.3</td><td>47.2</td><td>50.0</td><td>50.3</td><td>42.7</td><td>—</td></tr><tr><td>SWE-Bench Mehrsprachig</td><td>74.1</td><td>71.9</td><td>77.5</td><td>77.8</td><td>65.0</td><td>72.0</td></tr><tr><td>VIBE-Pro (AVG)</td><td>54.2</td><td>42.4</td><td>55.2</td><td>55.6</td><td>36.9</td><td>—</td></tr><tr><td>BrowseComp (mit Kontext)</td><td>76.3</td><td>62.0</td><td>67.8</td><td>84.0</td><td>59.2</td><td>65.8</td></tr><tr><td>Wide Search</td><td>70.3</td><td>63.2</td><td>76.2</td><td>79.4</td><td>57.0</td><td>—</td></tr><tr><td>RISE</td><td>50.2</td><td>34.0</td><td>50.5</td><td>62.5</td><td>36.8</td><td>50.0</td></tr><tr><td>BFCL Multi-Turn</td><td>76.8</td><td>37.4</td><td>68.0</td><td>63.3</td><td>61.0</td><td>—</td></tr><tr><td>τ² Telecom</td><td>97.8</td><td>87.0</td><td>98.2</td><td>99.3</td><td>98.0</td><td>98.7</td></tr><tr><td>MEWC</td><td>74.4</td><td>55.6</td><td>82.1</td><td>89.8</td><td>78.7</td><td>41.3</td></tr><tr><td>GDPval-MM</td><td>59.0</td><td>24.6</td><td>61.1</td><td>73.5</td><td>28.1</td><td>54.5</td></tr><tr><td>Finanzmodellierung</td><td>21.6</td><td>17.3</td><td>30.1</td><td>33.2</td><td>15.0</td><td>20.0</td></tr></tbody></table>

<div><figure><img src="/files/258f774e6ce5c4ccd16709db690eab40b6d6ecf3" alt="" width="563"><figcaption><p>Core-Benchmark-Ergebnisse für Programmierung</p></figcaption></figure> <figure><img src="/files/bb2f0a80ed2103936001c6b59a1ca4e49cfbc1e3" alt="" width="563"><figcaption><p>Suche und Werkzeugnutzung</p></figcaption></figure></div>

<div><figure><img src="/files/786ff0d09a938038647e4c047b2462453e5b9568" alt=""><figcaption><p>Abgeschlossene Aufgaben pro 100</p></figcaption></figure> <figure><img src="/files/4ac69f784f29eb97fe6b2aea371e1434677b45ec" alt=""><figcaption><p>Büro-Fähigkeiten</p></figcaption></figure></div>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/de/modelle/tutorials/minimax-m25.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.