> For the complete documentation index, see [llms.txt](https://unsloth.ai/docs/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://unsloth.ai/docs/de/modelle/tutorials/minimax-m27.md).

# MiniMax-M2.7 - So wird es lokal ausgeführt

MiniMax-M2.7 ist ein neues Open Model für agentisches Coding und Chat-Anwendungsfälle. Das Modell erzielt SOTA-Performance in SWE-Pro (56,22 %) und Terminal Bench 2 (57,0 %).

Das **230B Parameter** (10B aktiv) Modell ist der Nachfolger von [MiniMax-M25](/docs/de/modelle/tutorials/minimax-m25.md) und hat ein **200K-Kontext** -Fenster. Das unquantisierte bf16 benötigt **457GB**. Unsloth Dynamic **4-bit** GGUF reduziert die Größe auf **108GB** **(-60%)** sodass es auf einem **128GB RAM** Gerät laufen kan&#x6E;**:** [**MiniMax-M2.7 GGUF**](https://huggingface.co/unsloth/MiniMax-M2.7-GGUF)

Alle Uploads verwenden Unsloth [Dynamic 2.0](/docs/de/grundlagen/unsloth-dynamic-2.0-ggufs.md) für SOTA-Quantisierungsleistung – daher werden wichtige Layer auf höhere Bits hochgestuft (z. B. 8- oder 16-Bit). Vielen Dank an MiniMax für den Day-Zero-Zugang.

{% hint style="success" %}
NEUE MiniMax-M2.7 GGUF-Benchmarks verfügbar! [Hier ansehen](#gguf-benchmarks)
{% endhint %}

### :gear: Verwendungsleitfaden

Die dynamische 4-Bit-Quantisierung `UD-IQ4_XS` verwendet **108GB** an Speicherplatz – das passt gut auf einen **Mac mit 128GB Unified Memory** für \~15+ Token/s und funktioniert auch schneller mit einer **1x16GB GPU und 96GB RAM** für 25+ Token/s. **2-Bit** Quants oder die größte 2-Bit-Version passen auf ein 96GB-Gerät.

Für nahezu **volle Präzision**, verwende `Q8_0` (8-Bit), das 243GB benötigt und auf ein Gerät / Mac mit 256GB RAM für 15+ Token/s passt.

{% hint style="success" %}
Für beste Leistung stelle sicher, dass dein insgesamt verfügbarer Speicher (VRAM + Systemspeicher) die Größe der quantisierten Modelldatei übersteigt, die du herunterlädst. Falls nicht, kann llama.cpp weiterhin über SSD/HDD-Offloading laufen, aber die Inferenz wird langsamer sein.
{% endhint %}

### Empfohlene Einstellungen

MiniMax empfiehlt die folgenden Parameter für beste Leistung: `temperature=1.0`, `top_p = 0.95`, `top_k = 40`.

{% columns %}
{% column %}

| Standardeinstellungen (meiste Aufgaben) |
| --------------------------------------- |
| `temperature = 1.0`                     |
| `top_p = 0.95`                          |
| `top_k = 40`                            |
| {% endcolumn %}                         |

{% column %}

* **Maximales Kontextfenster:** `196,608`
* Standard-Systemprompt:

{% code overflow="wrap" %}

```
Du bist ein hilfreicher Assistent. Dein Name ist MiniMax-M2.7 und du wurdest von MiniMax erstellt.
```

{% endcode %}
{% endcolumn %}
{% endcolumns %}

## Tutorials für MiniMax-M2.7 ausführen:

Damit MiniMax-M2.7 auf einem Gerät mit 128GB RAM läuft, verwenden wir die 4-Bit [`UD-IQ4_XS` Quantisierung](https://huggingface.co/unsloth/MiniMax-M2.7-GGUF?show_file_info=UD-IQ4_XS%2FMiniMax-M2.7-UD-IQ4_XS-00001-of-00004.gguf). Du kannst MiniMax-M2.7 jetzt in [llama.cpp](#run-in-llama.cpp) und [Unsloth Studio](#run-in-unsloth-studio).

{% hint style="warning" %}
nicht mit CUDA 13.2 ausführen, da dies zu Kauderwelsch oder schlechten Ausgaben führen kann. NVIDIA arbeitet an einem Fix.
{% endhint %}

### 🦥 In Unsloth Studio ausführen

MiniMax-M2.7 kann jetzt in [Unsloth Studio](/docs/de/neu/studio.md)ausgeführt werden, unserer neuen Open-Source-Web-UI für lokale KI. Mit Unsloth Studio kannst du Modelle lokal ausführen auf **MacOS, Windows**und Linux sowie:

{% columns %}
{% column %}

* Suchen, herunterladen, [GGUFs ausführen](/docs/de/neu/studio.md#run-models-locally) und Safetensor-Modelle
* [**Selbstheilendes** Tool-Calling](/docs/de/neu/studio.md#execute-code--heal-tool-calling) + **Websuche**
* [**Codeausführung**](/docs/de/neu/studio.md#run-models-locally) (Python, Bash)
* [Automatische Inferenz](/docs/de/neu/studio.md#model-arena) Parametertuning (Temp, Top-p usw.)
* Verwendet llama.cpp für schnelle CPU- und GPU-Inferenz sowie CPU-Offloading
  {% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/d7c42ebe749f1a6355e750ad6d546c1c25be81de" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% stepper %}
{% step %}

#### Unsloth installieren

In deinem Terminal ausführen:

**MacOS, Linux, WSL:**

```bash
curl -fsSL https://unsloth.ai/install.sh | sh
```

**Windows PowerShell:**

```bash
irm https://unsloth.ai/install.ps1 | iex
```

{% endstep %}

{% step %}

#### Unsloth starten

**MacOS, Linux, WSL und Windows:**

```bash
unsloth studio -H 0.0.0.0 -p 8888
```

**Dann öffnen `http://localhost:8888` in deinem Browser.**
{% endstep %}

{% step %}

#### MiniMax-M2.7 suchen und herunterladen

Beim ersten Start musst du ein Passwort erstellen, um dein Konto zu sichern, und dich später erneut anmelden. Anschließend siehst du einen kurzen Einrichtungsassistenten, um ein Modell, ein Dataset und grundlegende Einstellungen auszuwählen. Du kannst ihn jederzeit überspringen.

Du kannst auswählen `UD-IQ4_XS` (dynamische 4-Bit-Quantisierung) oder andere quantisierte Versionen wie `UD-Q4_K_XL` . Wenn Downloads hängen bleiben, siehe [Hugging Face Hub, XET-Debugging](/docs/de/grundlagen/troubleshooting-and-faqs/hugging-face-hub-xet-debugging.md)

Dann gehe zum [Studio Chat](/docs/de/neu/studio/chat.md) Tab und suche in der Suchleiste nach MiniMax-M2.7 und lade dein gewünschtes Modell und deine gewünschte Quantisierung herunter. Aufgrund der Größe wird der Download etwas Zeit in Anspruch nehmen, also bitte warten. Um schnelle Inferenz sicherzustellen, stelle sicher, dass du [genügend RAM/VRAM](#usage-guide)hast, andernfalls funktioniert die Inferenz weiterhin, aber Unsloth lagert auf deine CPU aus.

<div data-with-frame="true"><figure><img src="/files/80fb099899a74f983a9d4e81807e8453780cb68d" alt=""><figcaption></figcaption></figure></div>
{% endstep %}

{% step %}

#### MiniMax-M2.7 ausführen

Die Inferenzparameter sollten bei Verwendung von Unsloth Studio automatisch gesetzt werden, du kannst sie jedoch weiterhin manuell ändern. Du kannst auch die Kontextlänge, das Chat-Template und andere Einstellungen bearbeiten.

Für weitere Informationen kannst du unseren [Unsloth-Studio-Inferenzleitfaden](/docs/de/neu/studio/chat.md).
{% endstep %}
{% endstepper %}

### ✨ In llama.cpp ausführen

{% hint style="warning" %}
nicht mit CUDA 13.2 ausführen, da dies zu Kauderwelsch oder schlechten Ausgaben führen kann. NVIDIA arbeitet an einem Fix.
{% endhint %}

{% stepper %}
{% step %}
Beschaffe die neueste `llama.cpp` auf [GitHub hier](https://github.com/ggml-org/llama.cpp). Du kannst auch den Build-Anweisungen unten folgen. Ändere `-DGGML_CUDA=ON` zu `-DGGML_CUDA=OFF` wenn du keine GPU hast oder nur CPU-Inferenz möchtest. **Für Apple Mac / Metal-Geräte**, setze `-DGGML_CUDA=OFF` und fahre dann wie gewohnt fort – Metal-Unterstützung ist standardmäßig aktiviert.

{% code overflow="wrap" %}

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

{% endcode %}
{% endstep %}

{% step %}
Wenn du `llama.cpp` direkt zum Laden von Modellen verwenden möchtest, kannst du Folgendes tun: (:IQ4\_XS) ist der Quantisierungstyp. Du kannst auch über Hugging Face herunterladen (Punkt 3). Das ist ähnlich wie `ollama run` . Verwende `export LLAMA_CACHE="ordner"` um `llama.cpp` zu zwingen, an einem bestimmten Ort zu speichern. Denk daran, dass das Modell nur eine maximale Kontextlänge von 200K hat.

Folge dies für **die meisten Standard-** Anwendungsfälle:

```bash
export LLAMA_CACHE="unsloth/MiniMax-M2.7-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/MiniMax-M2.7-GGUF:UD-IQ4_XS \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 40
```

{% endstep %}

{% step %}
Lade das Modell herunter (nach der Installation von `pip install huggingface_hub hf_transfer`). Du kannst UD-IQ4\_XS (dynamische 4-Bit-Quantisierung) oder andere quantisierte Versionen wie `UD-Q6_K_XL` wählen. Wir empfehlen unsere dynamische 4-Bit-Quantisierung UD-IQ4\_XS, um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe [Hugging Face Hub, XET-Debugging](/docs/de/grundlagen/troubleshooting-and-faqs/hugging-face-hub-xet-debugging.md)

```bash
hf download unsloth/MiniMax-M2.7-GGUF \
    --local-dir unsloth/MiniMax-M2.7-GGUF \
    --include "*UD-IQ4_XS*" # Verwende "*Q8_0*" für 8-Bit
```

{% endstep %}

{% step %}
Du kannst `--threads 32` für die Anzahl der CPU-Threads, `--ctx-size 16384` für die Kontextlänge, `--n-gpu-layers 2` für GPU-Offloading für wie viele Layer bearbeiten. Versuche, es anzupassen, wenn deiner GPU der Speicher ausgeht. Entferne es auch, wenn du nur CPU-Inferenz hast.

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \
    --model unsloth/MiniMax-M2.7-GGUF/UD-IQ4_XS/MiniMax-M2.7-UD-IQ4_XS-00001-of-00004.gguf \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 40
```

{% endcode %}
{% endstep %}
{% endstepper %}

#### 🦙 Llama-Server & OpenAIs Completion-Bibliothek

Um MiniMax-M2.7 produktiv bereitzustellen, verwenden wir `llama-server` oder die OpenAI-API. In einem neuen Terminal, z. B. via tmux, stelle das Modell bereit mit:

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-server \
    --model unsloth/MiniMax-M2.7-GGUF/UD-IQ4_XS/MiniMax-M2.7-UD-IQ4_XS-00001-of-00004.gguf \
    --alias "unsloth/MiniMax-M2.7" \
    --prio 3 \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --top-k 40 \
    --port 8001
```

{% endcode %}

Dann in einem neuen Terminal, nach `pip install openai`, tue:

{% code overflow="wrap" %}

```python
from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/MiniMax-M2.7",
    messages = [{"role": "user", "content": "Erstelle ein Snake-Spiel."},],
)
print(completion.choices[0].message.content)
```

{% endcode %}

## 📊 Benchmarks

### GGUF-Benchmarks

Unten sind KLD-99%-Benchmarks für MiniMax-M2.7. Unten links ist besser:

<figure><img src="/files/dbc720ec608c65a438f047b3c243de8ec73d3640" alt=""><figcaption></figcaption></figure>

Da MiniMax-M2.7 dieselbe Architektur wie MiniMax-M2.5 verwendet, sollten die GGUF-Quantisierungs-Benchmarks für M2.7 sehr ähnlich zu M2.5 sein. Daher beziehen wir uns auch auf frühere Quantisierungs-Benchmarks für M2.5:

<figure><img src="/files/842f81160683e416edff8cb6476057d37328d1e2" alt=""><figcaption></figcaption></figure>

[Benjamin Marie (Drittanbieter) benchmarkte](https://x.com/bnjmn_marie/status/2027043753484021810/photo/1) **MiniMax-M2.5** unter Verwendung von **Unsloth-GGUF-Quantisierungen** auf einer **Mischsuite mit 750 Prompts** (LiveCodeBench v6, MMLU Pro, GPQA, Math500) und berichtete sowohl über **Gesamtgenauigkeit** und **relative Fehlerzunahme** (wie viel häufiger das quantisierte Modell im Vergleich zum Original Fehler macht).

Unsloth-Quants schneiden, unabhängig von ihrer Präzision, sowohl bei der Genauigkeit als auch beim relativen Fehler deutlich besser ab als ihre nicht-Unsloth-Pendants (trotz 8GB kleinerer Größe).

**Wichtige Ergebnisse:**

* **Bester Kompromiss aus Qualität und Größe hier: `unsloth UD-Q4_K_XL`.**\
  Es kommt dem Original am nächsten: nur **6,0 Punkte** niedriger, und „nur“ **+22.8%** mehr Fehler als die Baseline.
* **Andere Unsloth-Q4-Quants liegen eng beieinander (\~64,5–64,9 Genauigkeit).**\
  `IQ4_NL`, `MXFP4_MOE`und `UD-IQ2_XXS` haben auf diesem Benchmark im Grunde die gleiche Qualität, mit **\~33–35 %** mehr Fehlern als das Original.
* Unsloth GGUFs schneiden deutlich besser ab als andere nicht-Unsloth GGUFs, z. B. siehe `lmstudio-community - Q4_K_M` (trotz 8GB kleinerer Größe) und `AesSedai - IQ3_S`.

### Offizielle Benchmarks

<figure><img src="/files/e0bd764465b91760e6b594174f916ea2e97a32f3" alt=""><figcaption></figcaption></figure>


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/de/modelle/tutorials/minimax-m27.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
