# MiniMax-M2.7 - So führst du es lokal aus

MiniMax-M2.7 ist ein neues Open-Model für agentisches Coding und Chat-Use-Cases. Das Modell erreicht SOTA-Performance in SWE-Pro (56,22 %) und Terminal Bench 2 (57,0 %).

Die **230B Parameter** (10B aktiv) Modell ist der Nachfolger von [MiniMax-M25](/docs/de/modelle/tutorials/minimax-m25.md) und hat ein **200K-Context** Fenster. Das unquantisierte bf16 benötigt **457 GB**. Unsloth Dynamic **4-Bit** GGUF reduziert die Größe auf **108 GB** **(-60%)** sodass es auf einem **128GB-RAM** Gerät laufen kan&#x6E;**:** [**MiniMax-M2.7 GGUF**](https://huggingface.co/unsloth/MiniMax-M2.7-GGUF)

Alle Uploads verwenden Unsloth [Dynamic 2.0](/docs/de/grundlagen/unsloth-dynamic-2.0-ggufs.md) für SOTA-Quantisierungsleistung – daher werden wichtige Schichten auf höhere Bits hochskaliert (z. B. 8- oder 16-Bit). Vielen Dank an MiniMax für den Zugriff ab Tag null.

{% hint style="warning" %}
Verwenden Sie NICHT CUDA 13.2, um irgendein Modell auszuführen, da dies zu Kauderwelsch oder schlechten Ausgaben führen kann. NVIDIA arbeitet an einer Lösung.
{% endhint %}

### :gear: Nutzungsanleitung

Die 4-Bit-Dynamic-Quant `UD-IQ4_XS` verwendet **108 GB** an Speicherplatz – das passt gut auf einen **Mac mit 128GB Unified Memory** für \~15+ Tokens/s und funktioniert auch schneller mit einer **1x16GB GPU und 96GB RAM** für 25+ Tokens/s. **2-Bit** Quants oder der größte 2-Bit-Quant passen auf ein 96GB-Gerät.

Für nahezu **volle Präzision**, verwenden Sie `Q8_0` (8-Bit), das 243GB nutzt und auf ein Gerät / einen Mac mit 256GB RAM für 15+ Tokens/s passt.

{% hint style="success" %}
Für beste Leistung stellen Sie sicher, dass Ihr insgesamt verfügbarer Speicher (VRAM + System-RAM) die Größe der quantisierten Modelldatei übersteigt, die Sie herunterladen. Falls nicht, kann llama.cpp weiterhin über SSD/HDD-Offloading laufen, aber die Inferenz wird langsamer sein.
{% endhint %}

### Empfohlene Einstellungen

MiniMax empfiehlt, für die beste Leistung die folgenden Parameter zu verwenden: `temperature=1.0`, `top_p = 0,95`, `top_k = 40`.

{% columns %}
{% column %}

| Standardeinstellungen (die meisten Aufgaben) |
| -------------------------------------------- |
| `temperature = 1.0`                          |
| `top_p = 0,95`                               |
| `top_k = 40`                                 |
| {% endcolumn %}                              |

{% column %}

* **Maximales Kontextfenster:** `196,608`
* Standard-Systemprompt:

{% code overflow="wrap" %}

```
Sie sind ein hilfreicher Assistent. Ihr Name ist MiniMax-M2.7 und wurde von MiniMax entwickelt.
```

{% endcode %}
{% endcolumn %}
{% endcolumns %}

## MiniMax-M2.7-Tutorials ausführen:

Damit MiniMax-M2.7 auf einem Gerät mit 128GB RAM funktioniert, verwenden wir das 4-Bit- [`UD-IQ4_XS` Quant](https://huggingface.co/unsloth/MiniMax-M2.7-GGUF?show_file_info=UD-IQ4_XS%2FMiniMax-M2.7-UD-IQ4_XS-00001-of-00004.gguf). Sie können MiniMax-M2.7 jetzt in [llama.cpp](#run-in-llama.cpp) und [Unsloth Studio](#run-in-unsloth-studio).

{% hint style="warning" %}
Verwenden Sie NICHT CUDA 13.2, um irgendein Modell auszuführen, da dies zu Kauderwelsch oder schlechten Ausgaben führen kann. NVIDIA arbeitet an einer Lösung.
{% endhint %}

### 🦥 In Unsloth Studio ausführen

MiniMax-M2.7 kann jetzt in [Unsloth Studio](/docs/de/neu/studio.md)ausgeführt werden, unserer neuen Open-Source-Weboberfläche für lokale KI. Mit Unsloth Studio können Sie Modelle lokal auf **MacOS, Windows**, Linux und:

{% columns %}
{% column %}

* Suchen, herunterladen, [GGUFs ausführen](/docs/de/neu/studio.md#run-models-locally) und Safetensor-Modelle
* [**Selbstheilendes** Tool-Calling](/docs/de/neu/studio.md#execute-code--heal-tool-calling) + **Websuche**
* [**Codeausführung**](/docs/de/neu/studio.md#run-models-locally) (Python, Bash)
* [Automatische Inferenz](/docs/de/neu/studio.md#model-arena) Parameter-Tuning (Temp, Top-p usw.)
* Verwendet llama.cpp für schnelle CPU- + GPU-Inferenz und CPU-Offloading
  {% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/d7c42ebe749f1a6355e750ad6d546c1c25be81de" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% stepper %}
{% step %}

#### Unsloth installieren

Führen Sie im Terminal aus:

**MacOS, Linux, WSL:**

```bash
curl -fsSL https://unsloth.ai/install.sh | sh
```

**Windows PowerShell:**

```bash
irm https://unsloth.ai/install.ps1 | iex
```

{% endstep %}

{% step %}

#### Unsloth starten

**MacOS, Linux, WSL und Windows:**

```bash
unsloth studio -H 0.0.0.0 -p 8888
```

**Dann öffnen Sie `http://localhost:8888` in Ihrem Browser.**
{% endstep %}

{% step %}

#### MiniMax-M2.7 suchen und herunterladen

Beim ersten Start müssen Sie ein Passwort erstellen, um Ihr Konto zu sichern, und sich später erneut anmelden. Anschließend sehen Sie einen kurzen Einrichtungsassistenten, um ein Modell, einen Datensatz und grundlegende Einstellungen auszuwählen. Sie können ihn jederzeit überspringen.

Sie können `UD-IQ4_XS` (dynamischer 4-Bit-Quant) oder andere quantisierte Versionen wie `UD-Q4_K_XL` wählen. Wenn Downloads hängen bleiben, siehe [Hugging Face Hub, XET-Debugging](/docs/de/grundlagen/troubleshooting-and-faqs/hugging-face-hub-xet-debugging.md)

Dann gehen Sie zum [Studio-Chat](/docs/de/neu/studio/chat.md) Tab und suchen Sie in der Suchleiste nach MiniMax-M2.7 und laden Sie Ihr gewünschtes Modell und den gewünschten Quant herunter. Der Download dauert aufgrund der Größe etwas, bitte warten Sie daher. Um eine schnelle Inferenz zu gewährleisten, stellen Sie sicher, dass Sie [genügend RAM/VRAM](#usage-guide)haben, andernfalls funktioniert die Inferenz weiterhin, aber Unsloth lagert auf Ihre CPU aus.

<div data-with-frame="true"><figure><img src="/files/80fb099899a74f983a9d4e81807e8453780cb68d" alt=""><figcaption></figcaption></figure></div>
{% endstep %}

{% step %}

#### MiniMax-M2.7 ausführen

Die Inferenzparameter sollten bei Verwendung von Unsloth Studio automatisch gesetzt werden, Sie können sie jedoch weiterhin manuell ändern. Sie können auch die Kontextlänge, die Chat-Vorlage und andere Einstellungen bearbeiten.

Weitere Informationen finden Sie in unserem [Unsloth-Studio-Inferenzleitfaden](/docs/de/neu/studio/chat.md).
{% endstep %}
{% endstepper %}

### ✨ In llama.cpp ausführen

{% hint style="warning" %}
Verwenden Sie NICHT CUDA 13.2, um irgendein Modell auszuführen, da dies zu Kauderwelsch oder schlechten Ausgaben führen kann. NVIDIA arbeitet an einer Lösung.
{% endhint %}

{% stepper %}
{% step %}
Holen Sie sich das neueste `llama.cpp` auf [GitHub hier](https://github.com/ggml-org/llama.cpp). Sie können auch den Build-Anweisungen unten folgen. Ändern Sie `-DGGML_CUDA=ON` zu `-DGGML_CUDA=OFF` wenn Sie keine GPU haben oder nur CPU-Inferenz möchten. **Für Apple Mac / Metal-Geräte**, setzen Sie `-DGGML_CUDA=OFF` und fahren Sie dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

{% code overflow="wrap" %}

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \\
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

{% endcode %}
{% endstep %}

{% step %}
Wenn Sie `llama.cpp` direkt zum Laden von Modellen verwenden möchten, können Sie Folgendes tun: (:IQ4\_XS) ist der Quantisierungstyp. Sie können auch über Hugging Face herunterladen (Punkt 3). Das ist ähnlich wie `ollama run` . Verwenden Sie `export LLAMA_CACHE="folder"` um `llama.cpp` zu zwingen, an einem bestimmten Ort zu speichern. Denken Sie daran, dass das Modell nur eine maximale Kontextlänge von 200K hat.

Folgen Sie diesem für **die meisten Standard-** Anwendungsfälle:

```bash
export LLAMA_CACHE="unsloth/MiniMax-M2.7-GGUF"
./llama.cpp/llama-cli \\
    -hf unsloth/MiniMax-M2.7-GGUF:UD-IQ4_XS \\
    --temp 1.0 \\
    --top-p 0.95 \\
    --top-k 40
```

{% endstep %}

{% step %}
Laden Sie das Modell über herunter (nach der Installation von `pip install huggingface_hub hf_transfer` ). Sie können UD-IQ4\_XS (dynamischer 4-Bit-Quant) oder andere quantisierte Versionen wie `UD-Q6_K_XL` wählen. Wir empfehlen, unseren 4-Bit-Dynamic-Quant UD-IQ4\_XS zu verwenden, um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe [Hugging Face Hub, XET-Debugging](/docs/de/grundlagen/troubleshooting-and-faqs/hugging-face-hub-xet-debugging.md)

```bash
hf download unsloth/MiniMax-M2.7-GGUF \\
    --local-dir unsloth/MiniMax-M2.7-GGUF \\
    --include "*UD-IQ4_XS*" # Verwenden Sie "*Q8_0*" für 8-Bit
```

{% endstep %}

{% step %}
Sie können bearbeiten `--threads 32` für die Anzahl der CPU-Threads, `--ctx-size 16384` für die Kontextlänge, `--n-gpu-layers 2` für GPU-Offloading, für wie viele Schichten. Versuchen Sie, dies anzupassen, wenn Ihrem GPU der Speicher ausgeht. Entfernen Sie es auch, wenn Sie nur CPU-Inferenz haben.

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \\
    --model unsloth/MiniMax-M2.7-GGUF/UD-IQ4_XS/MiniMax-M2.7-UD-IQ4_XS-00001-of-00004.gguf \\
    --temp 1.0 \\
    --top-p 0.95 \\
    --top-k 40
```

{% endcode %}
{% endstep %}
{% endstepper %}

#### 🦙 Llama-Server & OpenAIs Completion-Bibliothek

Um MiniMax-M2.7 produktiv bereitzustellen, verwenden wir `llama-server` oder die OpenAI-API. In einem neuen Terminal, z. B. via tmux, stellen Sie das Modell bereit mit:

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-server \\
    --model unsloth/MiniMax-M2.7-GGUF/UD-IQ4_XS/MiniMax-M2.7-UD-IQ4_XS-00001-of-00004.gguf \\
    --alias "unsloth/MiniMax-M2.7" \\
    --prio 3 \\
    --temp 1.0 \\
    --top-p 0.95 \\
    --min-p 0.01 \\
    --top-k 40 \\
    --port 8001
```

{% endcode %}

Dann geben Sie in einem neuen Terminal nach `pip install openai`Folgendes ein:

{% code overflow="wrap" %}

```python
from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/MiniMax-M2.7",
    messages = [{"role": "user", "content": "Erstelle ein Snake-Spiel."},],
)
print(completion.choices[0].message.content)
```

{% endcode %}

## 📊 Benchmarks

### GGUF-Benchmarks

Da MiniMax-M2.7 dieselbe Architektur wie MiniMax-M2.5 verwendet, sollten die GGUF-Quantisierungs-Benchmarks für M2.7 denen von M2.5 sehr ähnlich sein. Daher beziehen wir uns auf den früheren Quant-Benchmark, der für M2.5 durchgeführt wurde.

<figure><img src="/files/842f81160683e416edff8cb6476057d37328d1e2" alt=""><figcaption></figcaption></figure>

[Benjamin Marie (Drittanbieter) benchmarkte](https://x.com/bnjmn_marie/status/2027043753484021810/photo/1) **MiniMax-M2.5** unter Verwendung von **Unsloth-GGUF-Quantisierungen** auf einer **750-Prompt-Mischsuite** (LiveCodeBench v6, MMLU Pro, GPQA, Math500) und berichtete sowohl über **Gesamtgenauigkeit** und **relative Fehlerzunahme** (wie viel häufiger das quantisierte Modell im Vergleich zum Original Fehler macht).

Unsloth-Quants schneiden, unabhängig von ihrer Präzision, sowohl bei der Genauigkeit als auch beim relativen Fehler deutlich besser ab als ihre nicht von Unsloth stammenden Gegenstücke (obwohl sie 8 GB kleiner sind).

**Wichtige Ergebnisse:**

* **Bester Kompromiss aus Qualität und Größe hier: `unsloth UD-Q4_K_XL`.**\
  Es ist dem Original am nächsten: nur **6,0 Punkte** weniger, und „nur“ **+22.8%** mehr Fehler als die Basisversion.
* **Andere Unsloth-Q4-Quants liegen eng beieinander (\~64,5–64,9 Genauigkeit).**\
  `IQ4_NL`, `MXFP4_MOE`, und `UD-IQ2_XXS` sind auf diesem Benchmark praktisch von gleicher Qualität, mit **\~33–35 %** mehr Fehlern als das Original.
* Unsloth-GGUFs schneiden deutlich besser ab als andere nicht von Unsloth stammende GGUFs, z. B. siehe `lmstudio-community - Q4_K_M` (obwohl sie 8 GB kleiner sind) und `AesSedai - IQ3_S`.

### Offizielle Benchmarks

<figure><img src="/files/e0bd764465b91760e6b594174f916ea2e97a32f3" alt=""><figcaption></figcaption></figure>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/de/modelle/tutorials/minimax-m27.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.