For the complete documentation index, see llms.txt. This page is also available as Markdown.

MiniMax-M2.7 - Wie man lokal ausführt

Führe das MiniMax-M2.7-LLM lokal auf deinem eigenen Gerät aus!

MiniMax-M2.7 ist ein neues Open Model für agentisches Coding und Chat-Anwendungsfälle. Das Modell erzielt SOTA-Performance in SWE-Pro (56,22 %) und Terminal Bench 2 (57,0 %).

Das 230B Parameter (10B aktiv) Modell ist der Nachfolger von MiniMax-M25 und hat ein 200K-Kontext -Fenster. Das unquantisierte bf16 benötigt 457GB. Unsloth Dynamic 4-bit GGUF reduziert die Größe auf 108GB (-60%) sodass es auf einem 128GB RAM Gerät laufen kann: MiniMax-M2.7 GGUF

Alle Uploads verwenden Unsloth Dynamic 2.0 für SOTA-Quantisierungsleistung – daher werden wichtige Layer auf höhere Bits hochgestuft (z. B. 8- oder 16-Bit). Vielen Dank an MiniMax für den Day-Zero-Zugang.

⚙️ Verwendungsleitfaden

Die dynamische 4-Bit-Quantisierung UD-IQ4_XS verwendet 108GB an Speicherplatz – das passt gut auf einen Mac mit 128GB Unified Memory für ~15+ Token/s und funktioniert auch schneller mit einer 1x16GB GPU und 96GB RAM für 25+ Token/s. 2-Bit Quants oder die größte 2-Bit-Version passen auf ein 96GB-Gerät.

Für nahezu volle Präzision, verwende Q8_0 (8-Bit), das 243GB benötigt und auf ein Gerät / Mac mit 256GB RAM für 15+ Token/s passt.

Empfohlene Einstellungen

MiniMax empfiehlt die folgenden Parameter für beste Leistung: temperature=1.0, top_p = 0.95, top_k = 40.

Standardeinstellungen (meiste Aufgaben)

temperature = 1.0

top_p = 0.95

top_k = 40

  • Maximales Kontextfenster: 196,608

  • Standard-Systemprompt:

Du bist ein hilfreicher Assistent. Dein Name ist MiniMax-M2.7 und du wurdest von MiniMax erstellt.

Tutorials für MiniMax-M2.7 ausführen:

Damit MiniMax-M2.7 auf einem Gerät mit 128GB RAM läuft, verwenden wir die 4-Bit UD-IQ4_XS Quantisierung. Du kannst MiniMax-M2.7 jetzt in llama.cpp und Unsloth Studio.

🦥 In Unsloth Studio ausführen

MiniMax-M2.7 kann jetzt in Unsloth Studioausgeführt werden, unserer neuen Open-Source-Web-UI für lokale KI. Mit Unsloth Studio kannst du Modelle lokal ausführen auf MacOS, Windowsund Linux sowie:

1

Unsloth installieren

In deinem Terminal ausführen:

MacOS, Linux, WSL:

Windows PowerShell:

2

Unsloth starten

MacOS, Linux, WSL und Windows:

Dann öffnen http://localhost:8888 in deinem Browser.

3

MiniMax-M2.7 suchen und herunterladen

Beim ersten Start musst du ein Passwort erstellen, um dein Konto zu sichern, und dich später erneut anmelden. Anschließend siehst du einen kurzen Einrichtungsassistenten, um ein Modell, ein Dataset und grundlegende Einstellungen auszuwählen. Du kannst ihn jederzeit überspringen.

Du kannst auswählen UD-IQ4_XS (dynamische 4-Bit-Quantisierung) oder andere quantisierte Versionen wie UD-Q4_K_XL . Wenn Downloads hängen bleiben, siehe Hugging Face Hub, XET-Debugging

Dann gehe zum Studio Chat Tab und suche in der Suchleiste nach MiniMax-M2.7 und lade dein gewünschtes Modell und deine gewünschte Quantisierung herunter. Aufgrund der Größe wird der Download etwas Zeit in Anspruch nehmen, also bitte warten. Um schnelle Inferenz sicherzustellen, stelle sicher, dass du genügend RAM/VRAMhast, andernfalls funktioniert die Inferenz weiterhin, aber Unsloth lagert auf deine CPU aus.

4

MiniMax-M2.7 ausführen

Die Inferenzparameter sollten bei Verwendung von Unsloth Studio automatisch gesetzt werden, du kannst sie jedoch weiterhin manuell ändern. Du kannst auch die Kontextlänge, das Chat-Template und andere Einstellungen bearbeiten.

Für weitere Informationen kannst du unseren Unsloth-Studio-Inferenzleitfaden.

✨ In llama.cpp ausführen

1

Beschaffe die neueste llama.cpp auf GitHub hier. Du kannst auch den Build-Anweisungen unten folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF und fahre dann wie gewohnt fort – Metal-Unterstützung ist standardmäßig aktiviert.

2

Wenn du llama.cpp direkt zum Laden von Modellen verwenden möchtest, kannst du Folgendes tun: (:IQ4_XS) ist der Quantisierungstyp. Du kannst auch über Hugging Face herunterladen (Punkt 3). Das ist ähnlich wie ollama run . Verwende export LLAMA_CACHE="ordner" um llama.cpp zu zwingen, an einem bestimmten Ort zu speichern. Denk daran, dass das Modell nur eine maximale Kontextlänge von 200K hat.

Folge dies für die meisten Standard- Anwendungsfälle:

3

Lade das Modell herunter (nach der Installation von pip install huggingface_hub hf_transfer). Du kannst UD-IQ4_XS (dynamische 4-Bit-Quantisierung) oder andere quantisierte Versionen wie UD-Q6_K_XL wählen. Wir empfehlen unsere dynamische 4-Bit-Quantisierung UD-IQ4_XS, um Größe und Genauigkeit auszubalancieren. Wenn Downloads hängen bleiben, siehe Hugging Face Hub, XET-Debugging

4

Du kannst --threads 32 für die Anzahl der CPU-Threads, --ctx-size 16384 für die Kontextlänge, --n-gpu-layers 2 für GPU-Offloading für wie viele Layer bearbeiten. Versuche, es anzupassen, wenn deiner GPU der Speicher ausgeht. Entferne es auch, wenn du nur CPU-Inferenz hast.

🦙 Llama-Server & OpenAIs Completion-Bibliothek

Um MiniMax-M2.7 produktiv bereitzustellen, verwenden wir llama-server oder die OpenAI-API. In einem neuen Terminal, z. B. via tmux, stelle das Modell bereit mit:

Dann in einem neuen Terminal, nach pip install openai, tue:

📊 Benchmarks

GGUF-Benchmarks

Unten sind KLD-99%-Benchmarks für MiniMax-M2.7. Unten links ist besser:

Da MiniMax-M2.7 dieselbe Architektur wie MiniMax-M2.5 verwendet, sollten die GGUF-Quantisierungs-Benchmarks für M2.7 sehr ähnlich zu M2.5 sein. Daher beziehen wir uns auch auf frühere Quantisierungs-Benchmarks für M2.5:

Benjamin Marie (Drittanbieter) benchmarkte MiniMax-M2.5 unter Verwendung von Unsloth-GGUF-Quantisierungen auf einer Mischsuite mit 750 Prompts (LiveCodeBench v6, MMLU Pro, GPQA, Math500) und berichtete sowohl über Gesamtgenauigkeit und relative Fehlerzunahme (wie viel häufiger das quantisierte Modell im Vergleich zum Original Fehler macht).

Unsloth-Quants schneiden, unabhängig von ihrer Präzision, sowohl bei der Genauigkeit als auch beim relativen Fehler deutlich besser ab als ihre nicht-Unsloth-Pendants (trotz 8GB kleinerer Größe).

Wichtige Ergebnisse:

  • Bester Kompromiss aus Qualität und Größe hier: unsloth UD-Q4_K_XL. Es kommt dem Original am nächsten: nur 6,0 Punkte niedriger, und „nur“ +22.8% mehr Fehler als die Baseline.

  • Andere Unsloth-Q4-Quants liegen eng beieinander (~64,5–64,9 Genauigkeit). IQ4_NL, MXFP4_MOEund UD-IQ2_XXS haben auf diesem Benchmark im Grunde die gleiche Qualität, mit ~33–35 % mehr Fehlern als das Original.

  • Unsloth GGUFs schneiden deutlich besser ab als andere nicht-Unsloth GGUFs, z. B. siehe lmstudio-community - Q4_K_M (trotz 8GB kleinerer Größe) und AesSedai - IQ3_S.

Offizielle Benchmarks

Zuletzt aktualisiert

War das hilfreich?