💥Magistral: Wie man ausführt und feinabstimmt

Lerne Magistral kennen – Mistrals neue Reasoning-Modelle.

Magistral-Small-2509 ist ein Reasoning-LLM, das von Mistral AI entwickelt wurde. Es glänzt bei Programmierung und Mathematik und unterstützt mehrere Sprachen. Magistral unterstützt ein Kontextfenster von 128k Tokens und wurde feinabgestimmt von Mistral-Small-3.2. Magistral läuft lokal problemlos auf einer einzelnen RTX 4090 oder auf einem Mac mit 16 bis 24 GB RAM.

Magistral-Tutorial ausführen Magistral feinabstimmen

Alle Uploads verwenden Unsloth Dynamic 2.0 für SOTA-5-Shot-MMLU- und KL-Divergenz-Leistung, was bedeutet, dass du quantisierte Mistral-LLMs mit minimalem Genauigkeitsverlust ausführen und feinabstimmen kannst.

Magistral-Small - Unsloth Dynamic Uploads:

🖥️ Magistral ausführen

⚙️ Offizielle empfohlene Einstellungen

Laut Mistral AI sind dies die empfohlenen Einstellungen für die Inferenz:

  • Temperatur von: 0,7

  • Min_P von: 0,01 (optional, aber 0,01 funktioniert gut, der Standardwert von llama.cpp ist 0,1)

  • Setzen Sie top_p auf: 0,95

  • Ein Kontextfenster von 128k wird unterstützt, aber die Leistung könnte sich verschlechtern nach 40k. Wir empfehlen daher, die maximale Länge auf 40k zu setzen, wenn du eine schlechte Leistung bemerkst.

Dies ist der empfohlene System-Prompt für Magistral 2509, 2507:

Dies ist der empfohlene System-Prompt für Magistral 2506:

  • Mehrsprachig: Magistral unterstützt viele Sprachen, darunter: Englisch, Französisch, Deutsch, Griechisch, Hindi, Indonesisch, Italienisch, Japanisch, Koreanisch, Malaiisch, Nepali, Polnisch, Portugiesisch, Rumänisch, Russisch, Serbisch, Spanisch, Schwedisch, Türkisch, Ukrainisch, Vietnamesisch, Arabisch, Bengali, Chinesisch und Farsi.

Das Modell testen

Mistral hat eigene Vibe-Checking-Prompts, die verwendet werden können, um Magistral zu bewerten. Bedenke, dass diese Tests auf der Ausführung der vollständigen, nicht quantisierten Version des Modells basieren; du kannst sie jedoch auch auf quantisierten Versionen testen:

Einfach - Stelle sicher, dass sie immer funktionieren

Mittel - Sollte die meiste Zeit korrekt sein

Schwer - Sollte sie manchmal richtig lösen

Wir stellen einige Beispielausgaben am Ende des Blogs bereit.

🦙 Tutorial: So führst du Magistral in Ollama aus

  1. Installieren Sie ollama falls Sie das noch nicht getan haben!

  1. Führe das Modell mit unserer dynamischen Quantisierung aus. Wir haben die Kontextlänge nicht automatisch gesetzt, daher wird einfach die von Ollama standardmäßig gesetzte Kontextlänge verwendet. Beachte, dass du ollama serve &in einem anderen Terminal aufrufen können, falls es fehlschlägt! Wir beziehen alle empfohlenen Parameter (Temperatur usw.) in params in unserem Hugging-Face-Upload!

  2. Außerdem unterstützt Magistral Kontextlängen von 40K, daher ist es am besten, KV-Cache-Quantisierungzu aktivieren. Wir verwenden 8-Bit-Quantisierung, wodurch 50 % Speicher eingespart werden. Sie können auch "q4_0" oder "q8_0"

  3. Ollama setzt die standardmäßige Kontextlänge ebenfalls auf 4096, wie hier erwähnt. Verwenden Sie OLLAMA_CONTEXT_LENGTH=8192 zu verwenden, um sie auf 8192 zu ändern. Magistral unterstützt bis zu 128K, aber 40K (40960) wird am häufigsten getestet.

📖 Tutorial: So führst du Magistral in llama.cpp aus

  1. Hole dir die neueste llama.cpp auf GitHub hier. Du kannst auch den untenstehenden Build-Anweisungen folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF und fahre dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

  1. Wenn du llama.cpp um Modelle direkt zu laden, kannst du Folgendes tun: (:Q4_K_XL) ist der Quantisierungstyp. Du kannst auch über Hugging Face herunterladen (Punkt 3). Dies ist ähnlich wie ollama run

  1. ODER das Modell herunterladen über (nach der Installation von pip install huggingface_hub hf_transfer ). Du kannst UD-Q4_K_XL, (Unsloth Dynamic), Q4_K_M oder andere quantisierte Versionen wählen (wie BF16 Vollpräzision).

  1. Führen Sie das Modell aus.

  2. Bearbeiten --threads -1 für die maximale Anzahl an CPU-Threads, --ctx-size 40960 für die Kontextlänge (Magistral unterstützt eine Kontextlänge von 40K!), --n-gpu-layers 99 für GPU-Offloading bei der Anzahl der Schichten. Versuchen Sie, dies anzupassen, wenn Ihre GPU nicht mehr über genügend Speicher verfügt. Entfernen Sie es außerdem, wenn Sie nur CPU-Inferenz haben. Wir verwenden außerdem 8-Bit-Quantisierung für den K-Cache, um den Speicherverbrauch zu reduzieren.

  3. Für den Konversationsmodus:

Beispielausgaben

Wie viele "r" sind in strawberry? [Korrekte Antwort = 3]
Genau wie viele Tage ist die Französische Revolution her? Heute ist der 4. Juni 2025. [Korrekte Antwort = 86.157 Tage]

👁Visuelle Unterstützung

Für Magistral-Versionen vor September 2025, Xuan-Son von HuggingFace gezeigt in ihrem GGUF-Repo wie es tatsächlich möglich ist, den Vision-Encoder von Mistral 3.1 Instruct auf Devstral zu „aufpfropfen“, was bedeutet, dass man dasselbe auch für Magistral tun könnte! Nach unseren Tests und denen vieler Nutzer funktioniert es ziemlich gut! Wir haben auch unsere mmproj-Dateien hochgeladen, mit denen du Folgendes verwenden kannst:

🦥 Magistral mit Unsloth feinabstimmen

Genau wie Standard-Mistral-Modelle einschließlich Mistral Small 3.1 unterstützt Unsloth das Fine-Tuning von Magistral. Das Training ist 2x schneller, benötigt 70 % weniger VRAM und unterstützt 8x längere Kontextlängen. Magistral passt bequem auf eine 24-GB-VRAM-L4-GPU.

Magistral überschreitet die Speichergrenzen von 16 GB VRAM leicht, daher ist ein kostenloses Fine-Tuning auf Google Colab derzeit nicht möglich. Allerdings kannst du kannst das Modell kostenlos feinabstimmen mit Kaggle, das Zugriff auf zwei GPUs bietet.

Um auf neuen Reasoning-Traces feinabzustimmen, kannst du unser kostenloses Kaggle-Notebook für Magistral

Wenn Sie eine alte Version von Unsloth haben und/oder lokal feinabstimmen, installieren Sie die neueste Version von Unsloth:

💠Dynamische Float8-Checkpoints

Wir bieten außerdem 2 beliebte Formate für Float8-Checkpoints an, die ebenfalls einige unserer dynamischen Methoden nutzen, um maximale Genauigkeit zu erhalten:

Beide eignen sich hervorragend für den Einsatz über vLLM. Lies nach über die Verwendung von TorchAO-basierten FP8-Quantisierungen in vLLM hier.

Zuletzt aktualisiert

War das hilfreich?