💥Magistral: Ausführen & Finetunen

Lerne Magistral kennen - Mistrals neue Reasoning-Modelle.

Magistral-Small-2509 ist ein reasoning LLM, entwickelt von Mistral AI. Es glänzt beim Programmieren und in der Mathematik und unterstützt mehrere Sprachen. Magistral unterstützt ein Kontextfenster von 128k Tokens und wurde feinabgestimmt von Mistral-Small-3.2arrow-up-right. Magistral läuft problemlos lokal auf einer einzelnen RTX 4090 oder einem Mac mit 16 bis 24 GB RAM.

Magistral ausführen Anleitung Magistral feinabstimmen

circle-check

Alle Uploads verwenden Unsloth Dynamic 2.0 für SOTA 5-shot MMLU- und KL-Divergenz-Leistung, das heißt du kannst quantisierte Mistral-LLMs mit minimalem Genauigkeitsverlust ausführen und feinabstimmen.

Magistral-Small - Unsloth Dynamic Uploads:

🖥️ Magistral ausführen

⚙️ Offiziell empfohlene Einstellungen

Laut Mistral AI sind dies die empfohlenen Einstellungen für Inferenz:

  • Temperatur von: 0.7

  • Min_P von: 0.01 (optional, aber 0.01 funktioniert gut, der Standardwert von llama.cpp ist 0.1)

  • Setzen Sie top_p auf: 0.95

  • Ein 128k Kontextfenster wird unterstützt, aber kann die Leistung jenseits von 40kverschlechtern. Daher empfehlen wir, die maximale Länge auf 40k zu setzen, wenn du schlechte Leistung siehst.

Dies ist der empfohlene System-Prompt für Magistral 2509, 2507:

Dies ist der empfohlene System-Prompt für Magistral 2506:

circle-check
  • Mehrsprachig: Magistral unterstützt viele Sprachen, darunter: Englisch, Französisch, Deutsch, Griechisch, Hindi, Indonesisch, Italienisch, Japanisch, Koreanisch, Malaiisch, Nepalesisch, Polnisch, Portugiesisch, Rumänisch, Russisch, Serbisch, Spanisch, Schwedisch, Türkisch, Ukrainisch, Vietnamesisch, Arabisch, Bengali, Chinesisch und Farsi.

Modell testen

Mistral hat eigene „Vibe-Checking“-Prompts, die verwendet werden können, um Magistral zu evaluieren. Beachte, dass diese Tests auf dem vollständigen unquantisierten Modell basieren, du könntest sie jedoch auch auf quantisierten Versionen testen:

Einfach - Stelle sicher, dass sie immer funktionieren

Mittel - Sollte die meiste Zeit korrekt sein

Schwierig - Sollte sie manchmal richtig bekommen

Wir liefern einige Beispielausgaben am Ende des Blogs.

🦙 Tutorial: Wie man Magistral in Ollama ausführt

  1. Installieren Sie ollama falls du es noch nicht getan hast!

  1. Führe das Modell mit unserer dynamischen Quantisierung aus. Wir haben die Kontextlänge nicht automatisch gesetzt, daher wird standardmäßig Ollamas voreingestellte Kontextlänge verwendet. Beachte, dass du aufrufen kannst ollama serve &in einem anderen Terminal aufrufen kannst, falls es fehlschlägt! Wir fügen alle empfohlenen Parameter (Temperatur usw.) in params in unserem Hugging Face-Upload hinzu!

  2. Magistral unterstützt außerdem 40K Kontextlängen, daher ist es am besten, zu aktivieren KV-Cache-Quantisierungarrow-up-rightzu aktivieren. Wir verwenden 8bit-Quantisierung, die 50% Speicher spart. Du kannst auch "q4_0" oder "q8_0"

  3. Ollama setzt außerdem die Standard-Kontextlänge auf 4096, wie hier erwähntarrow-up-right. Verwenden Sie OLLAMA_CONTEXT_LENGTH=8192 um sie auf 8192 zu ändern. Magistral unterstützt bis zu 128K, aber 40K (40960) ist am meisten getestet.

📖 Tutorial: Wie man Magistral in llama.cpp ausführt

  1. Holen Sie sich die neueste llama.cpp auf GitHub hierarrow-up-right. Sie können auch den unten stehenden Build-Anweisungen folgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz wünschen.

  1. Wenn Sie llama.cpp direkt zum Laden von Modellen kannst du Folgendes tun: (:Q4_K_XL) ist der Quantisierungstyp. Du kannst auch über Hugging Face herunterladen (Punkt 3). Das ist ähnlich wie ollama run

circle-exclamation
  1. ODER lade das Modell herunter über (nach der Installation pip install huggingface_hub hf_transfer ). Du kannst UD-Q4_K_XL (Unsloth Dynamic), Q4_K_M oder andere quantisierte Versionen wählen (wie BF16 in voller Genauigkeit).

  1. Führe das Modell aus.

  2. Bearbeiten --threads -1 für die maximalen CPU-Threads, --ctx-size 40960 für die Kontextlänge (Magistral unterstützt 40K Kontextlänge!), --n-gpu-layers 99 für GPU-Offloading, wie viele Layer. Versuche es anzupassen, wenn deine GPU nicht genug Speicher hat. Entferne es auch, wenn du nur CPU-Inferenz hast. Wir verwenden außerdem 8bit-Quantisierung für den K-Cache, um den Speicherverbrauch zu reduzieren.

  3. Für Konversationsmodus:

circle-exclamation

Beispielausgaben

chevron-rightWie viele "r" sind in strawberry? [Korrekte Antwort = 3]hashtag
chevron-rightGenau wie viele Tage ist die Französische Revolution her? Heute ist der 4. Juni 2025. [Korrekte Antwort = 86.157 Tage]hashtag

das Modell kostenlos feintunen mit

circle-check

model_name = "unsloth/Magistral-Small-2509-unsloth-bnb-4bit", Xuan-Sonarrow-up-right device_map = "balanced", # Verwendet 2x Tesla T4s GGUF-Repoarrow-up-right Dynamische Float8-Checkpoints

Wir bieten außerdem 2 beliebte Formate für Float8-Checkpoints an, die einige unserer dynamischen Methoden nutzen, um maximale Genauigkeit zu erhalten:

vLLMs Float8-Format

können Kagglearrow-up-right

arrow-up-right

Wenn du eine alte Version von Unsloth hast und/oder lokal feinabstimmst, installiere die neueste Version von Unsloth:

💠

hierarrow-up-right.

Zuletzt aktualisiert

War das hilfreich?