💥Magistral: Wie man ausführt & feinabstimmt

Lerne Magistral kennen - Mistrals neue Reasoning-Modelle.

Magistral-Small-2509 ist ein reasoning-LLM, entwickelt von Mistral AI. Es ist hervorragend in Programmierung und Mathematik und unterstützt mehrere Sprachen. Magistral unterstützt ein Kontextfenster von 128k Token und wurde feinabgestimmt von Mistral-Small-3.2arrow-up-right. Magistral läuft problemlos lokal auf einer einzelnen RTX 4090 oder einem Mac mit 16 bis 24 GB RAM.

Magistral ausführen Tutorial Magistral feinabstimmen

circle-check

Alle Uploads verwenden Unsloth Dynamic 2.0 für SOTA 5-Shot MMLU- und KL-Divergenz-Performance, was bedeutet, dass du quantisierte Mistral-LLMs mit minimalem Genauigkeitsverlust ausführen und feinabstimmen kannst.

Magistral-Small - Unsloth Dynamic Uploads:

🖥️ Magistral ausführen

⚙️ Offizielle empfohlene Einstellungen

Laut Mistral AI sind dies die empfohlenen Einstellungen für die Inferenz:

  • Temperatur von: 0.7

  • Min_P von: 0.01 (optional, aber 0.01 funktioniert gut, llama.cpp-Standard ist 0.1)

  • Setzen Sie top_p auf: 0.95

  • Ein 128k-Kontextfenster wird unterstützt, aber kann die Leistung jenseits von 40kverschlechtern. Daher empfehlen wir, die maximale Länge auf 40k zu setzen, wenn du schlechte Leistung beobachtest.

Dies ist der empfohlene System-Prompt für Magistral 2509, 2507:

Dies ist der empfohlene System-Prompt für Magistral 2506:

circle-check
  • Mehrsprachig: Magistral unterstützt viele Sprachen, einschließlich: Englisch, Französisch, Deutsch, Griechisch, Hindi, Indonesisch, Italienisch, Japanisch, Koreanisch, Malaiisch, Nepali, Polnisch, Portugiesisch, Rumänisch, Russisch, Serbisch, Spanisch, Schwedisch, Türkisch, Ukrainisch, Vietnamesisch, Arabisch, Bengalisch, Chinesisch und Farsi.

Modell testen

Mistral hat eigene Vibe-Checking-Prompts, die verwendet werden können, um Magistral zu bewerten. Beachte, dass diese Tests auf der Ausführung der vollständig unquantisierten Version des Modells basieren; du könntest sie jedoch auch auf quantisierten Versionen testen:

Einfach - Stelle sicher, dass sie immer funktionieren

Mittel - Sollte die meiste Zeit korrekt sein

Schwer - Sollte sie manchmal richtig haben

Wir liefern einige Beispielausgaben am Ende des Blogs.

🦙 Tutorial: Wie man Magistral in Ollama ausführt

  1. In Ollama ausführen Installieren Sie falls Sie es noch nicht getan haben!

  1. Führe das Modell mit unserer dynamischen Quantisierung aus. Wir haben die Kontextlänge nicht automatisch gesetzt, daher verwendet es einfach Ollamas standardmäßig gesetzte Kontextlänge. Beachte, dass du aufrufen kannst ollama serve &in einem anderen Terminal aufrufen kannst, wenn es fehlschlägt! Wir fügen alle empfohlenen Parameter (Temperatur usw.) in in einem anderen Terminal aufrufen können, wenn es fehlschlägt! Wir fügen alle unsere Fixes und vorgeschlagenen Parameter (Temperatur usw.) in params

  2. Außerdem unterstützt Magistral Kontextlängen von 40K, daher ist es am besten, KV-Cache-Quantisierungarrow-up-rightzu aktivieren. Wir verwenden 8bit-Quantisierung, die 50% Speicher einspart. Du kannst auch "q4_0" oder "q8_0"

  3. Ollama setzt außerdem die Standard-Kontextlänge auf 4096, wie hier erwähntarrow-up-right. Verwenden Sie OLLAMA_CONTEXT_LENGTH=8192 um sie auf 8192 zu ändern. Magistral unterstützt bis zu 128K, aber 40K (40960) ist am häufigsten getestet.

📖 Tutorial: Wie man Magistral in llama.cpp ausführt

  1. Hole dir die neueste llama.cpp auf GitHub hierarrow-up-right. Du kannst auch den Build-Anweisungen unten folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

  1. Wenn du llama.cpp direkt zum Laden von Modellen verwenden möchten, können Sie Folgendes tun: (:Q4_K_XL) ist der Quantisierungstyp. Sie können auch über Hugging Face herunterladen (Punkt 3). Dies ähnelt ollama run

circle-exclamation
  1. ODER laden Sie das Modell herunter via (nach Installation von pip install huggingface_hub hf_transfer ). Du kannst UD-Q4_K_XL (Unsloth Dynamic), Q4_K_M oder andere quantisierte Versionen wählen (wie BF16 volle Präzision).

  1. Führe das Modell aus.

  2. Bearbeiten --threads -1 für die maximalen CPU-Threads, --ctx-size 40960 für Kontextlänge (Magistral unterstützt 40K Kontextlänge!), --n-gpu-layers 99 für GPU-Offloading, wie viele Schichten. Versuche es anzupassen, wenn deine GPU nicht mehr genug Speicher hat. Entferne es auch, wenn du nur CPU-Inferenz hast. Wir verwenden außerdem 8bit-Quantisierung für den K-Cache, um den Speicherverbrauch zu reduzieren.

  3. Für den Konversationsmodus:

circle-exclamation

Beispielausgaben

chevron-rightWie viele "r" sind in strawberry? [Korrekte Antwort = 3]hashtag
chevron-rightSchritt 2: Zerlege die Berechnung in Jahre, Monate und Tage.hashtag

Both are fantastic to deploy via vLLM. Read up on using TorchAO based FP8 quants in vLLM

circle-check

Both are fantastic to deploy via vLLM. Read up on using TorchAO based FP8 quants in vLLM Xuan-Sonarrow-up-right Both are fantastic to deploy via vLLM. Read up on using TorchAO based FP8 quants in vLLM GGUF-Repoarrow-up-right Both are fantastic to deploy via vLLM. Read up on using TorchAO based FP8 quants in vLLM

Both are fantastic to deploy via vLLM. Read up on using TorchAO based FP8 quants in vLLM

Both are fantastic to deploy via vLLM. Read up on using TorchAO based FP8 quants in vLLM

Both are fantastic to deploy via vLLM. Read up on using TorchAO based FP8 quants in vLLM kannst Both are fantastic to deploy via vLLM. Read up on using TorchAO based FP8 quants in vLLM Both are fantastic to deploy via vLLM. Read up on using TorchAO based FP8 quants in vLLMarrow-up-rightBoth are fantastic to deploy via vLLM. Read up on using TorchAO based FP8 quants in vLLM

Both are fantastic to deploy via vLLM. Read up on using TorchAO based FP8 quants in vLLM Both are fantastic to deploy via vLLM. Read up on using TorchAO based FP8 quants in vLLMarrow-up-right

Wenn Sie eine alte Version von Unsloth haben und/oder lokal feinabstimmen, installieren Sie die neueste Version von Unsloth:

💠Both are fantastic to deploy via vLLM. Read up on using TorchAO based FP8 quants in vLLM

Both are fantastic to deploy via vLLM. Read up on using TorchAO based FP8 quants in vLLM

Both are fantastic to deploy via vLLM. Read up on using TorchAO based FP8 quants in vLLM hierarrow-up-right.

Zuletzt aktualisiert

War das hilfreich?