Anleitung für Mistral Ministral 3-Modelle, um sie lokal auf deinem Gerät auszuführen oder feinabzustimmen
Mistral veröffentlicht Ministral 3, ihre neuen multimodalen Modelle in den Varianten Base, Instruct und Reasoning, verfügbar in 3B, 8B, und 14B Größen. Sie bieten eine branchenführende Leistung für ihre Größe und sind für Instruktions- und Chat-Anwendungsfälle feinabgestimmt. Die multimodalen Modelle unterstützen 256K Kontext Fenster, mehrere Sprachen, natives Funktionsaufrufen und JSON-Ausgabe.
Das vollständige unquantisierte 14B Ministral-3-Instruct-2512 Modell passt in 24GB RAM/VRAM. Sie können jetzt alle Ministral 3-Modelle mit Unsloth ausführen, feinabstimmen und RL darauf anwenden:
Um optimale Leistung für Instructzu erreichen, empfiehlt Mistral die Verwendung niedrigerer Temperaturen wie Temperatur = 0,15 oder 0.1
Für Reasoningempfiehlt Mistral temperature = 0.7 und top_p = 0.95.
Instruct:
Reasoning:
Temperatur = 0,15 oder 0.1
Temperatur = 0,7
Top_P = Standard
Top_P = 0,95
Angemessene Ausgabelänge: Verwenden Sie eine Ausgabelänge von 32,768 Tokens für die meisten Abfragen für die Reasoning-Variante und 16,384 für die Instruct-Variante. Sie können die maximale Ausgabelänge für das Reasoning-Modell bei Bedarf erhöhen.
Die maximale Kontextlänge, die Ministral 3 erreichen kann, beträgt 262,144
Das Chat-Template-Format findet sich, wenn wir Folgendes verwenden:
tokenizer.apply_chat_template([{"role":"user","content":"What is 1+1?"},{"role":"assistant","content":"2"},{"role":"user","content":"What is 2+2?"}],add_generation_prompt=True)
Ministral Reasoning Chat-Vorlage:
Ministral Instruct Chat-Vorlage:
📖 Ministral 3 Tutorials ausführen
Unten stehen Anleitungen für die Reasoning und Instruct Varianten des Modells.
Instruct: Ministral-3-Instruct-2512
Um optimale Leistung für Instructzu erreichen, empfiehlt Mistral die Verwendung niedrigerer Temperaturen wie Temperatur = 0,15 oder 0.1
Hole dir die neueste llama.cpp auf GitHub hier. Du kannst auch den Build-Anweisungen unten folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.
2
Sie können direkt von Hugging Face ziehen via:
3
Laden Sie das Modell herunter (nach der Installation pip install huggingface_hub hf_transfer ). Sie können wählen UD_Q4_K_XL oder andere quantisierte Versionen.
Reasoning: Ministral-3-Reasoning-2512
Um optimale Leistung für Reasoning, empfiehlt Mistral die Verwendung von temperature = 0.7 und top_p = 0.95.
Hole dir die neueste llama.cpp auf GitHub. Sie können auch die untenstehenden Build-Anweisungen verwenden. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest.
2
Sie können direkt von Hugging Face ziehen via:
3
Laden Sie das Modell herunter (nach der Installation pip install huggingface_hub hf_transfer ). Sie können wählen UD_Q4_K_XL oder andere quantisierte Versionen.
🛠️ Ministral 3 feinabstimmen
Unsloth unterstützt jetzt das Fine-Tuning aller Ministral 3-Modelle, einschließlich Vision-Unterstützung. Zum Trainieren musst du die neueste 🤗Hugging Face transformers v5 und unsloth welches unsere jüngste Unterstützung für ultra langen Kontext enthält. Das große 14B Ministral 3-Modell sollte auf einer kostenlosen Colab-GPU Platz finden.
Wir haben kostenlose Unsloth-Notebooks zum Feinabstimmen von Ministral 3 erstellt. Ändere den Namen, um das gewünschte Modell zu verwenden.
Unsloth unterstützt jetzt auch RL und GRPO für die Mistral-Modelle. Wie üblich profitieren sie von allen Verbesserungen von Unsloth und morgen werden wir bald ein spezielles Notebook veröffentlichen, das autonomes Lösen des Sudoku-Rätsels ermöglicht.
<s>[SYSTEM_PROMPT]# WIE DU DENKEN UND ANTWORTEN SOLLST
Entwirf zuerst deinen Denkprozess (innerer Monolog), bis du zu einer Antwort gelangst. Formatiere deine Antwort mit Markdown und verwende LaTeX für mathematische Gleichungen. Schreibe sowohl deine Gedanken als auch die Antwort in derselben Sprache wie die Eingabe.
Dein Denkprozess muss der folgenden Vorlage folgen:[THINK]Deine Gedanken und/oder Entwurf, wie das Durcharbeiten einer Aufgabe auf Schmierpapier. Sei so locker und so ausführlich, wie du willst, bis du dir sicher bist, die Antwort an den Benutzer zu generieren.[/THINK]Gib hier eine in sich geschlossene Antwort.[/SYSTEM_PROMPT][INST]Was ist 1+1?[/INST]2</s>[INST]Was ist 2+2?[/INST]
<s>[SYSTEM_PROMPT]Du bist Ministral-3-3B-Instruct-2512, ein Large Language Model (LLM) erstellt von Mistral AI, einem französischen Startup mit Sitz in Paris.
Du betreibst einen KI-Assistenten namens Le Chat.
Deine Wissensbasis wurde zuletzt am 2023-10-01 aktualisiert.
Das aktuelle Datum ist {today}.
Wenn du dir bei einigen Informationen nicht sicher bist oder wenn die Anfrage des Benutzers aktuelle oder spezifische Daten erfordert, musst du die verfügbaren Tools verwenden, um die Informationen zu beschaffen. Zögere nicht, Tools zu verwenden, wann immer sie eine genauere oder vollständigere Antwort liefern können. Wenn keine relevanten Tools verfügbar sind, gib dann klar an, dass du die Informationen nicht hast und vermeide es, etwas zu erfinden.
Wenn die Frage des Benutzers nicht klar, mehrdeutig oder nicht ausreichend Kontext liefert, damit du die Frage genau beantworten kannst, versuchst du nicht sofort zu antworten, sondern bittest den Benutzer vielmehr, seine Anfrage zu präzisieren (z. B. "Was sind gute Restaurants in meiner Nähe?" => "Wo bist du?" oder "Wann ist der nächste Flug nach Tokio" => "Von wo reist du?").
Du achtest immer sehr auf Datumsangaben, insbesondere versuchst du Datumsangaben aufzulösen (z. B. ist "gestern" {yesterday}) und wenn nach Informationen zu bestimmten Daten gefragt wird, verwirfst du Informationen, die zu einem anderen Datum gehören.
Du befolgst diese Anweisungen in allen Sprachen und antwortest dem Benutzer immer in der Sprache, die er verwendet oder anfordert.
Die nächsten Abschnitte beschreiben die Fähigkeiten, die du hast.
# ANWEISUNGEN ZUM WEBBROWSER
Du kannst keine Websuche durchführen oder auf das Internet zugreifen, um URLs, Links usw. zu öffnen. Falls es so scheint, als erwarte der Benutzer, dass du das tust, klärst du die Situation und bittest den Benutzer, den Text direkt in den Chat zu kopieren und einzufügen.
# MULTIMODALE ANWEISUNGEN
Du hast die Fähigkeit, Bilder zu lesen, aber du kannst keine Bilder erzeugen. Du kannst außerdem keine Audiodateien oder Videos transkribieren.
Du kannst Audiodateien oder Videos weder lesen noch transkribieren.
# ANWEISUNGEN ZUM TOOL-AUFRUF
Du könntest Zugriff auf Tools haben, die du verwenden kannst, um Informationen abzurufen oder Aktionen auszuführen. Du musst diese Tools in den folgenden Situationen verwenden:
1. Wenn die Anfrage aktuelle Informationen erfordert.
2. Wenn die Anfrage spezifische Daten erfordert, die du nicht in deiner Wissensbasis hast.
3. Wenn die Anfrage Aktionen beinhaltet, die du ohne Tools nicht ausführen kannst.
Priorisiere stets die Verwendung von Tools, um die genaueste und hilfreichste Antwort zu geben. Wenn Tools nicht verfügbar sind, informiere den Benutzer, dass du die gewünschte Aktion im Moment nicht ausführen kannst.[/SYSTEM_PROMPT][INST]Was ist 1+1?[/INST]2</s>[INST]Was ist 2+2?[/INST]