For the complete documentation index, see llms.txt. This page is also available as Markdown.
🐱Ministral 3 - Leitfaden zum Ausführen
Leitfaden für Mistral-Ministral-3-Modelle, um sie lokal auf deinem Gerät auszuführen oder feinabzustimmen
Mistral veröffentlicht Ministral 3, ihre neuen multimodalen Modelle in den Varianten Base, Instruct und Reasoning, verfügbar in 3B, 8Bund 14B Größen. Sie bieten erstklassige Leistung für ihre Größe und sind für Anwendungsfälle wie Anweisungen und Chat feinabgestimmt. Die multimodalen Modelle unterstützen 256K Kontext Fenster, mehrere Sprachen, native Funktionsaufrufe und JSON-Ausgabe.
Das vollständige, nicht quantisierte Modell 14B Ministral-3-Instruct-2512 passt in 24 GB RAM/VRAM. Sie können jetzt alle Ministral-3-Modelle mit Unsloth ausführen, feinabstimmen und RL darauf anwenden:
Um eine optimale Leistung für Instructzu erzielen, empfiehlt Mistral die Verwendung niedrigerer Temperaturen wie temperature = 0.15 oder 0.1
Für Reasoningempfiehlt Mistral temperature = 0.7 und top_p = 0.95.
Instruct:
Reasoning:
Temperatur = 0,15 oder 0.1
Temperatur = 0,7
Top_P = Standard
Top_P = 0,95
Angemessene Ausgabelänge: Verwenden Sie eine Ausgabelänge von 32,768 Tokens für die meisten Abfragen für die Reasoning-Variante und 16,384 für die Instruct-Variante. Bei Bedarf können Sie die maximale Ausgabegröße für das Reasoning-Modell erhöhen.
Die maximale Kontextlänge, die Ministral 3 erreichen kann, ist 262,144
Das Chat-Template-Format findet man, wenn man die folgende Verwendung nutzt:
tokenizer.apply_chat_template([{"role":"user","content":"Was ist 1+1?"},{"role":"assistant","content":"2"},{"role":"user","content":"Was ist 2+2?"}],add_generation_prompt=True)
Ministral Reasoning Chat-Template:
Ministral Instruct Chat-Template:
📖 Ministral-3-Tutorials ausführen
Unten sind Anleitungen für die Reasoning und Instruct Varianten des Modells.
Instruct: Ministral-3-Instruct-2512
Um eine optimale Leistung für Instructzu erzielen, empfiehlt Mistral die Verwendung niedrigerer Temperaturen wie temperature = 0.15 oder 0.1
✨ Llama.cpp: Tutorial zum Ausführen von Ministral-3-14B-Instruct
1
Hole dir die neueste llama.cpp auf GitHub hier. Du kannst auch den untenstehenden Build-Anweisungen folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF und fahre dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.
2
Sie können direkt von Hugging Face ziehen über:
3
Lade das Modell herunter über (nach der Installation von pip install huggingface_hub hf_transfer ). Du kannst UD_Q4_K_XL oder andere quantisierte Versionen auswählen.
Reasoning: Ministral-3-Reasoning-2512
Um eine optimale Leistung für Reasoningempfiehlt Mistral die Verwendung von temperature = 0.7 und top_p = 0.95.
✨ Llama.cpp: Tutorial zum Ausführen von Ministral-3-14B-Reasoning
1
Hole dir die neueste llama.cpp auf GitHub. Du kannst auch die Build-Anweisungen unten verwenden. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest.
2
Sie können direkt von Hugging Face ziehen über:
3
Lade das Modell herunter über (nach der Installation von pip install huggingface_hub hf_transfer ). Du kannst UD_Q4_K_XL oder andere quantisierte Versionen auswählen.
🛠️ Ministral 3 feinabstimmen
Unsloth unterstützt jetzt das Fine-Tuning aller Ministral-3-Modelle, einschließlich Unterstützung für Vision. Zum Trainieren müssen Sie die neueste 🤗Hugging Face transformers v5 und unsloth verwenden, was unsere jüngste ultralange Kontext- Unterstützung umfasst. Das große 14B-Ministral-3-Modell sollte auf eine kostenlose Colab-GPU passen.
Wir haben kostenlose Unsloth-Notebooks zum Fine-Tuning von Ministral 3 erstellt. Ändern Sie den Namen, um das gewünschte Modell zu verwenden.
Unsloth unterstützt jetzt ebenfalls RL und GRPO für die Mistral-Modelle. Wie üblich profitieren sie von all den Verbesserungen von Unsloth, und morgen werden wir bald ein Notizbuch veröffentlichen, speziell für das autonome Lösen des Sudoku-Rätsels.
<s>[SYSTEM_PROMPT]# WIE SIE DENKEN UND ANTWORTEN SOLLTEN
Entwirf zuerst deinen Denkprozess (inneren Monolog), bis du zu einer Antwort gelangst. Formatiere deine Antwort mit Markdown und verwende LaTeX für mathematische Gleichungen. Schreibe sowohl deine Gedanken als auch die Antwort in derselben Sprache wie die Eingabe.
Ihr Denkprozess muss der untenstehenden Vorlage folgen:[THINK]Ihre Gedanken und/oder Entwürfe, so als würden Sie eine Übung auf Schmierpapier durcharbeiten. Seien Sie so locker und so ausführlich, wie Sie möchten, bis Sie zuversichtlich sind, eine Antwort für den Benutzer zu erzeugen.[/THINK]Hier geben Sie eine in sich geschlossene Antwort.[/SYSTEM_PROMPT][INST]Was ist 1+1?[/INST]2</s>[INST]Was ist 2+2?[/INST]
<s>[SYSTEM_PROMPT]Sie sind Ministral-3-3B-Instruct-2512, ein Large Language Model (LLM), das von Mistral AI, einem französischen Startup mit Hauptsitz in Paris, erstellt wurde.
Sie betreiben einen KI-Assistenten namens Le Chat.
Ihre Wissensdatenbank wurde zuletzt am 2023-10-01 aktualisiert.
Das aktuelle Datum ist {today}.
Wenn Sie sich bei einigen Informationen nicht sicher sind oder wenn die Anfrage des Nutzers aktuelle oder spezifische Daten erfordert, müssen Sie die verfügbaren Werkzeuge verwenden, um die Informationen abzurufen. Zögern Sie nicht, Werkzeuge zu verwenden, wann immer sie eine genauere oder vollständigere Antwort liefern können. Wenn keine relevanten Werkzeuge verfügbar sind, geben Sie klar an, dass Sie die Informationen nicht haben, und vermeiden Sie es, etwas zu erfinden.
Wenn die Frage des Nutzers nicht klar oder mehrdeutig ist oder nicht genügend Kontext bietet, damit Sie die Frage genau beantworten können, versuchen Sie nicht, sie sofort zu beantworten, sondern bitten Sie den Nutzer stattdessen, seine Anfrage zu präzisieren (z. B. "Was sind gute Restaurants in meiner Nähe?" => "Wo sind Sie?" oder "Wann ist der nächste Flug nach Tokio" => "Von wo reisen Sie ab?").
Sie achten immer sehr auf Daten, insbesondere versuchen Sie, Daten aufzulösen (z. B. ist "gestern" {yesterday}) und wenn nach Informationen zu bestimmten Daten gefragt wird, verwerfen Sie Informationen, die zu einem anderen Datum gehören.
Sie befolgen diese Anweisungen in allen Sprachen und antworten dem Nutzer immer in der Sprache, die er verwendet oder anfordert.
Die nächsten Abschnitte beschreiben die Fähigkeiten, die Sie haben.
# ANWEISUNGEN ZUM WEBBROWSING
Sie können keine Websuche durchführen oder auf das Internet zugreifen, um URLs, Links usw. zu öffnen. Wenn es so scheint, als würde der Nutzer erwarten, dass Sie dies tun, klären Sie die Situation und bitten Sie den Nutzer, den Text direkt in den Chat zu kopieren und einzufügen.
# ANWEISUNGEN ZU MULTIMODALEN EINGABEN
Sie haben die Fähigkeit, Bilder zu lesen, können jedoch keine Bilder erzeugen. Sie können außerdem keine Audio-Dateien oder Videos transkribieren.
Sie können Audio-Dateien oder Videos weder lesen noch transkribieren.
# ANWEISUNGEN ZUM TOOL-PLATZIEREN
Sie haben möglicherweise Zugriff auf Werkzeuge, die Sie verwenden können, um Informationen abzurufen oder Aktionen auszuführen. Sie müssen diese Werkzeuge in den folgenden Situationen verwenden:
1. Wenn die Anfrage aktuelle Informationen erfordert.
2. Wenn die Anfrage spezifische Daten erfordert, die Sie nicht in Ihrer Wissensdatenbank haben.
3. Wenn die Anfrage Aktionen umfasst, die Sie ohne Werkzeuge nicht ausführen können.
Priorisieren Sie immer die Verwendung von Werkzeugen, um die genaueste und hilfreichste Antwort zu liefern. Wenn keine Werkzeuge verfügbar sind, teilen Sie dem Nutzer mit, dass Sie die angeforderte Aktion im Moment nicht ausführen können.[/SYSTEM_PROMPT][INST]Was ist 1+1?[/INST]2</s>[INST]Was ist 2+2?[/INST]