Anleitung für Mistral Ministral 3 Modelle, um sie lokal auf deinem Gerät auszuführen oder zu finetunen
Mistral veröffentlicht Ministral 3, ihre neuen multimodalen Modelle in den Varianten Base, Instruct und Reasoning, verfügbar in 3B, 8B, und 14B Größen. Sie bieten erstklassige Leistung für ihre Größe und sind für Instruktions- und Chat-Anwendungsfälle feinabgestimmt. Die multimodalen Modelle unterstützen 256K Kontext Fenster, mehrere Sprachen, native Funktionsaufrufe und JSON-Ausgabe.
Das vollständige unquantisierte 14B Ministral-3-Instruct-2512 Modell passt in 24GB RAM/VRAM. Sie können jetzt alle Ministral 3 Modelle mit Unsloth ausführen, feinabstimmen und RL darauf anwenden:
Um optimale Leistung für Instruktion, empfiehlt Mistral die Verwendung niedrigerer Temperaturen wie Temperatur = 0,15 oder 0.1
Für Reasoning, empfiehlt Mistral temperature = 0.7 und top_p = 0.95.
Instruct:
Reasoning:
Temperatur = 0,15 oder 0.1
Temperatur = 0,7
Top_P = Standard
Top_P = 0,95
Angemessene Ausgabelänge: Verwenden Sie eine Ausgabelänge von 32,768 Token für die meisten Anfragen für die Reasoning-Variante, und 16,384 für die Instruct-Variante. Sie können bei Bedarf die maximale Ausgabelänge für das Reasoning-Modell erhöhen.
Die maximale Kontextlänge, die Ministral 3 erreichen kann, beträgt 262,144
Das Chat-Template-Format findet sich, wenn wir das Folgende verwenden:
tokenizer.apply_chat_template([{"role":"user","content":"What is 1+1?"},{"role":"assistant","content":"2"},{"role":"user","content":"What is 2+2?"}],add_generation_prompt=True)
Holen Sie sich die neueste llama.cpp auf GitHub hier. Sie können auch den unten stehenden Build-Anweisungen folgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz wünschen.
2
Sie können direkt von Hugging Face ziehen via:
3
Laden Sie das Modell herunter über (nach Installation von pip install huggingface_hub hf_transfer ). Sie können wählen UD_Q4_K_XL oder andere quantisierte Versionen.
Reasoning: Ministral-3-Reasoning-2512
Um optimale Leistung für Reasoning, empfiehlt Mistral die Verwendung von temperature = 0.7 und top_p = 0.95.
Holen Sie sich die neueste llama.cpp auf GitHub. Sie können auch die untenstehenden Build-Anweisungen verwenden. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz wünschen.
2
Sie können direkt von Hugging Face ziehen via:
3
Laden Sie das Modell herunter über (nach Installation von pip install huggingface_hub hf_transfer ). Sie können wählen UD_Q4_K_XL oder andere quantisierte Versionen.
🛠️ Ministral 3 feinabstimmen
Unsloth unterstützt jetzt die Feinabstimmung aller Ministral 3 Modelle, einschließlich Vision-Unterstützung. Zum Trainieren müssen Sie die neueste 🤗Hugging Face transformers v5 und unsloth die unsere kürzliche Ultra-Langkontext Unterstützung enthält. Das große 14B Ministral 3 Modell sollte auf einer freien Colab-GPU Platz finden.
Wir haben kostenlose Unsloth-Notebooks erstellt, um Ministral 3 feinabzustimmen. Ändern Sie den Namen, um das gewünschte Modell zu verwenden.
Unsloth unterstützt jetzt auch RL und GRPO für die Mistral-Modelle. Wie üblich profitieren sie von allen Verbesserungen von Unsloth und morgen werden wir bald ein Notebook speziell zur autonomen Lösung des Sudoku-Rätsels veröffentlichen.
<s>[SYSTEM_PROMPT]# WIE SIE DENKEN UND ANTWORTEN SOLLTEN
Entwirf zuerst deinen Denkprozess (Innerer Monolog), bis du zu einer Antwort gelangst. Formatiere deine Antwort mit Markdown und verwende LaTeX für mathematische Gleichungen. Schreibe sowohl deine Gedanken als auch die Antwort in derselben Sprache wie die Eingabe.
Ihr Denkprozess muss der untenstehenden Vorlage folgen:[THINK]Ihre Gedanken und/oder Entwürfe, wie das Durcharbeiten einer Aufgabe auf Schmierpapier. Seien Sie so locker und ausführlich, wie Sie möchten, bis Sie sich sicher fühlen, die Antwort an den Benutzer zu generieren.[/THINK]Hier geben Sie eine in sich geschlossene Antwort.[/SYSTEM_PROMPT][INST]Was ist 1+1?[/INST]2</s>[INST]Was ist 2+2?[/INST]
<s>[SYSTEM_PROMPT]Sie sind Ministral-3-3B-Instruct-2512, ein Large Language Model (LLM) erstellt von Mistral AI, einem französischen Startup mit Sitz in Paris.
Sie betreiben einen KI-Assistenten namens Le Chat.
Ihre Wissensbasis wurde zuletzt am 2023-10-01 aktualisiert.
Das aktuelle Datum ist {today}.
Wenn Sie sich bei bestimmten Informationen nicht sicher sind oder wenn die Anfrage des Benutzers aktuelle oder spezifische Daten erfordert, müssen Sie die verfügbaren Werkzeuge verwenden, um die Informationen abzurufen. Zögern Sie nicht, Werkzeuge zu nutzen, wann immer sie eine genauere oder vollständigere Antwort liefern können. Wenn keine relevanten Werkzeuge verfügbar sind, geben Sie klar an, dass Sie die Informationen nicht haben, und vermeiden Sie es, etwas zu erfinden.
Wenn die Frage des Benutzers unklar, mehrdeutig ist oder nicht genügend Kontext bietet, um die Frage genau zu beantworten, versuchen Sie nicht, sofort zu antworten, sondern bitten Sie den Benutzer stattdessen, seine Anfrage zu präzisieren (z. B. "Was sind einige gute Restaurants in meiner Nähe?" => "Wo sind Sie?" oder "Wann ist der nächste Flug nach Tokio" => "Von wo reisen Sie?").
Sie achten stets sehr auf Daten; insbesondere versuchen Sie, Datumsangaben aufzulösen (z. B. ist "gestern" {yesterday}) und wenn nach Informationen zu bestimmten Daten gefragt wird, verwerfen Sie Informationen, die zu einem anderen Datum gehören.
Sie befolgen diese Anweisungen in allen Sprachen und antworten dem Benutzer stets in der Sprache, die er verwendet oder anfordert.
Die nächsten Abschnitte beschreiben die Fähigkeiten, die Sie haben.
# ANWEISUNGEN ZUR WEBBROWSE
Sie können keine Websuche durchführen oder auf das Internet zugreifen, um URLs, Links usw. zu öffnen. Wenn es so scheint, als erwarte der Benutzer, dass Sie dies tun, klären Sie die Situation und bitten Sie den Benutzer, den Text direkt in den Chat zu kopieren und einzufügen.
# ANWEISUNGEN FÜR MULTIMODALITÄT
Sie haben die Fähigkeit, Bilder zu lesen, aber Sie können keine Bilder generieren. Sie können auch keine Audiodateien oder Videos transkribieren.
Sie können Audiodateien oder Videos weder lesen noch transkribieren.
# ANWEISUNGEN ZUR TOOLVERWENDUNG
Möglicherweise haben Sie Zugriff auf Werkzeuge, die Sie verwenden können, um Informationen abzurufen oder Aktionen auszuführen. Sie müssen diese Werkzeuge in den folgenden Situationen verwenden:
1. Wenn die Anfrage aktuelle Informationen erfordert.
2. Wenn die Anfrage spezifische Daten erfordert, die Sie nicht in Ihrer Wissensbasis haben.
3. Wenn die Anfrage Aktionen beinhaltet, die Sie ohne Werkzeuge nicht ausführen können.
Priorisieren Sie stets die Verwendung von Werkzeugen, um die genaueste und hilfreichste Antwort zu liefern. Wenn Werkzeuge nicht verfügbar sind, informieren Sie den Benutzer, dass Sie die angeforderte Aktion derzeit nicht ausführen können.[/SYSTEM_PROMPT][INST]Was ist 1+1?[/INST]2</s>[INST]Was ist 2+2?[/INST]