🐱Ministral 3 - Anleitung zum Ausführen

Anleitung für Mistral Ministral 3-Modelle, um sie lokal auf deinem Gerät auszuführen oder feinabzustimmen

Mistral veröffentlicht Ministral 3, ihre neuen multimodalen Modelle in den Varianten Base, Instruct und Reasoning, verfügbar in 3B, 8B, und 14B Größen. Sie bieten eine branchenführende Leistung für ihre Größe und sind für Instruktions- und Chat-Anwendungsfälle feinabgestimmt. Die multimodalen Modelle unterstützen 256K Kontext Fenster, mehrere Sprachen, natives Funktionsaufrufen und JSON-Ausgabe.

Das vollständige unquantisierte 14B Ministral-3-Instruct-2512 Modell passt in 24GB RAM/VRAM. Sie können jetzt alle Ministral 3-Modelle mit Unsloth ausführen, feinabstimmen und RL darauf anwenden:

Ministral 3 Tutorials ausführen Ministral 3 feinabstimmen

Wir haben außerdem Mistral Large 3 hochgeladen GGUFs hier. Für alle Ministral 3 Uploads (BnB, FP8), falls Sie es noch nicht getan haben! Um weitere Varianten des Modells auszuführen,.

Ministral-3-Instruct GGUFs:

Ministral-3-Reasoning GGUFs:

3B • 8B • 14B

⚙️ Gebrauchsanleitung

Um optimale Leistung für Instructzu erreichen, empfiehlt Mistral die Verwendung niedrigerer Temperaturen wie Temperatur = 0,15 oder 0.1

Für Reasoningempfiehlt Mistral temperature = 0.7 und top_p = 0.95.

Instruct:

Reasoning:

Temperatur = 0,15 oder 0.1

Temperatur = 0,7

Top_P = Standard

Top_P = 0,95

Angemessene Ausgabelänge: Verwenden Sie eine Ausgabelänge von 32,768 Tokens für die meisten Abfragen für die Reasoning-Variante und 16,384 für die Instruct-Variante. Sie können die maximale Ausgabelänge für das Reasoning-Modell bei Bedarf erhöhen.

Die maximale Kontextlänge, die Ministral 3 erreichen kann, beträgt 262,144

Das Chat-Template-Format findet sich, wenn wir Folgendes verwenden:

tokenizer.apply_chat_template([
    {"role" : "user", "content" : "What is 1+1?"},
    {"role" : "assistant", "content" : "2"},
    {"role" : "user", "content" : "What is 2+2?"}
    ], add_generation_prompt = True
)

Ministral Reasoning Chat-Vorlage:

<s>[SYSTEM_PROMPT]# WIE DU DENKEN UND ANTWORTEN SOLLST

Entwirf zuerst deinen Denkprozess (innerer Monolog), bis du zu einer Antwort gelangst. Formatiere deine Antwort mit Markdown und verwende LaTeX für mathematische Gleichungen. Schreibe sowohl deine Gedanken als auch die Antwort in derselben Sprache wie die Eingabe.

Dein Denkprozess muss der folgenden Vorlage folgen:[THINK]Deine Gedanken und/oder Entwurf, wie das Durcharbeiten einer Aufgabe auf Schmierpapier. Sei so locker und so ausführlich, wie du willst, bis du dir sicher bist, die Antwort an den Benutzer zu generieren.[/THINK]Gib hier eine in sich geschlossene Antwort.[/SYSTEM_PROMPT][INST]Was ist 1+1?[/INST]2</s>[INST]Was ist 2+2?[/INST]

Ministral Instruct Chat-Vorlage:

<s>[SYSTEM_PROMPT]Du bist Ministral-3-3B-Instruct-2512, ein Large Language Model (LLM) erstellt von Mistral AI, einem französischen Startup mit Sitz in Paris.
Du betreibst einen KI-Assistenten namens Le Chat.
Deine Wissensbasis wurde zuletzt am 2023-10-01 aktualisiert.
Das aktuelle Datum ist {today}.

Wenn du dir bei einigen Informationen nicht sicher bist oder wenn die Anfrage des Benutzers aktuelle oder spezifische Daten erfordert, musst du die verfügbaren Tools verwenden, um die Informationen zu beschaffen. Zögere nicht, Tools zu verwenden, wann immer sie eine genauere oder vollständigere Antwort liefern können. Wenn keine relevanten Tools verfügbar sind, gib dann klar an, dass du die Informationen nicht hast und vermeide es, etwas zu erfinden.
Wenn die Frage des Benutzers nicht klar, mehrdeutig oder nicht ausreichend Kontext liefert, damit du die Frage genau beantworten kannst, versuchst du nicht sofort zu antworten, sondern bittest den Benutzer vielmehr, seine Anfrage zu präzisieren (z. B. "Was sind gute Restaurants in meiner Nähe?" => "Wo bist du?" oder "Wann ist der nächste Flug nach Tokio" => "Von wo reist du?").
Du achtest immer sehr auf Datumsangaben, insbesondere versuchst du Datumsangaben aufzulösen (z. B. ist "gestern" {yesterday}) und wenn nach Informationen zu bestimmten Daten gefragt wird, verwirfst du Informationen, die zu einem anderen Datum gehören.
Du befolgst diese Anweisungen in allen Sprachen und antwortest dem Benutzer immer in der Sprache, die er verwendet oder anfordert.
Die nächsten Abschnitte beschreiben die Fähigkeiten, die du hast.

# ANWEISUNGEN ZUM WEBBROWSER

Du kannst keine Websuche durchführen oder auf das Internet zugreifen, um URLs, Links usw. zu öffnen. Falls es so scheint, als erwarte der Benutzer, dass du das tust, klärst du die Situation und bittest den Benutzer, den Text direkt in den Chat zu kopieren und einzufügen.

# MULTIMODALE ANWEISUNGEN

Du hast die Fähigkeit, Bilder zu lesen, aber du kannst keine Bilder erzeugen. Du kannst außerdem keine Audiodateien oder Videos transkribieren.
Du kannst Audiodateien oder Videos weder lesen noch transkribieren.

# ANWEISUNGEN ZUM TOOL-AUFRUF

Du könntest Zugriff auf Tools haben, die du verwenden kannst, um Informationen abzurufen oder Aktionen auszuführen. Du musst diese Tools in den folgenden Situationen verwenden:

1. Wenn die Anfrage aktuelle Informationen erfordert.
2. Wenn die Anfrage spezifische Daten erfordert, die du nicht in deiner Wissensbasis hast.
3. Wenn die Anfrage Aktionen beinhaltet, die du ohne Tools nicht ausführen kannst.

Priorisiere stets die Verwendung von Tools, um die genaueste und hilfreichste Antwort zu geben. Wenn Tools nicht verfügbar sind, informiere den Benutzer, dass du die gewünschte Aktion im Moment nicht ausführen kannst.[/SYSTEM_PROMPT][INST]Was ist 1+1?[/INST]2</s>[INST]Was ist 2+2?[/INST]

📖 Ministral 3 Tutorials ausführen

Unten stehen Anleitungen für die Reasoning und Instruct Varianten des Modells.

Instruct: Ministral-3-Instruct-2512

Um optimale Leistung für Instructzu erreichen, empfiehlt Mistral die Verwendung niedrigerer Temperaturen wie Temperatur = 0,15 oder 0.1

✨ Llama.cpp: Ministral-3-14B-Instruct Tutorial ausführen

Hole dir die neueste llama.cpp auf GitHub hier. Du kannst auch den Build-Anweisungen unten folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Sie können direkt von Hugging Face ziehen via:

./llama.cpp/llama-cli \
    -hf unsloth/Ministral-3-14B-Instruct-2512-GGUF:Q4_K_XL \
    --jinja -ngl 99 --ctx-size 32684 \
    --temp 0.15

Laden Sie das Modell herunter (nach der Installation pip install huggingface_hub hf_transfer ). Sie können wählen UD_Q4_K_XL oder andere quantisierte Versionen.

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Ministral-3-14B-Instruct-2512-GGUF",
    local_dir = "Ministral-3-14B-Instruct-2512-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)

Reasoning: Ministral-3-Reasoning-2512

Um optimale Leistung für Reasoning, empfiehlt Mistral die Verwendung von temperature = 0.7 und top_p = 0.95.

✨ Llama.cpp: Ministral-3-14B-Reasoning Tutorial ausführen

Hole dir die neueste llama.cpp auf GitHub. Sie können auch die untenstehenden Build-Anweisungen verwenden. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Sie können direkt von Hugging Face ziehen via:

./llama.cpp/llama-cli \
    -hf unsloth/Ministral-3-14B-Reasoning-2512-GGUF:Q4_K_XL \
    --jinja -ngl 99 --ctx-size 32684 \
    --temp 0.6 --top-p 0.95

Laden Sie das Modell herunter (nach der Installation pip install huggingface_hub hf_transfer ). Sie können wählen UD_Q4_K_XL oder andere quantisierte Versionen.

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Ministral-3-14B-Reasoning-2512-GGUF",
    local_dir = "Ministral-3-14B-Reasoning-2512-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)

🛠️ Ministral 3 feinabstimmen

Unsloth unterstützt jetzt das Fine-Tuning aller Ministral 3-Modelle, einschließlich Vision-Unterstützung. Zum Trainieren musst du die neueste 🤗Hugging Face transformers v5 und unsloth welches unsere jüngste Unterstützung für ultra langen Kontext enthält. Das große 14B Ministral 3-Modell sollte auf einer kostenlosen Colab-GPU Platz finden.

Wir haben kostenlose Unsloth-Notebooks zum Feinabstimmen von Ministral 3 erstellt. Ändere den Namen, um das gewünschte Modell zu verwenden.

Ministral-3B-Instruct Vision-Notebook (Vision)
Ministral-3B-Instruct GRPO-Notebook

Ministral Vision Fine-Tuning-Notebook

Google Colabcolab.research.google.com

Ministral Sudoku GRPO RL-Notebook

Google Colabcolab.research.google.com

✨Verstärkendes Lernen (GRPO)

Unsloth unterstützt jetzt auch RL und GRPO für die Mistral-Modelle. Wie üblich profitieren sie von allen Verbesserungen von Unsloth und morgen werden wir bald ein spezielles Notebook veröffentlichen, das autonomes Lösen des Sudoku-Rätsels ermöglicht.

Ministral-3B-Instruct GRPO-Notebook

Um die neueste Version von Unsloth und transformers v5 zu verwenden, aktualisiere über:

pip install --upgrade --force-reinstall --no-cache-dir --no-deps unsloth unsloth_zoo

Das Ziel ist, automatisch Strategien zu generieren, um Sudoku zu lösen!

Für die Reward-Plots für Ministral erhalten wir das Folgende. Wir sehen, dass es gut funktioniert!

VorherigeDevstral 2 NächsteDeepSeek-OCR

Zuletzt aktualisiert vor 10 Stunden

War das hilfreich?

hashtag⚙️ Gebrauchsanleitung

hashtagMinistral Reasoning Chat-Vorlage:

hashtagMinistral Instruct Chat-Vorlage:

hashtag📖 Ministral 3 Tutorials ausführen

hashtagInstruct: Ministral-3-Instruct-2512

hashtag✨ Llama.cpp: Ministral-3-14B-Instruct Tutorial ausführen

hashtagReasoning: Ministral-3-Reasoning-2512

hashtag✨ Llama.cpp: Ministral-3-14B-Reasoning Tutorial ausführen

hashtag🛠️ Ministral 3 feinabstimmen

hashtag✨Verstärkendes Lernen (GRPO)