📙Devstral: Ausführen & Finetunen
Führe und finetune Mistral Devstral 1.1, einschließlich Small-2507 und 2505.
Devstral-Small-2507 (Devstral 1.1) ist Mistrals neues agentisches LLM für Softwareentwicklung. Es ist hervorragend im Aufrufen von Tools, im Durchsuchen von Codebasen und im Betreiben von Coding-Agenten. Mistral AI veröffentlichte die ursprüngliche Version 2505 im Mai 2025.
Feinabgestimmt von Mistral-Small-3.1, Devstral unterstützt ein 128k Kontextfenster. Devstral Small 1.1 hat die Leistung verbessert und erreicht einen Wert von 53,6% Leistung auf SWE-bench verifiziert, was es (10. Juli 2025) zum #1 Open-Model auf dem Benchmark macht.
Unsloth Devstral 1.1 GGUFs enthalten zusätzliche Tool-Aufruf-Unterstützung und Chat-Template-Korrekturen. Devstral 1.1 funktioniert weiterhin gut mit OpenHands, generalisiert jetzt aber auch besser auf andere Prompt- und Programmierumgebungen.
Als textbasiertes Modell wurde Devstrals Vision-Encoder vor der Feinabstimmung entfernt. Wir haben optionale Vision-Unterstützung für das Modell hinzugefügt.
Wir haben auch hinter den Kulissen mit Mistral zusammengearbeitet, um mögliche Fehler und Probleme zu debuggen, zu testen und zu korrigieren! Stelle sicher, dass du Mistrals offizielle Downloads oder Unsloths GGUFs / dynamische Quants herunterlädst, um die korrekte Implementierung (z. B. korrekter System-Prompt, korrektes Chat-Template usw.)
Bitte verwenden Sie --jinja in llama.cpp zu aktivieren, um den System-Prompt zu ermöglichen!
Alle Devstral-Uploads verwenden unsere Unsloth- Dynamic 2.0 Methodik und liefern die beste Leistung bei 5-shot MMLU- und KL-Divergenz-Benchmarks. Das bedeutet, dass du quantisierte Mistral-LLMs mit minimalem Genauigkeitsverlust laufen lassen und feinabstimmen kannst!
Devstral - Unsloth Dynamische Quants:
🖥️ Devstral ausführen
⚙️ Offiziell empfohlene Einstellungen
Laut Mistral AI sind dies die empfohlenen Einstellungen für Inferenz:
Temperatur von 0,0 bis 0,15
Min_P von 0,01 (optional, aber 0,01 funktioniert gut, llama.cpp-Standard ist 0,1)
Verwenden Sie
--jinjaum das Systemprompt zu aktivieren.
Ein System-Prompt wird empfohlen, und ist eine Ableitung von Open Hands' System-Prompt. Der vollständige System-Prompt wird bereitgestellt hier.
Unsere dynamischen Uploads enthalten das 'UD' Präfix. Die ohne dieses Präfix sind nicht dynamisch nutzen jedoch weiterhin unseren Kalibrierungsdatensatz.
🦙 Tutorial: Wie man Devstral in Ollama ausführt
Installieren Sie
ollamafalls du es noch nicht getan hast!
Führe das Modell mit unserem dynamischen Quant aus. Beachte, dass du
ollama serve &in einem anderen Terminal aufrufen kannst, falls es fehlschlägt! Wir fügen alle empfohlenen Parameter (Temperatur usw.) inparamsin unserem Hugging Face-Upload hinzu!Außerdem unterstützt Devstral 128K Kontextlängen, daher ist es am besten, KV-Cache-Quantisierungzu aktivieren. Wir verwenden 8bit-Quantisierung, die 50% Speicher spart. Du kannst auch
"q4_0"
📖 Tutorial: Wie man Devstral in llama.cpp ausführt
Holen Sie sich die neueste
llama.cppauf GitHub hier. Sie können auch den unten stehenden Build-Anweisungen folgen. Ändern Sie-DGGML_CUDA=ONzu-DGGML_CUDA=OFFwenn Sie keine GPU haben oder nur CPU-Inferenz wünschen.
Wenn Sie
llama.cppdirekt zum Laden von Modellen kannst du Folgendes tun: (:Q4_K_XL) ist der Quantisierungstyp. Du kannst auch über Hugging Face herunterladen (Punkt 3). Das ist ähnlich wieollama run
ODER lade das Modell herunter über (nach der Installation
pip install huggingface_hub hf_transfer). Du kannst Q4_K_M oder andere quantisierte Versionen wählen (wie BF16 Vollpräzision).
Führe das Modell aus.
Bearbeiten
--threads -1für die maximalen CPU-Threads,--ctx-size 131072für die Kontextlänge (Devstral unterstützt 128K Kontextlänge!),--n-gpu-layers 99für GPU-Offloading, wie viele Layer. Versuche es anzupassen, wenn deine GPU nicht genug Speicher hat. Entferne es auch, wenn du nur CPU-Inferenz hast. Wir verwenden außerdem 8bit-Quantisierung für den K-Cache, um den Speicherverbrauch zu reduzieren.Für Konversationsmodus:
Für den Nicht-Konversationsmodus zum Testen unseres Flappy Bird-Prompts:
Denke daran, <bos> zu entfernen, da Devstral automatisch ein <bos> hinzufügt! Verwende außerdem bitte --jinja um den System-Prompt zu aktivieren!
👀Experimentelle Vision-Unterstützung
Xuan-Son von Hugging Face zeigte in ihrem GGUF-Repo wie es tatsächlich möglich ist, den Vision-Encoder von Mistral 3.1 Instruct auf Devstral 2507 zu "verpflanzen". Wir haben außerdem unsere mmproj-Dateien hochgeladen, die es dir ermöglichen, Folgendes zu verwenden:
Zum Beispiel:


🦥 Feinabstimmung von Devstral mit Unsloth
Wie bei den Standard-Mistral-Modellen, einschließlich Mistral Small 3.1, unterstützt Unsloth die Feinabstimmung von Devstral. Das Training ist 2x schneller, verwendet 70% weniger VRAM und unterstützt 8x längere Kontextlängen. Devstral passt bequem in eine 24GB VRAM L4 GPU.
Leider überschreitet Devstral geringfügig die Speichergrenzen einer 16GB-VRAM, sodass eine Feinabstimmung kostenlos auf Google Colab derzeit nicht möglich ist. Allerdings kannst du können Sie das Modell kostenlos mit unserem Kaggle-Notebook, das Zugang zu Dual-GPUs bietet. Ändere einfach den Magistral-Modellnamen im Notebook auf das Devstral-Modell.
Wenn du eine alte Version von Unsloth hast und/oder lokal feinabstimmst, installiere die neueste Version von Unsloth:
Zuletzt aktualisiert
War das hilfreich?

