📙Devstral: Wie man ausführt & feinabstimmt

Führe und feinabstimme Mistral Devstral 1.1, einschließlich Small-2507 und 2505.

Devstral-Small-2507 (Devstral 1.1) ist Mistrals neues agentisches LLM für Softwareentwicklung. Es ist besonders gut im Aufrufen von Tools, beim Erkunden von Codebasen und beim Betreiben von Coding-Agenten. Mistral AI veröffentlichte die ursprüngliche Version 2505 im Mai 2025.

Feinabgestimmt von Mistral-Small-3.1arrow-up-right, Devstral unterstützt ein 128k Kontextfenster. Devstral Small 1.1 hat eine verbesserte Leistung und erzielt eine Punktzahl von 53,6% auf SWE-bench verifiziertarrow-up-right, womit es (10. Juli 2025) das #1 Open-Model im Benchmark ist.

Unsloth Devstral 1.1 GGUFs enthalten zusätzlich Tool-Aufruf-Unterstützung und Chat-Vorlagen-Fixes. Devstral 1.1 funktioniert immer noch gut mit OpenHands, generalisiert jetzt aber auch besser auf andere Prompts und Programmierumgebungen.

Als reines Textmodell wurde Devstrals Vision-Encoder vor der Feinabstimmung entfernt. Wir haben optionale Vision-Unterstützung für das Modell hinzugefügt.

circle-check

Alle Devstral-Uploads verwenden unsere Unsloth- Dynamic 2.0 Methodik und liefern die beste Leistung bei 5-Shot MMLU- und KL-Divergenz-Benchmarks. Das bedeutet, du kannst quantisierte Mistral-LLMs mit minimalem Genauigkeitsverlust ausführen und feinabstimmen!

Devstral - Unsloth Dynamische Quants:

🖥️ Devstral ausführen

⚙️ Offiziell empfohlene Einstellungen

Laut Mistral AI sind dies die empfohlenen Einstellungen für die Inferenz:

  • Temperatur von 0,0 bis 0,15

  • Min_P von 0,01 (optional, aber 0,01 funktioniert gut, llama.cpp-Standard ist 0,1)

  • Verwende --jinja um den System-Prompt zu aktivieren.

Ein System-Prompt wird empfohlen, und ist eine Ableitung von Open Hands' System-Prompt. Der vollständige System-Prompt wird bereitgestellt hierarrow-up-right.

circle-check

🦙 Tutorial: Wie man Devstral in Ollama ausführt

  1. In Ollama ausführen Installieren Sie falls Sie es noch nicht getan haben!

  1. Führe das Modell mit unserem dynamischen Quant aus. Beachte, dass du ollama serve &in einem anderen Terminal aufrufen kannst, wenn es fehlschlägt! Wir fügen alle empfohlenen Parameter (Temperatur usw.) in in einem anderen Terminal aufrufen können, wenn es fehlschlägt! Wir fügen alle unsere Fixes und vorgeschlagenen Parameter (Temperatur usw.) in params

  2. Außerdem unterstützt Devstral Kontextlängen von 128K, also ist es am besten, KV-Cache-Quantisierungarrow-up-rightzu aktivieren. Wir verwenden 8bit-Quantisierung, die 50% Speicher einspart. Du kannst auch "q4_0"

📖 Tutorial: Wie man Devstral in llama.cpp ausführt

  1. Hole dir die neueste llama.cpp auf GitHub hierarrow-up-right. Du kannst auch den Build-Anweisungen unten folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

  1. Wenn du llama.cpp direkt zum Laden von Modellen verwenden möchten, können Sie Folgendes tun: (:Q4_K_XL) ist der Quantisierungstyp. Sie können auch über Hugging Face herunterladen (Punkt 3). Dies ähnelt ollama run

  1. ODER laden Sie das Modell herunter via (nach Installation von pip install huggingface_hub hf_transfer ). Sie können Q4_K_M oder andere quantisierte Versionen wählen (wie BF16 Vollpräzision).

  1. Führe das Modell aus.

  2. Bearbeiten --threads -1 für die maximalen CPU-Threads, --ctx-size 131072 für die Kontextlänge (Devstral unterstützt 128K Kontextlänge!), --n-gpu-layers 99 für GPU-Offloading, wie viele Schichten. Versuche es anzupassen, wenn deine GPU nicht mehr genug Speicher hat. Entferne es auch, wenn du nur CPU-Inferenz hast. Wir verwenden außerdem 8bit-Quantisierung für den K-Cache, um den Speicherverbrauch zu reduzieren.

  3. Für den Konversationsmodus:

  1. Für den Nicht-Konversationsmodus, um unseren Flappy-Bird-Prompt zu testen:

triangle-exclamation

👀Experimentelle Vision-Unterstützung

Xuan-Sonarrow-up-right von Hugging Face zeigte in ihrem GGUF-Repoarrow-up-right wie es tatsächlich möglich ist, den Vision-Encoder von Mistral 3.1 Instruct auf Devstral 2507 „anzuheften“. Wir haben auch unsere mmproj-Dateien hochgeladen, die es dir ermöglichen, Folgendes zu verwenden:

Zum Beispiel:

Anweisung und Ausgabe-Code
Gerenderter Code

🦥 Feinabstimmung von Devstral mit Unsloth

Wie bei standardmäßigen Mistral-Modellen, einschließlich Mistral Small 3.1, unterstützt Unsloth die Feinabstimmung von Devstral. Das Training ist 2x schneller, verbraucht 70% weniger VRAM und unterstützt 8x längere Kontextlängen. Devstral passt bequem auf eine 24GB VRAM L4 GPU.

Leider überschreitet Devstral leicht die Speichermöglichkeiten einer 16GB VRAM, daher ist die Feinabstimmung auf Google Colab derzeit nicht kostenlos möglich. Allerdings kannst das Modell jedoch kostenlos mit unserem Kaggle-Notebookarrow-up-right, das Zugriff auf Dual-GPUs bietet. Ändere einfach den Modellnamen im Notebook von Magistral auf das Devstral-Modell.

Wenn Sie eine alte Version von Unsloth haben und/oder lokal feinabstimmen, installieren Sie die neueste Version von Unsloth:

Zuletzt aktualisiert

War das hilfreich?