📙Devstral: Ausführen & Finetunen

Führe und finetune Mistral Devstral 1.1, einschließlich Small-2507 und 2505.

Devstral-Small-2507 (Devstral 1.1) ist Mistrals neues agentisches LLM für Softwareentwicklung. Es ist hervorragend im Aufrufen von Tools, im Durchsuchen von Codebasen und im Betreiben von Coding-Agenten. Mistral AI veröffentlichte die ursprüngliche Version 2505 im Mai 2025.

Feinabgestimmt von Mistral-Small-3.1arrow-up-right, Devstral unterstützt ein 128k Kontextfenster. Devstral Small 1.1 hat die Leistung verbessert und erreicht einen Wert von 53,6% Leistung auf SWE-bench verifiziertarrow-up-right, was es (10. Juli 2025) zum #1 Open-Model auf dem Benchmark macht.

Unsloth Devstral 1.1 GGUFs enthalten zusätzliche Tool-Aufruf-Unterstützung und Chat-Template-Korrekturen. Devstral 1.1 funktioniert weiterhin gut mit OpenHands, generalisiert jetzt aber auch besser auf andere Prompt- und Programmierumgebungen.

Als textbasiertes Modell wurde Devstrals Vision-Encoder vor der Feinabstimmung entfernt. Wir haben optionale Vision-Unterstützung für das Modell hinzugefügt.

circle-check

Alle Devstral-Uploads verwenden unsere Unsloth- Dynamic 2.0 Methodik und liefern die beste Leistung bei 5-shot MMLU- und KL-Divergenz-Benchmarks. Das bedeutet, dass du quantisierte Mistral-LLMs mit minimalem Genauigkeitsverlust laufen lassen und feinabstimmen kannst!

Devstral - Unsloth Dynamische Quants:

🖥️ Devstral ausführen

⚙️ Offiziell empfohlene Einstellungen

Laut Mistral AI sind dies die empfohlenen Einstellungen für Inferenz:

  • Temperatur von 0,0 bis 0,15

  • Min_P von 0,01 (optional, aber 0,01 funktioniert gut, llama.cpp-Standard ist 0,1)

  • Verwenden Sie --jinja um das Systemprompt zu aktivieren.

Ein System-Prompt wird empfohlen, und ist eine Ableitung von Open Hands' System-Prompt. Der vollständige System-Prompt wird bereitgestellt hierarrow-up-right.

circle-check

🦙 Tutorial: Wie man Devstral in Ollama ausführt

  1. Installieren Sie ollama falls du es noch nicht getan hast!

  1. Führe das Modell mit unserem dynamischen Quant aus. Beachte, dass du ollama serve &in einem anderen Terminal aufrufen kannst, falls es fehlschlägt! Wir fügen alle empfohlenen Parameter (Temperatur usw.) in params in unserem Hugging Face-Upload hinzu!

  2. Außerdem unterstützt Devstral 128K Kontextlängen, daher ist es am besten, KV-Cache-Quantisierungarrow-up-rightzu aktivieren. Wir verwenden 8bit-Quantisierung, die 50% Speicher spart. Du kannst auch "q4_0"

📖 Tutorial: Wie man Devstral in llama.cpp ausführt

  1. Holen Sie sich die neueste llama.cpp auf GitHub hierarrow-up-right. Sie können auch den unten stehenden Build-Anweisungen folgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz wünschen.

  1. Wenn Sie llama.cpp direkt zum Laden von Modellen kannst du Folgendes tun: (:Q4_K_XL) ist der Quantisierungstyp. Du kannst auch über Hugging Face herunterladen (Punkt 3). Das ist ähnlich wie ollama run

  1. ODER lade das Modell herunter über (nach der Installation pip install huggingface_hub hf_transfer ). Du kannst Q4_K_M oder andere quantisierte Versionen wählen (wie BF16 Vollpräzision).

  1. Führe das Modell aus.

  2. Bearbeiten --threads -1 für die maximalen CPU-Threads, --ctx-size 131072 für die Kontextlänge (Devstral unterstützt 128K Kontextlänge!), --n-gpu-layers 99 für GPU-Offloading, wie viele Layer. Versuche es anzupassen, wenn deine GPU nicht genug Speicher hat. Entferne es auch, wenn du nur CPU-Inferenz hast. Wir verwenden außerdem 8bit-Quantisierung für den K-Cache, um den Speicherverbrauch zu reduzieren.

  3. Für Konversationsmodus:

  1. Für den Nicht-Konversationsmodus zum Testen unseres Flappy Bird-Prompts:

triangle-exclamation

👀Experimentelle Vision-Unterstützung

Xuan-Sonarrow-up-right von Hugging Face zeigte in ihrem GGUF-Repoarrow-up-right wie es tatsächlich möglich ist, den Vision-Encoder von Mistral 3.1 Instruct auf Devstral 2507 zu "verpflanzen". Wir haben außerdem unsere mmproj-Dateien hochgeladen, die es dir ermöglichen, Folgendes zu verwenden:

Zum Beispiel:

Anweisung und Ausgabe-Code
Gerenderter Code

🦥 Feinabstimmung von Devstral mit Unsloth

Wie bei den Standard-Mistral-Modellen, einschließlich Mistral Small 3.1, unterstützt Unsloth die Feinabstimmung von Devstral. Das Training ist 2x schneller, verwendet 70% weniger VRAM und unterstützt 8x längere Kontextlängen. Devstral passt bequem in eine 24GB VRAM L4 GPU.

Leider überschreitet Devstral geringfügig die Speichergrenzen einer 16GB-VRAM, sodass eine Feinabstimmung kostenlos auf Google Colab derzeit nicht möglich ist. Allerdings kannst du können Sie das Modell kostenlos mit unserem Kaggle-Notebookarrow-up-right, das Zugang zu Dual-GPUs bietet. Ändere einfach den Magistral-Modellnamen im Notebook auf das Devstral-Modell.

Wenn du eine alte Version von Unsloth hast und/oder lokal feinabstimmst, installiere die neueste Version von Unsloth:

Zuletzt aktualisiert

War das hilfreich?