🌠Qwen3 - Wie man ausführt & feinabstimmt

Lerne, Qwen3 lokal mit Unsloth und unseren Dynamic 2.0-Quants auszuführen und feinabzustimmen

Qwens neue Qwen3-Modelle liefern hochmoderne Fortschritte in den Bereichen Schlussfolgerung, Befolgen von Anweisungen, Agentenfähigkeiten und mehrsprachige Unterstützung.

circle-check

Alle Uploads verwenden Unsloth Dynamic 2.0 für SOTA 5-Shot MMLU- und KL-Divergenz-Leistung, was bedeutet, dass du quantisierte Qwen-LLMs mit minimalem Genauigkeitsverlust ausführen und feinabstimmen kannst.

Wir haben Qwen3 auch mit nativer 128K-Kontextlänge hochgeladen. Qwen erreicht dies, indem YaRN verwendet wird, um sein ursprüngliches 40K-Fenster auf 128K zu erweitern.

Unslotharrow-up-right unterstützt jetzt außerdem Fine-Tuning und Verstärkungslernen (RL) von Qwen3- und Qwen3-MOE-Modellen — 2x schneller, mit 70% weniger VRAM und 8x längeren Kontextlängen. Feineinstelle Qwen3 (14B) kostenlos mit unserem Colab-Notebook.arrow-up-right

Qwen3 ausführen Tutorial Qwen3 feinabstimmen

Qwen3 - Unsloth Dynamic 2.0 mit optimalen Konfigurationen:

🖥️ Qwen3 ausführen

Um Inferenzgeschwindigkeiten von über 6 Token pro Sekunde zu erreichen, empfehlen wir, dass dein verfügbarer Speicher der Größe des verwendeten Modells entspricht oder diese übersteigt. Zum Beispiel erfordert ein 30-GB-1-Bit-quantisiertes Modell mindestens 150 GB Speicher. Das Q2_K_XL-Quant, das 180 GB groß ist, benötigt mindestens 180 GB einheitlichen Speicher (VRAM + RAM) oder 180 GB RAM für optimale Leistung.

HINWEIS: Es ist möglich, das Modell mit weniger Gesamtspeicher als seiner Größe auszuführen (d. h. weniger VRAM, weniger RAM oder eine geringere kombinierte Gesamtmenge). Dies führt jedoch zu langsameren Inferenzgeschwindigkeiten. Ausreichender Speicher ist nur erforderlich, wenn du den Durchsatz maximieren und die schnellsten Inferenzzeiten erreichen möchtest.

⚙️ Offiziell empfohlene Einstellungen

Laut Qwen sind dies die empfohlenen Einstellungen für die Inferenz:

Einstellungen für Nicht-Denk-Modus:
Einstellungen für Denk-Modus:

Temperatur = 0,7

Temperatur = 0,6

Min_P = 0,0 (optional, aber 0,01 funktioniert gut, der llama.cpp-Standard ist 0,1)

Min_P = 0,0

Top_P = 0,8

Top_P = 0,95

TopK = 20

TopK = 20

Chat-Vorlage/Prompt-Format:

circle-check
circle-exclamation

Wechsel zwischen Denk- und Nicht-Denk-Modus

Qwen3-Modelle verfügen über einen eingebauten "Denkmodus", um Schlussfolgerungen zu verbessern und die Antwortqualität zu steigern - ähnlich wie QwQ-32B funktionierte. Die Anweisungen zum Umschalten unterscheiden sich je nach verwendeter Inferenz-Engine, stelle also sicher, dass du die richtigen Anweisungen verwendest.

Anweisungen für llama.cpp und Ollama:

Du kannst hinzufügen /think und /no_think zu Benutzer-Prompts oder System-Nachrichten, um den Denkmodus des Modells von Runde zu Runde zu wechseln. Das Modell folgt der zuletzt erteilten Anweisung in Mehrfach-Runden-Konversationen.

Hier ist ein Beispiel für eine Mehrfach-Runden-Konversation:

Anweisungen für transformers und vLLM:

Denkmodus:

enable_thinking=True

Standardmäßig ist bei Qwen3 das Denken aktiviert. Wenn du tokenizer.apply_chat_template, rufst du musst du nichts manuell setzen.

Im Denkmodus generiert das Modell ein zusätzliches <think>...</think> Block vor der finalen Antwort — das ermöglicht ihm, zu "planen" und seine Antworten zu verfeinern.

Nicht-Denk-Modus:

enable_thinking=False

Das Aktivieren des Nicht-Denk-Modus lässt Qwen3 alle Denk-Schritte überspringen und wie ein normales LLM agieren.

Dieser Modus liefert direkte Endantworten — keine <think> Blöcke, keine Gedankenkette.

🦙 Ollama: Qwen3 Tutorial ausführen

  1. Installiere ollama falls du es noch nicht getan hast! Du kannst Modelle nur bis zu einer Größe von 32B ausführen. Um das vollständige 235B-A22B-Modell auszuführen, siehe hier.

  1. Führe das Modell aus! Beachte, dass du ollama servein einem anderen Terminal aufrufen kannst, falls es fehlschlägt! Wir fügen alle unsere Fixes und vorgeschlagenen Parameter (Temperatur etc.) in params in unserem Hugging Face-Upload hinzu!

  1. Um Denken zu deaktivieren, verwende (oder du kannst es im System-Prompt setzen):

circle-exclamation

📖 Llama.cpp: Qwen3 Tutorial ausführen

  1. Hole dir das neueste llama.cpp auf GitHub hierarrow-up-right. Du kannst auch den untenstehenden Build-Anweisungen folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest.

  1. Lade das Modell herunter via (nach Installation von pip install huggingface_hub hf_transfer ). Du kannst Q4_K_M oder andere quantisierte Versionen wählen.

  1. Führe das Modell aus und probiere beliebige Prompts.

Um Denken zu deaktivieren, verwende (oder du kannst es im System-Prompt setzen):

Qwen3-235B-A22B ausführen

Für Qwen3-235B-A22B verwenden wir speziell Llama.cpp für optimierte Inferenz und eine Fülle von Optionen.

  1. Wir folgen ähnlichen Schritten wie oben, allerdings müssen wir dieses Mal zusätzliche Schritte durchführen, weil das Modell so groß ist.

  2. Lade das Modell herunter via (nach Installation von pip install huggingface_hub hf_transfer ). Du kannst UD-Q2_K_XL oder andere quantisierte Versionen wählen..

  3. Führe das Modell aus und probiere beliebige Prompts.

  4. Bearbeite --threads 32 für die Anzahl der CPU-Threads, --ctx-size 16384 für die Kontextlänge, --n-gpu-layers 99 für GPU-Offloading, also wie viele Schichten. Versuche, diesen Wert anzupassen, wenn deine GPU nicht mehr genug Speicher hat. Entferne ihn auch, wenn du nur CPU-Inferenz hast.

circle-check

🦥 Qwen3 mit Unsloth feinabstimmen

Unsloth macht das Fine-Tuning von Qwen3 2x schneller, verwendet 70% weniger VRAM und unterstützt 8x längere Kontextlängen. Qwen3 (14B) passt bequem auf eine Google Colab Tesla T4 GPU mit 16 GB VRAM.

Da Qwen3 sowohl Schlussfolgerungs- als auch Nicht-Schlussfolgerungsfähigkeiten unterstützt, kannst du es mit einem Nicht-Schlussfolgerungs-Datensatz feinabstimmen, aber das kann seine Schlussfolgerungsfähigkeit beeinträchtigen. Wenn du seine Schlussfolgerungsfähigkeiten beibehalten möchtest (optional), kannst du eine Mischung aus direkten Antworten und Chain-of-Thought-Beispielen verwenden. Nutze 75% Schlussfolgerung und 25% Nicht-Schlussfolgerung in deinem Datensatz, damit das Modell seine Schlussfolgerungsfähigkeiten beibehält.

Unser Konversations-Notebook verwendet eine Kombination aus 75% NVIDIAs Open-Math-Reasoning-Datensatz und 25% Maximes FineTome-Datensatz (Nicht-Schlussfolgerung). Hier sind kostenlose Unsloth Colab-Notebooks zum Feinabstimmen von Qwen3:

Wenn du eine ältere Version von Unsloth hast und/oder lokal feinabstimmst, installiere die neueste Version von Unsloth:

Fine-Tuning von Qwen3 MOE-Modellen

Die Fine-Tuning-Unterstützung umfasst unser neues 2026 Faster MOE Update: 30B-A3B und 235B-A22B. Qwen3-30B-A3B funktioniert mit nur 17,5 GB VRAM mit Unsloth. Beim Fine-Tuning von MoEs ist es wahrscheinlich keine gute Idee, die Router-Schicht zu feinabstimmen, daher haben wir sie standardmäßig deaktiviert.

Die 30B-A3B passt in 17,5 GB VRAM, aber dir könnten RAM- oder Festplattenspeicher fehlen, da das vollständige 16-Bit-Modell heruntergeladen und für QLoRA-Finetuning bei Bedarf in 4-Bit konvertiert werden muss. Dies liegt an Problemen beim direkten Importieren von 4-Bit-BnB-MoE-Modellen. Dies betrifft nur MOE-Modelle.

Notebook-Anleitung:

Um die Notebooks zu verwenden, klicke einfach auf Runtime und dann auf Run all. Du kannst die Einstellungen im Notebook nach Belieben ändern. Wir haben sie standardmäßig automatisch gesetzt. Ändere den Modellnamen, um ihn mit dem Namen des Modells auf Hugging Face abzugleichen, z. B. 'unsloth/Qwen3-8B' oder 'unsloth/Qwen3-0.6B-unsloth-bnb-4bit'.

Es gibt weitere Einstellungen, die du umschalten kannst:

  • max_seq_length = 2048 – Steuert die Kontextlänge. Während Qwen3 40960 unterstützt, empfehlen wir 2048 für Tests. Unsloth ermöglicht 8× längeres Kontext-Fine-Tuning.

  • load_in_4bit = True – Aktiviert 4-Bit-Quantisierung und reduziert den Speicherbedarf für Fine-Tuning auf 16-GB-GPUs um das 4-fache.

  • Für Full-Finetuning - setze full_finetuning = True und 8-Bit-Finetuning - setze load_in_8bit = True

Wenn du eine vollständige End-to-End-Anleitung zum Verwenden der Unsloth-Notebooks für Fine-Tuning lesen möchtest oder einfach nur etwas über Fine-Tuning, das Erstellen von Datensätzen usw. erfahren willst, sieh dir unsere komplette Anleitung hier:

🧬Fine-tuning Guidechevron-right📈Leitfaden zu Datensätzenchevron-right

GRPO mit Qwen3

Wir haben ein neues Advanced-GRPO-Notebook zum Feinabstimmen von Qwen3 erstellt. Lerne, unsere neue proximity-basierte Belohnungsfunktion zu verwenden (nähere Antworten = belohnt) und Hugging Faces Open-R1-Mathematik-Datensatz. Unsloth hat jetzt zudem bessere Bewertungen und verwendet die neueste Version von vLLM.

Qwen3 (4B)arrow-up-right Notebook - Advanced GRPO LoRA

Lerne über:

  • Aktivierung von Schlussfolgerung in Qwen3 (Base)+ und das Leiten zu einer spezifischen Aufgabe

  • Pre-Finetuning, um GRPOs Tendenz zum Erlernen von Formatierungen zu umgehen

  • Verbesserte Evaluierungsgenauigkeit durch neues Regex-Matching

  • Benutzerdefinierte GRPO-Vorlagen über nur 'think' hinaus z. B. <start_working_out></end_working_out>

  • Proximity-basierte Bewertung: bessere Antworten erhalten mehr Punkte (z. B. Vorhersage 9, wenn die Antwort 10 ist) und Ausreißer werden bestraft

Zuletzt aktualisiert

War das hilfreich?