🌠Qwen3 - So führst du es aus und feinabstimmst es

Lerne, Qwen3 lokal mit Unsloth + unseren Dynamic-2.0-Quants auszuführen und feinabzustimmen

Qwens neue Qwen3-Modelle liefern modernste Fortschritte in den Bereichen Schlussfolgern, Befolgen von Anweisungen, Agentenfähigkeiten und mehrsprachige Unterstützung.

circle-check

Alle Uploads verwenden Unsloth Dynamic 2.0 für SOTA 5-Shot-MMLU- und KL-Divergenz-Performance, was bedeutet, dass du quantisierte Qwen-LLMs mit minimalem Genauigkeitsverlust ausführen und fine-tunen kannst.

Wir haben außerdem Qwen3 mit nativer 128K-Kontextlänge hochgeladen. Qwen erreicht dies, indem YaRN verwendet wird, um das ursprüngliche 40K-Fenster auf 128K zu erweitern.

Unslotharrow-up-right unterstützt jetzt auch Fine-Tuning und Verstärkendes Lernen (RL) von Qwen3- und Qwen3-MOE-Modellen — 2x schneller, mit 70 % weniger VRAM und 8x längeren Kontextlängen. Fine-tune Qwen3 (14B) kostenlos mit unserem Colab-Notebook.arrow-up-right

Qwen3-Tutorial ausführen Qwen3 fine-tunen

Qwen3 - Unsloth Dynamic 2.0 mit optimalen Konfigurationen:

🖥️ Qwen3 ausführen

Um Inferenzgeschwindigkeiten von 6+ Tokens pro Sekunde zu erreichen, empfehlen wir, dass der verfügbare Speicher der Größe des verwendeten Modells entspricht oder sie übersteigt. Ein beispielsweise 30GB großes 1-Bit-quantisiertes Modell benötigt mindestens 150GB Speicher. Die Q2_K_XL-Quantisierung, die 180GB groß ist, erfordert mindestens 180GB vereinheitlichten Speicher (VRAM + RAM) oder 180GB RAM für optimale Leistung.

HINWEIS: Es ist möglich, das Modell mit weniger Gesamtspeicher als seiner Größe auszuführen (d. h. weniger VRAM, weniger RAM oder ein niedrigerer kombinierter Gesamtwert). Dies führt jedoch zu langsameren Inferenzgeschwindigkeiten. Ausreichender Speicher ist nur erforderlich, wenn du den Durchsatz maximieren und die schnellsten Inferenzzeiten erreichen möchtest.

⚙️ Offizielle empfohlene Einstellungen

Laut Qwen sind dies die empfohlenen Einstellungen für die Inferenz:

Einstellungen für Nicht-Denkmodus:
Einstellungen für Denkmodus:

Temperatur = 0.7

Temperatur = 0.6

Min_P = 0.0 (optional, aber 0.01 funktioniert gut; der Standardwert in llama.cpp ist 0.1)

Min_P = 0.0

Top_P = 0.8

Top_P = 0.95

TopK = 20

TopK = 20

Chat-Template/Prompt-Format:

circle-check
circle-exclamation

Wechsel zwischen Denk- und Nicht-Denkmodus

Qwen3-Modelle verfügen über einen eingebauten „Denkmodus“, um das Schlussfolgern zu verbessern und die Antwortqualität zu steigern – ähnlich wie QwQ-32B funktionierte. Die Anweisungen zum Wechseln unterscheiden sich je nach verwendetem Inferenz-Engine, stelle also sicher, dass du die richtigen Anweisungen verwendest.

Anweisungen für llama.cpp und Ollama:

Du kannst /think und /no_think zu User-Prompts oder Systemnachrichten hinzufügen, um den Denkmodus des Modells von Runde zu Runde zu wechseln. Das Modell folgt in mehrstufigen Gesprächen der jeweils neuesten Anweisung.

Hier ist ein Beispiel für ein mehrstufiges Gespräch:

Anweisungen für transformers und vLLM:

Denkmodus:

enable_thinking=True

Standardmäßig ist das Denken in Qwen3 aktiviert. Wenn du tokenizer.apply_chat_templateaufrufst, musst du nichts manuell setzen.

Im Denkmodus erzeugt das Modell einen zusätzlichen <think>...</think> Block vor der endgültigen Antwort — dadurch kann es „planen“ und seine Antworten schärfen.

Nicht-Denkmodus:

enable_thinking=False

Wenn der Nicht-Denkmodus aktiviert wird, überspringt Qwen3 alle Denkschritte und verhält sich wie ein normales LLM.

Dieser Modus liefert endgültige Antworten direkt — keine <think> Blöcke, kein Chain-of-Thought.

🦙 Ollama: Qwen3-Tutorial ausführen

  1. Installiere ollama falls du es noch nicht getan hast! Du kannst nur Modelle bis zu einer Größe von 32B ausführen. Um das vollständige 235B-A22B-Modell auszuführen, siehe hier.

  1. Führe das Modell aus! Beachte, dass du ollama servein einem anderen Terminal aufrufen kannst, falls es fehlschlägt! Wir haben alle unsere Fixes und vorgeschlagenen Parameter (Temperatur usw.) in params in unserem Hugging-Face-Upload!

  1. Um das Denken zu deaktivieren, verwende (oder du kannst es im System-Prompt setzen):

circle-exclamation

📖 Llama.cpp: Qwen3-Tutorial ausführen

  1. Hole dir das Neueste llama.cpp auf GitHub hierarrow-up-right. Du kannst auch die Build-Anweisungen unten befolgen. Ändere -DGGML_CUDA=ON auf -DGGML_CUDA=OFF wenn du keine GPU hast oder einfach nur CPU-Inferenz möchtest. Für Apple-Mac-/Metal-Geräte, setze -DGGML_CUDA=OFF und fahre dann wie gewohnt fort – Metal-Unterstützung ist standardmäßig aktiviert.

  1. Lade das Modell herunter über (nach der Installation von pip install huggingface_hub hf_transfer ). Du kannst Q4_K_M oder andere quantisierte Versionen wählen.

  1. Führe das Modell aus und probiere einen beliebigen Prompt aus.

Um das Denken zu deaktivieren, verwende (oder du kannst es im System-Prompt setzen):

Qwen3-235B-A22B ausführen

Für Qwen3-235B-A22B werden wir speziell Llama.cpp für optimierte Inferenz und eine Vielzahl von Optionen verwenden.

  1. Wir folgen ähnlichen Schritten wie oben, müssen diesmal aber auch zusätzliche Schritte durchführen, da das Modell so groß ist.

  2. Lade das Modell herunter über (nach der Installation von pip install huggingface_hub hf_transfer ). Du kannst UD-Q2_K_XL oder andere quantisierte Versionen wählen..

  3. Führe das Modell aus und probiere einen beliebigen Prompt aus.

  4. Bearbeite --threads 32 für die Anzahl der CPU-Threads, --ctx-size 16384 für die Kontextlänge, --n-gpu-layers 99 für GPU-Offloading, für wie viele Schichten. Versuche, es anzupassen, wenn deinem GPU der Speicher ausgeht. Entferne es auch, wenn du nur CPU-Inferenz hast.

circle-check

🦥 Qwen3 mit Unsloth fine-tunen

Unsloth macht das Fine-Tuning von Qwen3 2x schneller, verbraucht 70 % weniger VRAM und unterstützt 8x längere Kontextlängen. Qwen3 (14B) passt problemlos auf eine Google-Colab-Tesla-T4-GPU mit 16 GB VRAM.

Da Qwen3 sowohl Schlussfolgern als auch Nicht-Schlussfolgern unterstützt, kannst du es mit einem Nicht-Schlussfolgern-Datensatz fine-tunen, aber das kann seine Schlussfolgerungsfähigkeit beeinträchtigen. Wenn du seine Schlussfolgerungsfähigkeiten beibehalten möchtest (optional), kannst du eine Mischung aus direkten Antworten und Chain-of-Thought-Beispielen verwenden. Verwende 75 % Schlussfolgern und 25 % Nicht-Schlussfolgern in deinem Datensatz, damit das Modell seine Schlussfolgerungsfähigkeiten behält.

Unser Conversational-Notebook verwendet eine Kombination aus 75 % von NVIDIAs Open-Math-Reasoning-Datensatz und 25 % von Maximes FineTome-Datensatz (Nicht-Schlussfolgern). Hier sind kostenlose Unsloth-Colab-Notebooks, um Qwen3 finezutunen:

Wenn du eine alte Version von Unsloth hast und/oder lokal fine-tunest, installiere die neueste Version von Unsloth:

Qwen3 MOE-Modelle fine-tunen

Die Fine-Tuning-Unterstützung umfasst unser neues 2026 Schnelleres MOE Update: 30B-A3B und 235B-A22B. Qwen3-30B-A3B läuft mit Unsloth bereits mit nur 17,5 GB VRAM. Beim Fine-Tuning von MoEs ist es wahrscheinlich keine gute Idee, die Router-Schicht mitzutunen, daher haben wir sie standardmäßig deaktiviert.

Das 30B-A3B passt in 17,5 GB VRAM, aber dir könnten RAM oder Speicherplatz fehlen, da das vollständige 16-Bit-Modell heruntergeladen und für das QLoRA-Fine-Tuning unterwegs in 4-Bit konvertiert werden muss. Das liegt an Problemen beim direkten Import von 4-Bit-BnB-MOE-Modellen. Dies betrifft nur MOE-Modelle.

Notebook-Anleitung:

Um die Notebooks zu verwenden, klicke einfach auf Runtime und dann auf Run all. Du kannst die Einstellungen im Notebook nach Belieben ändern. Wir haben sie standardmäßig automatisch gesetzt. Ändere den Modellnamen nach Wunsch, indem du ihn mit dem Namen des Modells auf Hugging Face abgleichst, z. B. 'unsloth/Qwen3-8B' oder 'unsloth/Qwen3-0.6B-unsloth-bnb-4bit'.

Es gibt weitere Einstellungen, die du umschalten kannst:

  • max_seq_length = 2048 – Steuert die Kontextlänge. Obwohl Qwen3 40960 unterstützt, empfehlen wir 2048 zum Testen. Unsloth ermöglicht ein 8× längeres Kontext-Fine-Tuning.

  • load_in_4bit = True – Aktiviert 4-Bit-Quantisierung und reduziert den Speicherverbrauch für das Fine-Tuning auf 16GB-GPUs um das Vierfache.

  • Für Full-Finetuning - setze full_finetuning = True und 8-Bit-Finetuning - setze load_in_8bit = True

Wenn du eine vollständige End-to-End-Anleitung dazu lesen möchtest, wie man Unsloth-Notebooks zum Fine-Tuning verwendet oder einfach mehr über Fine-Tuning, das Erstellen von Datensätzen usw. erfahren möchtest, sieh dir unseren vollständigen Leitfaden hier an:

🧬Fine-tuning Guidechevron-right📈Datensatz-Leitfadenchevron-right

GRPO mit Qwen3

Wir haben ein neues fortgeschrittenes GRPO-Notebook zum Fine-Tuning von Qwen3 erstellt. Lerne, unsere neue proximitätsbasierte Belohnungsfunktion zu verwenden (nähere Antworten = belohnt) und Hugging Faces Open-R1-Math-Datensatz. Unsloth hat jetzt auch bessere Evaluierungen und verwendet die neueste Version von vLLM.

Qwen3 (4B)arrow-up-right Notebook - Fortgeschrittenes GRPO LoRA

Erfahre mehr über:

  • Reasoning in Qwen3 (Base) aktivieren und es zu einer bestimmten Aufgabe anleiten

  • Vor-Finetuning, um Qwen3s Tendenz zu umgehen, Formatierungen zu lernen

  • Verbesserte Evaluierungsgenauigkeit durch neues Regex-Matching

  • Benutzerdefinierte GRPO-Templates über nur „think“ hinaus, z. B. <start_working_out></end_working_out>

  • Proximitätsbasierte Bewertung: bessere Antworten erhalten mehr Punkte (z. B. 9 vorhersagen, wenn die Antwort 10 ist), und Ausreißer werden bestraft

Zuletzt aktualisiert

War das hilfreich?