🌠Qwen3 - So führst du es aus und feinabstimmst es
Lerne, Qwen3 lokal mit Unsloth + unseren Dynamic-2.0-Quants auszuführen und feinabzustimmen
Qwens neue Qwen3-Modelle liefern modernste Fortschritte in den Bereichen Schlussfolgern, Befolgen von Anweisungen, Agentenfähigkeiten und mehrsprachige Unterstützung.
NEU! Qwen3 erhielt im Juli 2025 ein Update. Führe das neueste Modell aus und fine-tune es: Qwen-2507
Alle Uploads verwenden Unsloth Dynamic 2.0 für SOTA 5-Shot-MMLU- und KL-Divergenz-Performance, was bedeutet, dass du quantisierte Qwen-LLMs mit minimalem Genauigkeitsverlust ausführen und fine-tunen kannst.
Wir haben außerdem Qwen3 mit nativer 128K-Kontextlänge hochgeladen. Qwen erreicht dies, indem YaRN verwendet wird, um das ursprüngliche 40K-Fenster auf 128K zu erweitern.
Unsloth unterstützt jetzt auch Fine-Tuning und Verstärkendes Lernen (RL) von Qwen3- und Qwen3-MOE-Modellen — 2x schneller, mit 70 % weniger VRAM und 8x längeren Kontextlängen. Fine-tune Qwen3 (14B) kostenlos mit unserem Colab-Notebook.
Qwen3-Tutorial ausführen Qwen3 fine-tunen
Qwen3 - Unsloth Dynamic 2.0 mit optimalen Konfigurationen:
🖥️ Qwen3 ausführen
Um Inferenzgeschwindigkeiten von 6+ Tokens pro Sekunde zu erreichen, empfehlen wir, dass der verfügbare Speicher der Größe des verwendeten Modells entspricht oder sie übersteigt. Ein beispielsweise 30GB großes 1-Bit-quantisiertes Modell benötigt mindestens 150GB Speicher. Die Q2_K_XL-Quantisierung, die 180GB groß ist, erfordert mindestens 180GB vereinheitlichten Speicher (VRAM + RAM) oder 180GB RAM für optimale Leistung.
HINWEIS: Es ist möglich, das Modell mit weniger Gesamtspeicher als seiner Größe auszuführen (d. h. weniger VRAM, weniger RAM oder ein niedrigerer kombinierter Gesamtwert). Dies führt jedoch zu langsameren Inferenzgeschwindigkeiten. Ausreichender Speicher ist nur erforderlich, wenn du den Durchsatz maximieren und die schnellsten Inferenzzeiten erreichen möchtest.
⚙️ Offizielle empfohlene Einstellungen
Laut Qwen sind dies die empfohlenen Einstellungen für die Inferenz:
Temperatur = 0.7
Temperatur = 0.6
Min_P = 0.0 (optional, aber 0.01 funktioniert gut; der Standardwert in llama.cpp ist 0.1)
Min_P = 0.0
Top_P = 0.8
Top_P = 0.95
TopK = 20
TopK = 20
Chat-Template/Prompt-Format:
Für den NICHT-Denkmodus schließen wir <think> und </think> absichtlich leer ein:
Im Denkmodus solltest du KEIN Greedy Decoding verwenden, da dies zu Leistungsverlust und endlosen Wiederholungen führen kann.
Wechsel zwischen Denk- und Nicht-Denkmodus
Qwen3-Modelle verfügen über einen eingebauten „Denkmodus“, um das Schlussfolgern zu verbessern und die Antwortqualität zu steigern – ähnlich wie QwQ-32B funktionierte. Die Anweisungen zum Wechseln unterscheiden sich je nach verwendetem Inferenz-Engine, stelle also sicher, dass du die richtigen Anweisungen verwendest.
Anweisungen für llama.cpp und Ollama:
Du kannst /think und /no_think zu User-Prompts oder Systemnachrichten hinzufügen, um den Denkmodus des Modells von Runde zu Runde zu wechseln. Das Modell folgt in mehrstufigen Gesprächen der jeweils neuesten Anweisung.
Hier ist ein Beispiel für ein mehrstufiges Gespräch:
Anweisungen für transformers und vLLM:
Denkmodus:
enable_thinking=True
Standardmäßig ist das Denken in Qwen3 aktiviert. Wenn du tokenizer.apply_chat_templateaufrufst, musst du nichts manuell setzen.
Im Denkmodus erzeugt das Modell einen zusätzlichen <think>...</think> Block vor der endgültigen Antwort — dadurch kann es „planen“ und seine Antworten schärfen.
Nicht-Denkmodus:
enable_thinking=False
Wenn der Nicht-Denkmodus aktiviert wird, überspringt Qwen3 alle Denkschritte und verhält sich wie ein normales LLM.
Dieser Modus liefert endgültige Antworten direkt — keine <think> Blöcke, kein Chain-of-Thought.
🦙 Ollama: Qwen3-Tutorial ausführen
Installiere
ollamafalls du es noch nicht getan hast! Du kannst nur Modelle bis zu einer Größe von 32B ausführen. Um das vollständige 235B-A22B-Modell auszuführen, siehe hier.
Führe das Modell aus! Beachte, dass du
ollama servein einem anderen Terminal aufrufen kannst, falls es fehlschlägt! Wir haben alle unsere Fixes und vorgeschlagenen Parameter (Temperatur usw.) inparamsin unserem Hugging-Face-Upload!
Um das Denken zu deaktivieren, verwende (oder du kannst es im System-Prompt setzen):
Wenn du Schleifen beobachtest, hat Ollama möglicherweise dein Kontextfenster auf etwa 2.048 gesetzt. Falls das der Fall ist, erhöhe es auf 32.000 und prüfe, ob das Problem weiterhin besteht.
📖 Llama.cpp: Qwen3-Tutorial ausführen
Hole dir das Neueste
llama.cppauf GitHub hier. Du kannst auch die Build-Anweisungen unten befolgen. Ändere-DGGML_CUDA=ONauf-DGGML_CUDA=OFFwenn du keine GPU hast oder einfach nur CPU-Inferenz möchtest. Für Apple-Mac-/Metal-Geräte, setze-DGGML_CUDA=OFFund fahre dann wie gewohnt fort – Metal-Unterstützung ist standardmäßig aktiviert.
Lade das Modell herunter über (nach der Installation von
pip install huggingface_hub hf_transfer). Du kannst Q4_K_M oder andere quantisierte Versionen wählen.
Führe das Modell aus und probiere einen beliebigen Prompt aus.
Um das Denken zu deaktivieren, verwende (oder du kannst es im System-Prompt setzen):
Qwen3-235B-A22B ausführen
Für Qwen3-235B-A22B werden wir speziell Llama.cpp für optimierte Inferenz und eine Vielzahl von Optionen verwenden.
Wir folgen ähnlichen Schritten wie oben, müssen diesmal aber auch zusätzliche Schritte durchführen, da das Modell so groß ist.
Lade das Modell herunter über (nach der Installation von
pip install huggingface_hub hf_transfer). Du kannst UD-Q2_K_XL oder andere quantisierte Versionen wählen..Führe das Modell aus und probiere einen beliebigen Prompt aus.
Bearbeite
--threads 32für die Anzahl der CPU-Threads,--ctx-size 16384für die Kontextlänge,--n-gpu-layers 99für GPU-Offloading, für wie viele Schichten. Versuche, es anzupassen, wenn deinem GPU der Speicher ausgeht. Entferne es auch, wenn du nur CPU-Inferenz hast.
Verwende -ot ".ffn_.*_exps.=CPU" um alle MoE-Schichten auf die CPU auszulagern! Dadurch kannst du effektiv alle Nicht-MoE-Schichten auf 1 GPU unterbringen, was die Generierungsgeschwindigkeiten verbessert. Du kannst den Regex-Ausdruck anpassen, um mehr Schichten auszulagern, wenn du mehr GPU-Kapazität hast.
🦥 Qwen3 mit Unsloth fine-tunen
Unsloth macht das Fine-Tuning von Qwen3 2x schneller, verbraucht 70 % weniger VRAM und unterstützt 8x längere Kontextlängen. Qwen3 (14B) passt problemlos auf eine Google-Colab-Tesla-T4-GPU mit 16 GB VRAM.
Da Qwen3 sowohl Schlussfolgern als auch Nicht-Schlussfolgern unterstützt, kannst du es mit einem Nicht-Schlussfolgern-Datensatz fine-tunen, aber das kann seine Schlussfolgerungsfähigkeit beeinträchtigen. Wenn du seine Schlussfolgerungsfähigkeiten beibehalten möchtest (optional), kannst du eine Mischung aus direkten Antworten und Chain-of-Thought-Beispielen verwenden. Verwende 75 % Schlussfolgern und 25 % Nicht-Schlussfolgern in deinem Datensatz, damit das Modell seine Schlussfolgerungsfähigkeiten behält.
Unser Conversational-Notebook verwendet eine Kombination aus 75 % von NVIDIAs Open-Math-Reasoning-Datensatz und 25 % von Maximes FineTome-Datensatz (Nicht-Schlussfolgern). Hier sind kostenlose Unsloth-Colab-Notebooks, um Qwen3 finezutunen:
Qwen3 (14B) Reasoning + Conversational Notebook (empfohlen)
Qwen3 (4B) - Erweiterte GRPO LoRA
Qwen3 (14B) Alpaca-Notebook (für Basismodelle)
Wenn du eine alte Version von Unsloth hast und/oder lokal fine-tunest, installiere die neueste Version von Unsloth:
Qwen3 MOE-Modelle fine-tunen
Die Fine-Tuning-Unterstützung umfasst unser neues 2026 Schnelleres MOE Update: 30B-A3B und 235B-A22B. Qwen3-30B-A3B läuft mit Unsloth bereits mit nur 17,5 GB VRAM. Beim Fine-Tuning von MoEs ist es wahrscheinlich keine gute Idee, die Router-Schicht mitzutunen, daher haben wir sie standardmäßig deaktiviert.
Das 30B-A3B passt in 17,5 GB VRAM, aber dir könnten RAM oder Speicherplatz fehlen, da das vollständige 16-Bit-Modell heruntergeladen und für das QLoRA-Fine-Tuning unterwegs in 4-Bit konvertiert werden muss. Das liegt an Problemen beim direkten Import von 4-Bit-BnB-MOE-Modellen. Dies betrifft nur MOE-Modelle.
Notebook-Anleitung:

Um die Notebooks zu verwenden, klicke einfach auf Runtime und dann auf Run all. Du kannst die Einstellungen im Notebook nach Belieben ändern. Wir haben sie standardmäßig automatisch gesetzt. Ändere den Modellnamen nach Wunsch, indem du ihn mit dem Namen des Modells auf Hugging Face abgleichst, z. B. 'unsloth/Qwen3-8B' oder 'unsloth/Qwen3-0.6B-unsloth-bnb-4bit'.
Es gibt weitere Einstellungen, die du umschalten kannst:
max_seq_length = 2048– Steuert die Kontextlänge. Obwohl Qwen3 40960 unterstützt, empfehlen wir 2048 zum Testen. Unsloth ermöglicht ein 8× längeres Kontext-Fine-Tuning.load_in_4bit = True– Aktiviert 4-Bit-Quantisierung und reduziert den Speicherverbrauch für das Fine-Tuning auf 16GB-GPUs um das Vierfache.Für Full-Finetuning - setze
full_finetuning = Trueund 8-Bit-Finetuning - setzeload_in_8bit = True
Wenn du eine vollständige End-to-End-Anleitung dazu lesen möchtest, wie man Unsloth-Notebooks zum Fine-Tuning verwendet oder einfach mehr über Fine-Tuning, das Erstellen von Datensätzen usw. erfahren möchtest, sieh dir unseren vollständigen Leitfaden hier an:
🧬Fine-tuning Guide📈Datensatz-LeitfadenGRPO mit Qwen3
Wir haben ein neues fortgeschrittenes GRPO-Notebook zum Fine-Tuning von Qwen3 erstellt. Lerne, unsere neue proximitätsbasierte Belohnungsfunktion zu verwenden (nähere Antworten = belohnt) und Hugging Faces Open-R1-Math-Datensatz. Unsloth hat jetzt auch bessere Evaluierungen und verwendet die neueste Version von vLLM.
Qwen3 (4B) Notebook - Fortgeschrittenes GRPO LoRA
Erfahre mehr über:
Reasoning in Qwen3 (Base) aktivieren und es zu einer bestimmten Aufgabe anleiten
Vor-Finetuning, um Qwen3s Tendenz zu umgehen, Formatierungen zu lernen
Verbesserte Evaluierungsgenauigkeit durch neues Regex-Matching
Benutzerdefinierte GRPO-Templates über nur „think“ hinaus, z. B. <start_working_out></end_working_out>
Proximitätsbasierte Bewertung: bessere Antworten erhalten mehr Punkte (z. B. 9 vorhersagen, wenn die Antwort 10 ist), und Ausreißer werden bestraft

Zuletzt aktualisiert
War das hilfreich?

