🌠Qwen3 - Wie man ausführt & feinabstimmt
Lerne, Qwen3 lokal mit Unsloth und unseren Dynamic 2.0-Quants auszuführen und feinabzustimmen
Qwens neue Qwen3-Modelle liefern hochmoderne Fortschritte in den Bereichen Schlussfolgerung, Befolgen von Anweisungen, Agentenfähigkeiten und mehrsprachige Unterstützung.
NEU! Qwen3 wurde im Juli 2025 aktualisiert. Führe das neueste Modell aus und passe es an: Qwen-2507
Alle Uploads verwenden Unsloth Dynamic 2.0 für SOTA 5-Shot MMLU- und KL-Divergenz-Leistung, was bedeutet, dass du quantisierte Qwen-LLMs mit minimalem Genauigkeitsverlust ausführen und feinabstimmen kannst.
Wir haben Qwen3 auch mit nativer 128K-Kontextlänge hochgeladen. Qwen erreicht dies, indem YaRN verwendet wird, um sein ursprüngliches 40K-Fenster auf 128K zu erweitern.
Unsloth unterstützt jetzt außerdem Fine-Tuning und Verstärkungslernen (RL) von Qwen3- und Qwen3-MOE-Modellen — 2x schneller, mit 70% weniger VRAM und 8x längeren Kontextlängen. Feineinstelle Qwen3 (14B) kostenlos mit unserem Colab-Notebook.
Qwen3 ausführen Tutorial Qwen3 feinabstimmen
Qwen3 - Unsloth Dynamic 2.0 mit optimalen Konfigurationen:
🖥️ Qwen3 ausführen
Um Inferenzgeschwindigkeiten von über 6 Token pro Sekunde zu erreichen, empfehlen wir, dass dein verfügbarer Speicher der Größe des verwendeten Modells entspricht oder diese übersteigt. Zum Beispiel erfordert ein 30-GB-1-Bit-quantisiertes Modell mindestens 150 GB Speicher. Das Q2_K_XL-Quant, das 180 GB groß ist, benötigt mindestens 180 GB einheitlichen Speicher (VRAM + RAM) oder 180 GB RAM für optimale Leistung.
HINWEIS: Es ist möglich, das Modell mit weniger Gesamtspeicher als seiner Größe auszuführen (d. h. weniger VRAM, weniger RAM oder eine geringere kombinierte Gesamtmenge). Dies führt jedoch zu langsameren Inferenzgeschwindigkeiten. Ausreichender Speicher ist nur erforderlich, wenn du den Durchsatz maximieren und die schnellsten Inferenzzeiten erreichen möchtest.
⚙️ Offiziell empfohlene Einstellungen
Laut Qwen sind dies die empfohlenen Einstellungen für die Inferenz:
Temperatur = 0,7
Temperatur = 0,6
Min_P = 0,0 (optional, aber 0,01 funktioniert gut, der llama.cpp-Standard ist 0,1)
Min_P = 0,0
Top_P = 0,8
Top_P = 0,95
TopK = 20
TopK = 20
Chat-Vorlage/Prompt-Format:
Für den NICHT-Denk-Modus schließen wir <think> und </think> absichtlich ohne Inhalt ein:
Für den Denk-Modus: Verwende KEINE gierige Dekodierung, da dies zu Leistungseinbußen und endlosen Wiederholungen führen kann.
Wechsel zwischen Denk- und Nicht-Denk-Modus
Qwen3-Modelle verfügen über einen eingebauten "Denkmodus", um Schlussfolgerungen zu verbessern und die Antwortqualität zu steigern - ähnlich wie QwQ-32B funktionierte. Die Anweisungen zum Umschalten unterscheiden sich je nach verwendeter Inferenz-Engine, stelle also sicher, dass du die richtigen Anweisungen verwendest.
Anweisungen für llama.cpp und Ollama:
Du kannst hinzufügen /think und /no_think zu Benutzer-Prompts oder System-Nachrichten, um den Denkmodus des Modells von Runde zu Runde zu wechseln. Das Modell folgt der zuletzt erteilten Anweisung in Mehrfach-Runden-Konversationen.
Hier ist ein Beispiel für eine Mehrfach-Runden-Konversation:
Anweisungen für transformers und vLLM:
Denkmodus:
enable_thinking=True
Standardmäßig ist bei Qwen3 das Denken aktiviert. Wenn du tokenizer.apply_chat_template, rufst du musst du nichts manuell setzen.
Im Denkmodus generiert das Modell ein zusätzliches <think>...</think> Block vor der finalen Antwort — das ermöglicht ihm, zu "planen" und seine Antworten zu verfeinern.
Nicht-Denk-Modus:
enable_thinking=False
Das Aktivieren des Nicht-Denk-Modus lässt Qwen3 alle Denk-Schritte überspringen und wie ein normales LLM agieren.
Dieser Modus liefert direkte Endantworten — keine <think> Blöcke, keine Gedankenkette.
🦙 Ollama: Qwen3 Tutorial ausführen
Installiere
ollamafalls du es noch nicht getan hast! Du kannst Modelle nur bis zu einer Größe von 32B ausführen. Um das vollständige 235B-A22B-Modell auszuführen, siehe hier.
Führe das Modell aus! Beachte, dass du
ollama servein einem anderen Terminal aufrufen kannst, falls es fehlschlägt! Wir fügen alle unsere Fixes und vorgeschlagenen Parameter (Temperatur etc.) inparamsin unserem Hugging Face-Upload hinzu!
Um Denken zu deaktivieren, verwende (oder du kannst es im System-Prompt setzen):
Wenn du Schleifen beobachtest, hat Ollama möglicherweise dein Kontextfenster auf etwa 2048 gesetzt. In diesem Fall erhöhe es auf 32.000 und prüfe, ob das Problem weiterhin besteht.
📖 Llama.cpp: Qwen3 Tutorial ausführen
Hole dir das neueste
llama.cppauf GitHub hier. Du kannst auch den untenstehenden Build-Anweisungen folgen. Ändere-DGGML_CUDA=ONzu-DGGML_CUDA=OFFwenn du keine GPU hast oder nur CPU-Inferenz möchtest.
Lade das Modell herunter via (nach Installation von
pip install huggingface_hub hf_transfer). Du kannst Q4_K_M oder andere quantisierte Versionen wählen.
Führe das Modell aus und probiere beliebige Prompts.
Um Denken zu deaktivieren, verwende (oder du kannst es im System-Prompt setzen):
Qwen3-235B-A22B ausführen
Für Qwen3-235B-A22B verwenden wir speziell Llama.cpp für optimierte Inferenz und eine Fülle von Optionen.
Wir folgen ähnlichen Schritten wie oben, allerdings müssen wir dieses Mal zusätzliche Schritte durchführen, weil das Modell so groß ist.
Lade das Modell herunter via (nach Installation von
pip install huggingface_hub hf_transfer). Du kannst UD-Q2_K_XL oder andere quantisierte Versionen wählen..Führe das Modell aus und probiere beliebige Prompts.
Bearbeite
--threads 32für die Anzahl der CPU-Threads,--ctx-size 16384für die Kontextlänge,--n-gpu-layers 99für GPU-Offloading, also wie viele Schichten. Versuche, diesen Wert anzupassen, wenn deine GPU nicht mehr genug Speicher hat. Entferne ihn auch, wenn du nur CPU-Inferenz hast.
Verwende -ot ".ffn_.*_exps.=CPU" um alle MoE-Schichten auf die CPU auszulagern! Dadurch kannst du effektiv alle Nicht-MoE-Schichten auf einer GPU unterbringen, was die Generationsgeschwindigkeit verbessert. Du kannst den Regex-Ausdruck anpassen, um mehr Schichten auszulagern, wenn du mehr GPU-Kapazität hast.
🦥 Qwen3 mit Unsloth feinabstimmen
Unsloth macht das Fine-Tuning von Qwen3 2x schneller, verwendet 70% weniger VRAM und unterstützt 8x längere Kontextlängen. Qwen3 (14B) passt bequem auf eine Google Colab Tesla T4 GPU mit 16 GB VRAM.
Da Qwen3 sowohl Schlussfolgerungs- als auch Nicht-Schlussfolgerungsfähigkeiten unterstützt, kannst du es mit einem Nicht-Schlussfolgerungs-Datensatz feinabstimmen, aber das kann seine Schlussfolgerungsfähigkeit beeinträchtigen. Wenn du seine Schlussfolgerungsfähigkeiten beibehalten möchtest (optional), kannst du eine Mischung aus direkten Antworten und Chain-of-Thought-Beispielen verwenden. Nutze 75% Schlussfolgerung und 25% Nicht-Schlussfolgerung in deinem Datensatz, damit das Modell seine Schlussfolgerungsfähigkeiten beibehält.
Unser Konversations-Notebook verwendet eine Kombination aus 75% NVIDIAs Open-Math-Reasoning-Datensatz und 25% Maximes FineTome-Datensatz (Nicht-Schlussfolgerung). Hier sind kostenlose Unsloth Colab-Notebooks zum Feinabstimmen von Qwen3:
Qwen3 (14B) Reasoning + Conversational Notebook (empfohlen)
Qwen3 (4B) - Advanced GRPO LoRA
Qwen3 (14B) Alpaca-Notebook (für Basismodelle)
Wenn du eine ältere Version von Unsloth hast und/oder lokal feinabstimmst, installiere die neueste Version von Unsloth:
Fine-Tuning von Qwen3 MOE-Modellen
Die Fine-Tuning-Unterstützung umfasst unser neues 2026 Faster MOE Update: 30B-A3B und 235B-A22B. Qwen3-30B-A3B funktioniert mit nur 17,5 GB VRAM mit Unsloth. Beim Fine-Tuning von MoEs ist es wahrscheinlich keine gute Idee, die Router-Schicht zu feinabstimmen, daher haben wir sie standardmäßig deaktiviert.
Die 30B-A3B passt in 17,5 GB VRAM, aber dir könnten RAM- oder Festplattenspeicher fehlen, da das vollständige 16-Bit-Modell heruntergeladen und für QLoRA-Finetuning bei Bedarf in 4-Bit konvertiert werden muss. Dies liegt an Problemen beim direkten Importieren von 4-Bit-BnB-MoE-Modellen. Dies betrifft nur MOE-Modelle.
Notebook-Anleitung:

Um die Notebooks zu verwenden, klicke einfach auf Runtime und dann auf Run all. Du kannst die Einstellungen im Notebook nach Belieben ändern. Wir haben sie standardmäßig automatisch gesetzt. Ändere den Modellnamen, um ihn mit dem Namen des Modells auf Hugging Face abzugleichen, z. B. 'unsloth/Qwen3-8B' oder 'unsloth/Qwen3-0.6B-unsloth-bnb-4bit'.
Es gibt weitere Einstellungen, die du umschalten kannst:
max_seq_length = 2048– Steuert die Kontextlänge. Während Qwen3 40960 unterstützt, empfehlen wir 2048 für Tests. Unsloth ermöglicht 8× längeres Kontext-Fine-Tuning.load_in_4bit = True– Aktiviert 4-Bit-Quantisierung und reduziert den Speicherbedarf für Fine-Tuning auf 16-GB-GPUs um das 4-fache.Für Full-Finetuning - setze
full_finetuning = Trueund 8-Bit-Finetuning - setzeload_in_8bit = True
Wenn du eine vollständige End-to-End-Anleitung zum Verwenden der Unsloth-Notebooks für Fine-Tuning lesen möchtest oder einfach nur etwas über Fine-Tuning, das Erstellen von Datensätzen usw. erfahren willst, sieh dir unsere komplette Anleitung hier:
🧬Fine-tuning Guide📈Leitfaden zu DatensätzenGRPO mit Qwen3
Wir haben ein neues Advanced-GRPO-Notebook zum Feinabstimmen von Qwen3 erstellt. Lerne, unsere neue proximity-basierte Belohnungsfunktion zu verwenden (nähere Antworten = belohnt) und Hugging Faces Open-R1-Mathematik-Datensatz. Unsloth hat jetzt zudem bessere Bewertungen und verwendet die neueste Version von vLLM.
Qwen3 (4B) Notebook - Advanced GRPO LoRA
Lerne über:
Aktivierung von Schlussfolgerung in Qwen3 (Base)+ und das Leiten zu einer spezifischen Aufgabe
Pre-Finetuning, um GRPOs Tendenz zum Erlernen von Formatierungen zu umgehen
Verbesserte Evaluierungsgenauigkeit durch neues Regex-Matching
Benutzerdefinierte GRPO-Vorlagen über nur 'think' hinaus z. B. <start_working_out></end_working_out>
Proximity-basierte Bewertung: bessere Antworten erhalten mehr Punkte (z. B. Vorhersage 9, wenn die Antwort 10 ist) und Ausreißer werden bestraft

Zuletzt aktualisiert
War das hilfreich?

