🌠Qwen3 - Wie man ausführt & feinabstimmt
Lerne, Qwen3 lokal mit Unsloth & unseren Dynamic 2.0-Quants auszuführen und feinabzustimmen
Qwens neue Qwen3-Modelle liefern hochmoderne Fortschritte in den Bereichen Schlussfolgern, Befolge-anweisungen, Agentenfähigkeiten und mehrsprachige Unterstützung.
NEU! Qwen3 erhielt im Juli 2025 ein Update. Führe das neueste Modell aus und feineinstelle es: Qwen-2507
Alle Uploads verwenden Unsloth Dynamic 2.0 für SOTA 5-Shot MMLU- und KL-Divergenz-Leistung, das heißt, du kannst quantisierte Qwen-LLMs mit minimalem Genauigkeitsverlust ausführen und feinabstimmen.
Wir haben Qwen3 außerdem mit nativem 128K-Kontextlängen-Support hochgeladen. Qwen erreicht dies, indem YaRN verwendet wird, um sein ursprüngliches 40K-Fenster auf 128K zu erweitern.
Unsloth unterstützt jetzt auch Fine-Tuning und Verstärkendes Lernen (RL) für Qwen3- und Qwen3-MOE-Modelle — 2x schneller, mit 70% weniger VRAM und 8x längeren Kontextlängen. Feineinstellen von Qwen3 (14B) ist kostenlos möglich mit unserem Colab-Notebook.
Qwen3 ausführen – Tutorial Qwen3 feinabstimmen
Qwen3 - Unsloth Dynamic 2.0 mit optimalen Konfigurationen:
🖥️ Qwen3 ausführen
Um Inferenzgeschwindigkeiten von 6+ Token pro Sekunde zu erreichen, empfehlen wir, dass dein verfügbarer Speicher der Größe des verwendeten Modells entsprechen oder diese übersteigen sollte. Beispielsweise benötigt ein 30GB 1-bit quantisiertes Modell mindestens 150GB Speicher. Das Q2_K_XL-Quant, das 180GB beträgt, erfordert mindestens 180GB einheitlichen Speicher (VRAM + RAM) oder 180GB RAM für optimale Leistung.
HINWEIS: Es ist möglich, das Modell mit weniger Gesamtspeicher als seiner Größe auszuführen (z. B. weniger VRAM, weniger RAM oder eine geringere kombinierte Gesamtmenge). Dies führt jedoch zu langsameren Inferenzgeschwindigkeiten. Ausreichender Speicher ist nur erforderlich, wenn du die Durchsatzleistung maximieren und die schnellsten Inferenzzeiten erreichen möchtest.
⚙️ Offizielle empfohlene Einstellungen
Laut Qwen sind dies die empfohlenen Einstellungen für die Inferenz:
Temperatur = 0,7
Temperature = 0.6
Min_P = 0.0 (optional, aber 0.01 funktioniert gut, llama.cpp-Standard ist 0.1)
Min_P = 0.0
Top_P = 0,8
Top_P = 0,95
TopK = 20
TopK = 20
Chat-Vorlage/Prompt-Format:
Für den NICHT-Denkmodus schließen wir <think> und </think> absichtlich mit nichts ein:
Für den Denkmodus: Verwende KEINE greedy Decodierung, da dies zu Leistungseinbußen und endlosen Wiederholungen führen kann.
Wechsel zwischen Denk- und Nicht-Denkmodus
Qwen3-Modelle enthalten einen eingebauten "Denkmodus", um das Schlussfolgern zu verbessern und die Antwortqualität zu steigern — ähnlich wie QwQ-32B funktionierte. Anweisungen zum Wechseln unterscheiden sich je nach verwendeter Inferenz-Engine, daher stelle sicher, dass du die richtigen Anweisungen verwendest.
Anweisungen für llama.cpp und Ollama:
Du kannst /think und /no_think zu Benutzer-Prompts oder Systemnachrichten hinzufügen, um den Denkmodus des Modells von Runde zu Runde umzuschalten. Das Modell befolgt in Mehrfachrunden-Konversationen die zuletzt gegebene Anweisung.
Hier ist ein Beispiel für eine Mehrfachrunden-Konversation:
Anweisungen für transformers und vLLM:
Denkmodus:
enable_thinking=True
Standardmäßig ist bei Qwen3 das Denken aktiviert. Wenn du tokenizer.apply_chat_templateaufrufst, musst du nichts manuell setzen.
Im Denkmodus wird das Modell einen zusätzlichen <think>...</think> Block vor der finalen Antwort erzeugen — das lässt es "planen" und schärft seine Antworten.
Nicht-Denkmodus:
enable_thinking=False
Das Aktivieren des Nicht-Denkens lässt Qwen3 alle Denk-Schritte überspringen und wie ein normales LLM agieren.
Dieser Modus liefert direkte abschließende Antworten — keine <think> Blöcke, keine Chain-of-Thought.
🦙 Ollama: Qwen3-Tutorial ausführen
In Ollama ausführen
Installieren Siefalls du es noch nicht getan hast! Du kannst nur Modelle bis zu einer Größe von 32B ausführen. Um das komplette 235B-A22B-Modell auszuführen, falls Sie es noch nicht getan haben! Um weitere Varianten des Modells auszuführen,.
curl -fsSL https://ollama.com/install.sh | sh
Führen Sie das Modell aus! Beachten Sie, dass Sieollama servein einem anderen Terminal aufrufen können, wenn es fehlschlägt! Wir fügen alle unsere Fixes und vorgeschlagenen Parameter (Temperatur usw.) inparams
Um Denken zu deaktivieren, verwende (oder du kannst es im Systemprompt setzen):
Wenn du irgendwelche Schleifenprobleme hast, könnte Ollama dein Kontextfenster auf etwa 2.048 gesetzt haben. Erhöhe es in diesem Fall auf 32.000 und prüfe, ob das Problem weiterhin besteht.
📖 Llama.cpp: Qwen3-Tutorial ausführen
Hole dir die neueste
llama.cppauf GitHub hier. Du kannst auch den Build-Anweisungen unten folgen. Ändere-DGGML_CUDA=ONzu-DGGML_CUDA=OFFwenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze-DGGML_CUDA=OFFdann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.
Laden Sie das Modell herunter (nach der Installation
pip install huggingface_hub hf_transfer). Du kannst Q4_K_M oder andere quantisierte Versionen wählen.
Führe das Modell aus und probiere beliebige Prompts.
Um Denken zu deaktivieren, verwende (oder du kannst es im Systemprompt setzen):
Qwen3-235B-A22B ausführen
Für Qwen3-235B-A22B werden wir speziell Llama.cpp für optimierte Inferenz und eine Fülle von Optionen verwenden.
Wir folgen ähnlichen Schritten wie oben, jedoch müssen wir dieses Mal zusätzliche Schritte durchführen, weil das Modell so groß ist.
Laden Sie das Modell herunter (nach der Installation
pip install huggingface_hub hf_transfer). Du kannst UD-Q2_K_XL oder andere quantisierte Versionen wählen..Führe das Modell aus und probiere beliebige Prompts.
Bearbeiten
Sie können--threads 32für die Anzahl der CPU-Threads bearbeiten,--ctx-size 16384--n-gpu-layers 99--n-gpu-layers 2
Verwende -ot ".ffn_.*_exps.=CPU" um alle MoE-Schichten auf die CPU auszulagern! Dadurch können Sie effektiv alle Nicht-MoE-Schichten auf einer GPU unterbringen, was die Generationsgeschwindigkeit verbessert. Sie können den Regex-Ausdruck anpassen, um mehr Schichten zu verschieben, wenn Sie mehr GPU-Kapazität haben.
🦥 Qwen3 mit Unsloth feinabstimmen
Unsloth macht das Feintuning von Qwen3 2x schneller, verwendet 70% weniger VRAM und unterstützt 8x längere Kontextlängen. Qwen3 (14B) passt bequem auf eine Google Colab 16GB VRAM Tesla T4 GPU.
Da Qwen3 sowohl Schlussfolgern als auch Nicht-Schlussfolgern unterstützt, kannst du es mit einem Nicht-Schlussfolgerungs-Datensatz feinabstimmen, aber das kann seine Schlussfolgerungsfähigkeit beeinträchtigen. Wenn du seine Schlussfolgerungsfähigkeiten beibehalten möchtest (optional), kannst du eine Mischung aus direkten Antworten und Chain-of-Thought-Beispielen verwenden. Verwende 75% Reasoning und 25% Nicht-Reasoning in deinem Datensatz, damit das Modell seine Reasoning-Fähigkeiten behält.
Unser Conversation-Notebook verwendet eine Kombination aus 75% NVIDIAs open-math-reasoning-Datensatz und 25% Maximes FineTome-Datensatz (nicht-schlussfolgernd). Hier sind kostenlose Unsloth Colab-Notebooks, um Qwen3 feinabzustimmen:
Qwen3 (14B) Reasoning + Conversational-Notebook (empfohlen)
Qwen3 (4B) - Advanced GRPO LoRA
Qwen3 (14B) Alpaca-Notebook (für Basis-Modelle)
Wenn Sie eine alte Version von Unsloth haben und/oder lokal feinabstimmen, installieren Sie die neueste Version von Unsloth:
Feintuning von Qwen3 MOE-Modellen
Die Fine-Tuning-Unterstützung umfasst unser neues 2026 Faster MOE Update: 30B-A3B und 235B-A22B. Qwen3-30B-A3B funktioniert mit nur 17,5GB VRAM mit Unsloth. Beim Fine-Tuning von MoEs ist es wahrscheinlich keine gute Idee, die Router-Schicht feinzujustieren, daher haben wir sie standardmäßig deaktiviert.
Das 30B-A3B passt in 17,5GB VRAM, aber dir könnte RAM oder Festplattenspeicher fehlen, da das vollständige 16-Bit-Modell heruntergeladen und für QLoRA-Feintuning on-the-fly in 4-Bit konvertiert werden muss. Dies liegt an Problemen beim direkten Import von 4-Bit BnB MOE-Modellen. Dies betrifft nur MOE-Modelle.
Notebook-Anleitung:

Um die Notebooks zu verwenden, klicke einfach auf Runtime und dann auf Run all. Du kannst die Einstellungen im Notebook nach Belieben ändern. Wir haben sie standardmäßig automatisch gesetzt. Ändere den Modellnamen nach Belieben, indem du ihn mit dem Namen des Modells auf Hugging Face abgleichst, z. B. 'unsloth/Qwen3-8B' oder 'unsloth/Qwen3-0.6B-unsloth-bnb-4bit'.
Es gibt weitere Einstellungen, die du umschalten kannst:
max_seq_length = 2048– Steuert die Kontextlänge. Während Qwen3 40960 unterstützt, empfehlen wir 2048 zum Testen. Unsloth ermöglicht 8× längeres Kontext-Finetuning.load_in_4bit = True– Aktiviert 4-Bit-Quantisierung, wodurch der Speicherbedarf für Feintuning auf 16GB-GPUs um das 4-fache reduziert wird.Für vollständiges Finetuning - setze
full_finetuning = Trueund 8-Bit-Finetuning - setzeload_in_8bit = True
Wenn du eine vollständige Schritt-für-Schritt-Anleitung lesen möchtest, wie man Unsloth-Notebooks zum Feintuning verwendet oder einfach mehr über Feintuning, Erstellen von Datensätzen usw. erfahren willst, sieh dir unseren vollständigen Leitfaden hier:
🧬Fine-tuning Guide📈Datensatz-AnleitungGRPO mit Qwen3
Wir haben ein neues Advanced-GRPO-Notebook zum Feintuning von Qwen3 erstellt. Lerne, unsere neue proximitätsbasierte Belohnungsfunktion zu verwenden (nähe Antworten = belohnt) und Hugging Faces Open-R1-Mathematik-Datensatz. Unsloth hat jetzt auch bessere Evaluierungen und verwendet die neueste Version von vLLM.
Qwen3 (4B) Notebook - Advanced GRPO LoRA
Lerne über:
Aktivierung von Schlussfolgern in Qwen3 (Base) + Anleitung, es eine bestimmte Aufgabe ausführen zu lassen
Pre-Finetuning, um GRPOs Tendenz zu umgehen, Formatierung zu lernen
Verbesserte Evaluierungsgenauigkeit durch neues Regex-Matching
Benutzerdefinierte GRPO-Vorlagen über nur 'think' hinaus, z. B. <start_working_out></end_working_out>
Proximitätsbasierte Bewertung: bessere Antworten erhalten mehr Punkte (z. B. Vorhersage 9, wenn die Antwort 10 ist) und Ausreißer werden bestraft

Zuletzt aktualisiert
War das hilfreich?

