🌠Qwen3 - Ausführen & Finetunen
Lerne, Qwen3 lokal mit Unsloth & unseren Dynamic 2.0-Quants auszuführen und zu finetunen
Qwens neue Qwen3-Modelle liefern modernste Fortschritte im Schließen von Schlussfolgerungen, im Befolgen von Anweisungen, in Agentenfähigkeiten und in der mehrsprachigen Unterstützung.
NEU! Qwen3 wurde im Juli 2025 aktualisiert. Führen Sie das neueste Modell aus und feinabstimmen Sie es: Qwen-2507
Alle Uploads verwenden Unsloth Dynamic 2.0 für SOTA 5-shot MMLU- und KL-Divergenz-Leistung, was bedeutet, dass Sie quantisierte Qwen-LLMs mit minimalem Genauigkeitsverlust ausführen und feinabstimmen können.
Wir haben Qwen3 außerdem mit nativer 128K-Kontextlänge hochgeladen. Qwen erreicht dies, indem es YaRN verwendet, um sein ursprüngliches 40K-Fenster auf 128K zu erweitern.
Unsloth unterstützt jetzt auch Fine-Tuning und Verstärkendes Lernen (RL) von Qwen3- und Qwen3-MOE-Modellen — 2× schneller, mit 70% weniger VRAM und 8× längeren Kontextlängen. Feinabstimmen Sie Qwen3 (14B) kostenlos mit unserem Colab-Notebook.
Qwen3 ausführen Tutorial Qwen3 feinabstimmen
Qwen3 - Unsloth Dynamic 2.0 mit optimalen Konfigurationen:
🖥️ Qwen3 ausführen
Um Inferenzgeschwindigkeiten von mehr als 6 Token pro Sekunde zu erreichen, empfehlen wir, dass Ihr verfügbarer Speicher der Größe des verwendeten Modells entspricht oder diese übersteigt. Zum Beispiel erfordert ein 30-GB-1-Bit-quantisiertes Modell mindestens 150 GB Speicher. Die Q2_K_XL-Quantisierung, die 180 GB groß ist, wird mindestens 180 GB einheitlichen Speicher (VRAM + RAM) oder 180 GB RAM für optimale Leistung benötigen.
HINWEIS: Es ist möglich, das Modell mit weniger Gesamtspeicher als seiner Größe zu betreiben (z. B. weniger VRAM, weniger RAM oder eine geringere kombinierte Gesamtsumme). Dies führt jedoch zu langsameren Inferenzzeiten. Ausreichender Speicher ist nur erforderlich, wenn Sie den Durchsatz maximieren und die schnellsten Inferenzzeiten erreichen möchten.
⚙️ Offiziell empfohlene Einstellungen
Laut Qwen sind dies die empfohlenen Einstellungen für die Inferenz:
Temperatur = 0,7
Temperature = 0.6
Min_P = 0.0 (optional, aber 0.01 funktioniert gut, llama.cpp-Standard ist 0.1)
Min_P = 0.0
Top_P = 0,8
Top_P = 0,95
TopK = 20
TopK = 20
Chat-Vorlage/Prompt-Format:
Für den NICHT-Denk-Modus schließen wir absichtlich <think> und </think> ohne Inhalt ein:
Für den Denk-Modus NICHT greedy decoding verwenden, da dies zu Leistungsverlusten und endlosen Wiederholungen führen kann.
Wechsel zwischen Denk- und Nicht-Denk-Modus
Qwen3-Modelle verfügen über einen eingebauten „Denkmodus“, um das Schlussfolgern zu verbessern und die Antwortqualität zu steigern – ähnlich wie QwQ-32B funktionierte. Die Anweisungen zum Umschalten unterscheiden sich je nach verwendetem Inferenz-Engine, stellen Sie also sicher, dass Sie die richtigen Anweisungen verwenden.
Anweisungen für llama.cpp und Ollama:
Sie können /think und /no_think zu Benutzer-Prompts oder Systemnachrichten hinzufügen, um den Denkmodus des Modells von Runde zu Runde umzuschalten. Das Modell folgt der zuletzt gegebenen Anweisung in mehrteiligen Gesprächen.
Hier ist ein Beispiel für ein mehrstufiges Gespräch:
Anweisungen für transformers und vLLM:
Denkmodus:
enable_thinking=True
Standardmäßig ist bei Qwen3 das Denken aktiviert. Wenn Sie tokenizer.apply_chat_templateaufrufen, müssen Sie nichts manuell einstellen.
Im Denkmodus generiert das Modell zusätzlich einen <think>...</think> Block vor der finalen Antwort — das erlaubt ihm, zu „planen“ und seine Antworten zu schärfen.
Nicht-Denk-Modus:
enable_thinking=False
Das Aktivieren des Nicht-Denk-Modus lässt Qwen3 alle Denk-Schritte überspringen und sich wie ein normales LLM verhalten.
Dieser Modus liefert direkte Endantworten — keine <think> Blöcke, keine Chain-of-Thought.
🦙 Ollama: Qwen3-Tutorial ausführen
Installieren Sie
ollamafalls Sie es noch nicht getan haben! Sie können nur Modelle bis zu einer Größe von 32B ausführen. Um das volle 235B-A22B-Modell auszuführen, siehe hier.
Führen Sie das Modell aus! Beachten Sie, dass Sie aufrufen können
ollama servein einem anderen Terminal, falls es fehlschlägt! Wir fügen alle unsere Fixes und vorgeschlagenen Parameter (Temperatur usw.) inparamsin unserem Hugging Face-Upload hinzu!
Um Denken zu deaktivieren, verwenden Sie (oder Sie können es im Systemprompt setzen):
Wenn Sie Schleifenprobleme haben, hat Ollama möglicherweise Ihre Kontextlänge auf etwa 2.048 gesetzt. In diesem Fall erhöhen Sie sie auf 32.000 und prüfen, ob das Problem weiterhin besteht.
📖 Llama.cpp: Qwen3-Tutorial ausführen
Holen Sie sich die neueste
llama.cppauf GitHub hier. Sie können auch den unten stehenden Build-Anweisungen folgen. Ändern Sie-DGGML_CUDA=ONzu-DGGML_CUDA=OFFwenn Sie keine GPU haben oder nur CPU-Inferenz wünschen.
Laden Sie das Modell herunter über (nach Installation von
pip install huggingface_hub hf_transfer). Sie können Q4_K_M oder andere quantisierte Versionen wählen.
Führe das Modell aus und probiere beliebige Prompts.
Um Denken zu deaktivieren, verwenden Sie (oder Sie können es im Systemprompt setzen):
Qwen3-235B-A22B ausführen
Für Qwen3-235B-A22B werden wir speziell Llama.cpp für optimierte Inferenz und eine Fülle von Optionen verwenden.
Wir folgen ähnlichen Schritten wie oben, jedoch müssen wir dieses Mal zusätzliche Schritte durchführen, weil das Modell so groß ist.
Laden Sie das Modell herunter über (nach Installation von
pip install huggingface_hub hf_transfer). Du kannst UD-Q2_K_XL oder andere quantisierte Versionen wählen..Führe das Modell aus und probiere beliebige Prompts.
Bearbeiten
--threads 32für die Anzahl der CPU-Threads bearbeiten,--ctx-size 16384für die Kontextlänge,--n-gpu-layers 99für das GPU-Offloading für wie viele Schichten. Versuchen Sie, es anzupassen, wenn Ihre GPU nicht mehr genügend Speicher hat. Entfernen Sie es auch, wenn Sie nur CPU-Inferenz haben.
Verwenden Sie -ot ".ffn_.*_exps.=CPU" um alle MoE-Schichten auf die CPU auszulagern! Dies ermöglicht es effektiv, alle Nicht-MoE-Schichten auf einer GPU unterzubringen und die Generationsgeschwindigkeit zu verbessern. Sie können den Regex-Ausdruck anpassen, um mehr Schichten auszulagern, wenn Sie mehr GPU-Kapazität haben.
🦥 Qwen3 mit Unsloth feinabstimmen
Unsloth macht das Feinabstimmen von Qwen3 2× schneller, verwendet 70% weniger VRAM und unterstützt 8× längere Kontextlängen. Qwen3 (14B) passt bequem auf eine Google Colab Tesla T4 GPU mit 16 GB VRAM.
Da Qwen3 sowohl Schlussfolgern als auch Nicht-Schlussfolgern unterstützt, können Sie es mit einem Nicht-Schlussfolgerungs-Datensatz feinabstimmen, dies kann jedoch seine Schlussfolgerungsfähigkeit beeinträchtigen. Wenn Sie seine Schlussfolgerungsfähigkeiten erhalten möchten (optional), können Sie eine Mischung aus direkten Antworten und Chain-of-Thought-Beispielen verwenden. Verwenden Sie 75% Reasoning und 25% Nicht-Reasoning in Ihrem Datensatz, damit das Modell seine Reasoning-Fähigkeiten behält.
Unser Konversations-Notebook verwendet eine Kombination aus 75% NVIDIAs Open-Math-Reasoning-Datensatz und 25% Maximes FineTome-Datensatz (Nicht-Schlussfolgerung). Hier sind kostenlose Unsloth Colab-Notebooks zum Feinabstimmen von Qwen3:
Qwen3 (14B) Reasoning + Conversational-Notebook (empfohlen)
Qwen3 (4B) - Advanced GRPO LoRA
Qwen3 (14B) Alpaca-Notebook (für Basis-Modelle)
Wenn du eine alte Version von Unsloth hast und/oder lokal feinabstimmst, installiere die neueste Version von Unsloth:
Feinabstimmung von Qwen3 MOE-Modellen
Feinabstimmungsunterstützung umfasst MOE-Modelle: 30B-A3B und 235B-A22B. Qwen3-30B-A3B funktioniert mit Unsloth bereits auf nur 17,5 GB VRAM. Beim Feinabstimmen von MoEs ist es wahrscheinlich keine gute Idee, die Router-Schicht zu feinabstimmen, daher haben wir sie standardmäßig deaktiviert.
Das 30B-A3B passt in 17,5 GB VRAM, aber Ihnen könnten RAM- oder Festplattenspeicher fehlen, da das vollständige 16-Bit-Modell heruntergeladen und für QLoRA-Feinabstimmung dynamisch in 4 Bit konvertiert werden muss. Dies liegt an Problemen beim direkten Importieren von 4-Bit-BnB-MOE-Modellen. Dies betrifft nur MOE-Modelle.
Notebook-Anleitung:

Um die Notebooks zu verwenden, klicken Sie einfach auf Runtime und dann auf Run all. Sie können die Einstellungen im Notebook nach Belieben ändern. Wir haben sie standardmäßig automatisch gesetzt. Ändern Sie den Modellnamen nach Wunsch, indem Sie ihn mit dem Namen des Modells auf Hugging Face abgleichen, z. B. 'unsloth/Qwen3-8B' oder 'unsloth/Qwen3-0.6B-unsloth-bnb-4bit'.
Es gibt weitere Einstellungen, die du umschalten kannst:
max_seq_length = 2048– Steuert die Kontextlänge. Während Qwen3 40960 unterstützt, empfehlen wir für Tests 2048. Unsloth ermöglicht 8× längeres Kontext-Finetuning.load_in_4bit = True– Aktiviert 4-Bit-Quantisierung und reduziert so den Speicherbedarf beim Feinabstimmen auf 16-GB-GPUs um das 4×-Fache.Für vollständiges Fein-Tuning - setzen
full_finetuning = Trueund 8-Bit-Finetuning - setzenload_in_8bit = True
Wenn Sie eine vollständige End-to-End-Anleitung zur Verwendung der Unsloth-Notebooks für Feinabstimmung lesen oder einfach mehr über Feinabstimmung, Erstellen von datasets usw. erfahren möchten, sehen Sie unsere komplette Anleitung hier:
🧬Fine-tuning Guide📈Datensatz-AnleitungGRPO mit Qwen3
Wir haben ein neues fortgeschrittenes GRPO-Notebook zum Feinabstimmen von Qwen3 erstellt. Lernen Sie, unsere neue proximitätsbasierte Belohnungsfunktion zu verwenden (nähe Antworten = belohnt) und Hugging Faces Open-R1-Mathematik-Datensatz. Unsloth hat jetzt außerdem bessere Bewertungen und verwendet die neueste Version von vLLM.
Qwen3 (4B) Notebook - Advanced GRPO LoRA
Erfahren Sie über:
Aktivierung von Schlussfolgern in Qwen3 (Base)+ und das Anleiten zur Ausführung einer bestimmten Aufgabe
Pre-Finetuning, um GRPOs Tendenz, Formatierung zu lernen, zu umgehen
Verbesserte Evaluationsgenauigkeit durch neues Regex-Matching
Benutzerdefinierte GRPO-Vorlagen über nur 'think' hinaus, z. B. <start_working_out></end_working_out>
Proximitätsbasierte Bewertung: bessere Antworten erhalten mehr Punkte (z. B. Vorhersage 9, wenn die Antwort 10 ist) und Ausreißer werden bestraft

Zuletzt aktualisiert
War das hilfreich?

