🌠Qwen3 - Ausführen & Finetunen

Lerne, Qwen3 lokal mit Unsloth & unseren Dynamic 2.0-Quants auszuführen und zu finetunen

Qwens neue Qwen3-Modelle liefern modernste Fortschritte im Schließen von Schlussfolgerungen, im Befolgen von Anweisungen, in Agentenfähigkeiten und in der mehrsprachigen Unterstützung.

circle-check

Alle Uploads verwenden Unsloth Dynamic 2.0 für SOTA 5-shot MMLU- und KL-Divergenz-Leistung, was bedeutet, dass Sie quantisierte Qwen-LLMs mit minimalem Genauigkeitsverlust ausführen und feinabstimmen können.

Wir haben Qwen3 außerdem mit nativer 128K-Kontextlänge hochgeladen. Qwen erreicht dies, indem es YaRN verwendet, um sein ursprüngliches 40K-Fenster auf 128K zu erweitern.

Unslotharrow-up-right unterstützt jetzt auch Fine-Tuning und Verstärkendes Lernen (RL) von Qwen3- und Qwen3-MOE-Modellen — 2× schneller, mit 70% weniger VRAM und 8× längeren Kontextlängen. Feinabstimmen Sie Qwen3 (14B) kostenlos mit unserem Colab-Notebook.arrow-up-right

Qwen3 ausführen Tutorial Qwen3 feinabstimmen

Qwen3 - Unsloth Dynamic 2.0 mit optimalen Konfigurationen:

🖥️ Qwen3 ausführen

Um Inferenzgeschwindigkeiten von mehr als 6 Token pro Sekunde zu erreichen, empfehlen wir, dass Ihr verfügbarer Speicher der Größe des verwendeten Modells entspricht oder diese übersteigt. Zum Beispiel erfordert ein 30-GB-1-Bit-quantisiertes Modell mindestens 150 GB Speicher. Die Q2_K_XL-Quantisierung, die 180 GB groß ist, wird mindestens 180 GB einheitlichen Speicher (VRAM + RAM) oder 180 GB RAM für optimale Leistung benötigen.

HINWEIS: Es ist möglich, das Modell mit weniger Gesamtspeicher als seiner Größe zu betreiben (z. B. weniger VRAM, weniger RAM oder eine geringere kombinierte Gesamtsumme). Dies führt jedoch zu langsameren Inferenzzeiten. Ausreichender Speicher ist nur erforderlich, wenn Sie den Durchsatz maximieren und die schnellsten Inferenzzeiten erreichen möchten.

⚙️ Offiziell empfohlene Einstellungen

Laut Qwen sind dies die empfohlenen Einstellungen für die Inferenz:

Einstellungen für Nicht-Denk-Modus:
Einstellungen für Denk-Modus:

Temperatur = 0,7

Temperature = 0.6

Min_P = 0.0 (optional, aber 0.01 funktioniert gut, llama.cpp-Standard ist 0.1)

Min_P = 0.0

Top_P = 0,8

Top_P = 0,95

TopK = 20

TopK = 20

Chat-Vorlage/Prompt-Format:

circle-check
circle-exclamation

Wechsel zwischen Denk- und Nicht-Denk-Modus

Qwen3-Modelle verfügen über einen eingebauten „Denkmodus“, um das Schlussfolgern zu verbessern und die Antwortqualität zu steigern – ähnlich wie QwQ-32B funktionierte. Die Anweisungen zum Umschalten unterscheiden sich je nach verwendetem Inferenz-Engine, stellen Sie also sicher, dass Sie die richtigen Anweisungen verwenden.

Anweisungen für llama.cpp und Ollama:

Sie können /think und /no_think zu Benutzer-Prompts oder Systemnachrichten hinzufügen, um den Denkmodus des Modells von Runde zu Runde umzuschalten. Das Modell folgt der zuletzt gegebenen Anweisung in mehrteiligen Gesprächen.

Hier ist ein Beispiel für ein mehrstufiges Gespräch:

Anweisungen für transformers und vLLM:

Denkmodus:

enable_thinking=True

Standardmäßig ist bei Qwen3 das Denken aktiviert. Wenn Sie tokenizer.apply_chat_templateaufrufen, müssen Sie nichts manuell einstellen.

Im Denkmodus generiert das Modell zusätzlich einen <think>...</think> Block vor der finalen Antwort — das erlaubt ihm, zu „planen“ und seine Antworten zu schärfen.

Nicht-Denk-Modus:

enable_thinking=False

Das Aktivieren des Nicht-Denk-Modus lässt Qwen3 alle Denk-Schritte überspringen und sich wie ein normales LLM verhalten.

Dieser Modus liefert direkte Endantworten — keine <think> Blöcke, keine Chain-of-Thought.

🦙 Ollama: Qwen3-Tutorial ausführen

  1. Installieren Sie ollama falls Sie es noch nicht getan haben! Sie können nur Modelle bis zu einer Größe von 32B ausführen. Um das volle 235B-A22B-Modell auszuführen, siehe hier.

  1. Führen Sie das Modell aus! Beachten Sie, dass Sie aufrufen können ollama servein einem anderen Terminal, falls es fehlschlägt! Wir fügen alle unsere Fixes und vorgeschlagenen Parameter (Temperatur usw.) in params in unserem Hugging Face-Upload hinzu!

  1. Um Denken zu deaktivieren, verwenden Sie (oder Sie können es im Systemprompt setzen):

circle-exclamation

📖 Llama.cpp: Qwen3-Tutorial ausführen

  1. Holen Sie sich die neueste llama.cpp auf GitHub hierarrow-up-right. Sie können auch den unten stehenden Build-Anweisungen folgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz wünschen.

  1. Laden Sie das Modell herunter über (nach Installation von pip install huggingface_hub hf_transfer ). Sie können Q4_K_M oder andere quantisierte Versionen wählen.

  1. Führe das Modell aus und probiere beliebige Prompts.

Um Denken zu deaktivieren, verwenden Sie (oder Sie können es im Systemprompt setzen):

Qwen3-235B-A22B ausführen

Für Qwen3-235B-A22B werden wir speziell Llama.cpp für optimierte Inferenz und eine Fülle von Optionen verwenden.

  1. Wir folgen ähnlichen Schritten wie oben, jedoch müssen wir dieses Mal zusätzliche Schritte durchführen, weil das Modell so groß ist.

  2. Laden Sie das Modell herunter über (nach Installation von pip install huggingface_hub hf_transfer ). Du kannst UD-Q2_K_XL oder andere quantisierte Versionen wählen..

  3. Führe das Modell aus und probiere beliebige Prompts.

  4. Bearbeiten --threads 32 für die Anzahl der CPU-Threads bearbeiten, --ctx-size 16384 für die Kontextlänge, --n-gpu-layers 99 für das GPU-Offloading für wie viele Schichten. Versuchen Sie, es anzupassen, wenn Ihre GPU nicht mehr genügend Speicher hat. Entfernen Sie es auch, wenn Sie nur CPU-Inferenz haben.

circle-check

🦥 Qwen3 mit Unsloth feinabstimmen

Unsloth macht das Feinabstimmen von Qwen3 2× schneller, verwendet 70% weniger VRAM und unterstützt 8× längere Kontextlängen. Qwen3 (14B) passt bequem auf eine Google Colab Tesla T4 GPU mit 16 GB VRAM.

Da Qwen3 sowohl Schlussfolgern als auch Nicht-Schlussfolgern unterstützt, können Sie es mit einem Nicht-Schlussfolgerungs-Datensatz feinabstimmen, dies kann jedoch seine Schlussfolgerungsfähigkeit beeinträchtigen. Wenn Sie seine Schlussfolgerungsfähigkeiten erhalten möchten (optional), können Sie eine Mischung aus direkten Antworten und Chain-of-Thought-Beispielen verwenden. Verwenden Sie 75% Reasoning und 25% Nicht-Reasoning in Ihrem Datensatz, damit das Modell seine Reasoning-Fähigkeiten behält.

Unser Konversations-Notebook verwendet eine Kombination aus 75% NVIDIAs Open-Math-Reasoning-Datensatz und 25% Maximes FineTome-Datensatz (Nicht-Schlussfolgerung). Hier sind kostenlose Unsloth Colab-Notebooks zum Feinabstimmen von Qwen3:

Wenn du eine alte Version von Unsloth hast und/oder lokal feinabstimmst, installiere die neueste Version von Unsloth:

Feinabstimmung von Qwen3 MOE-Modellen

Feinabstimmungsunterstützung umfasst MOE-Modelle: 30B-A3B und 235B-A22B. Qwen3-30B-A3B funktioniert mit Unsloth bereits auf nur 17,5 GB VRAM. Beim Feinabstimmen von MoEs ist es wahrscheinlich keine gute Idee, die Router-Schicht zu feinabstimmen, daher haben wir sie standardmäßig deaktiviert.

Das 30B-A3B passt in 17,5 GB VRAM, aber Ihnen könnten RAM- oder Festplattenspeicher fehlen, da das vollständige 16-Bit-Modell heruntergeladen und für QLoRA-Feinabstimmung dynamisch in 4 Bit konvertiert werden muss. Dies liegt an Problemen beim direkten Importieren von 4-Bit-BnB-MOE-Modellen. Dies betrifft nur MOE-Modelle.

Notebook-Anleitung:

Um die Notebooks zu verwenden, klicken Sie einfach auf Runtime und dann auf Run all. Sie können die Einstellungen im Notebook nach Belieben ändern. Wir haben sie standardmäßig automatisch gesetzt. Ändern Sie den Modellnamen nach Wunsch, indem Sie ihn mit dem Namen des Modells auf Hugging Face abgleichen, z. B. 'unsloth/Qwen3-8B' oder 'unsloth/Qwen3-0.6B-unsloth-bnb-4bit'.

Es gibt weitere Einstellungen, die du umschalten kannst:

  • max_seq_length = 2048 – Steuert die Kontextlänge. Während Qwen3 40960 unterstützt, empfehlen wir für Tests 2048. Unsloth ermöglicht 8× längeres Kontext-Finetuning.

  • load_in_4bit = True – Aktiviert 4-Bit-Quantisierung und reduziert so den Speicherbedarf beim Feinabstimmen auf 16-GB-GPUs um das 4×-Fache.

  • Für vollständiges Fein-Tuning - setzen full_finetuning = True und 8-Bit-Finetuning - setzen load_in_8bit = True

Wenn Sie eine vollständige End-to-End-Anleitung zur Verwendung der Unsloth-Notebooks für Feinabstimmung lesen oder einfach mehr über Feinabstimmung, Erstellen von datasets usw. erfahren möchten, sehen Sie unsere komplette Anleitung hier:

🧬Fine-tuning Guidechevron-right📈Datensatz-Anleitungchevron-right

GRPO mit Qwen3

Wir haben ein neues fortgeschrittenes GRPO-Notebook zum Feinabstimmen von Qwen3 erstellt. Lernen Sie, unsere neue proximitätsbasierte Belohnungsfunktion zu verwenden (nähe Antworten = belohnt) und Hugging Faces Open-R1-Mathematik-Datensatz. Unsloth hat jetzt außerdem bessere Bewertungen und verwendet die neueste Version von vLLM.

Qwen3 (4B)arrow-up-right Notebook - Advanced GRPO LoRA

Erfahren Sie über:

  • Aktivierung von Schlussfolgern in Qwen3 (Base)+ und das Anleiten zur Ausführung einer bestimmten Aufgabe

  • Pre-Finetuning, um GRPOs Tendenz, Formatierung zu lernen, zu umgehen

  • Verbesserte Evaluationsgenauigkeit durch neues Regex-Matching

  • Benutzerdefinierte GRPO-Vorlagen über nur 'think' hinaus, z. B. <start_working_out></end_working_out>

  • Proximitätsbasierte Bewertung: bessere Antworten erhalten mehr Punkte (z. B. Vorhersage 9, wenn die Antwort 10 ist) und Ausreißer werden bestraft

Zuletzt aktualisiert

War das hilfreich?