🌠Qwen3 - Wie man ausführt & feinabstimmt

Lerne, Qwen3 lokal mit Unsloth & unseren Dynamic 2.0-Quants auszuführen und feinabzustimmen

Qwens neue Qwen3-Modelle liefern hochmoderne Fortschritte in den Bereichen Schlussfolgern, Befolge-anweisungen, Agentenfähigkeiten und mehrsprachige Unterstützung.

circle-check

Alle Uploads verwenden Unsloth Dynamic 2.0 für SOTA 5-Shot MMLU- und KL-Divergenz-Leistung, das heißt, du kannst quantisierte Qwen-LLMs mit minimalem Genauigkeitsverlust ausführen und feinabstimmen.

Wir haben Qwen3 außerdem mit nativem 128K-Kontextlängen-Support hochgeladen. Qwen erreicht dies, indem YaRN verwendet wird, um sein ursprüngliches 40K-Fenster auf 128K zu erweitern.

Unslotharrow-up-right unterstützt jetzt auch Fine-Tuning und Verstärkendes Lernen (RL) für Qwen3- und Qwen3-MOE-Modelle — 2x schneller, mit 70% weniger VRAM und 8x längeren Kontextlängen. Feineinstellen von Qwen3 (14B) ist kostenlos möglich mit unserem Colab-Notebook.arrow-up-right

Qwen3 ausführen – Tutorial Qwen3 feinabstimmen

Qwen3 - Unsloth Dynamic 2.0 mit optimalen Konfigurationen:

🖥️ Qwen3 ausführen

Um Inferenzgeschwindigkeiten von 6+ Token pro Sekunde zu erreichen, empfehlen wir, dass dein verfügbarer Speicher der Größe des verwendeten Modells entsprechen oder diese übersteigen sollte. Beispielsweise benötigt ein 30GB 1-bit quantisiertes Modell mindestens 150GB Speicher. Das Q2_K_XL-Quant, das 180GB beträgt, erfordert mindestens 180GB einheitlichen Speicher (VRAM + RAM) oder 180GB RAM für optimale Leistung.

HINWEIS: Es ist möglich, das Modell mit weniger Gesamtspeicher als seiner Größe auszuführen (z. B. weniger VRAM, weniger RAM oder eine geringere kombinierte Gesamtmenge). Dies führt jedoch zu langsameren Inferenzgeschwindigkeiten. Ausreichender Speicher ist nur erforderlich, wenn du die Durchsatzleistung maximieren und die schnellsten Inferenzzeiten erreichen möchtest.

⚙️ Offizielle empfohlene Einstellungen

Laut Qwen sind dies die empfohlenen Einstellungen für die Inferenz:

Einstellungen für Nicht-Denkmodus:
Einstellungen für Denkmodus:

Temperatur = 0,7

Temperature = 0.6

Min_P = 0.0 (optional, aber 0.01 funktioniert gut, llama.cpp-Standard ist 0.1)

Min_P = 0.0

Top_P = 0,8

Top_P = 0,95

TopK = 20

TopK = 20

Chat-Vorlage/Prompt-Format:

circle-check
circle-exclamation

Wechsel zwischen Denk- und Nicht-Denkmodus

Qwen3-Modelle enthalten einen eingebauten "Denkmodus", um das Schlussfolgern zu verbessern und die Antwortqualität zu steigern — ähnlich wie QwQ-32B funktionierte. Anweisungen zum Wechseln unterscheiden sich je nach verwendeter Inferenz-Engine, daher stelle sicher, dass du die richtigen Anweisungen verwendest.

Anweisungen für llama.cpp und Ollama:

Du kannst /think und /no_think zu Benutzer-Prompts oder Systemnachrichten hinzufügen, um den Denkmodus des Modells von Runde zu Runde umzuschalten. Das Modell befolgt in Mehrfachrunden-Konversationen die zuletzt gegebene Anweisung.

Hier ist ein Beispiel für eine Mehrfachrunden-Konversation:

Anweisungen für transformers und vLLM:

Denkmodus:

enable_thinking=True

Standardmäßig ist bei Qwen3 das Denken aktiviert. Wenn du tokenizer.apply_chat_templateaufrufst, musst du nichts manuell setzen.

Im Denkmodus wird das Modell einen zusätzlichen <think>...</think> Block vor der finalen Antwort erzeugen — das lässt es "planen" und schärft seine Antworten.

Nicht-Denkmodus:

enable_thinking=False

Das Aktivieren des Nicht-Denkens lässt Qwen3 alle Denk-Schritte überspringen und wie ein normales LLM agieren.

Dieser Modus liefert direkte abschließende Antworten — keine <think> Blöcke, keine Chain-of-Thought.

🦙 Ollama: Qwen3-Tutorial ausführen

  1. In Ollama ausführen Installieren Sie falls du es noch nicht getan hast! Du kannst nur Modelle bis zu einer Größe von 32B ausführen. Um das komplette 235B-A22B-Modell auszuführen, falls Sie es noch nicht getan haben! Um weitere Varianten des Modells auszuführen,.

  1. curl -fsSL https://ollama.com/install.sh | sh Führen Sie das Modell aus! Beachten Sie, dass Sieollama serve in einem anderen Terminal aufrufen können, wenn es fehlschlägt! Wir fügen alle unsere Fixes und vorgeschlagenen Parameter (Temperatur usw.) in params

  1. Um Denken zu deaktivieren, verwende (oder du kannst es im Systemprompt setzen):

circle-exclamation

📖 Llama.cpp: Qwen3-Tutorial ausführen

  1. Hole dir die neueste llama.cpp auf GitHub hierarrow-up-right. Du kannst auch den Build-Anweisungen unten folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

  1. Laden Sie das Modell herunter (nach der Installation pip install huggingface_hub hf_transfer ). Du kannst Q4_K_M oder andere quantisierte Versionen wählen.

  1. Führe das Modell aus und probiere beliebige Prompts.

Um Denken zu deaktivieren, verwende (oder du kannst es im Systemprompt setzen):

Qwen3-235B-A22B ausführen

Für Qwen3-235B-A22B werden wir speziell Llama.cpp für optimierte Inferenz und eine Fülle von Optionen verwenden.

  1. Wir folgen ähnlichen Schritten wie oben, jedoch müssen wir dieses Mal zusätzliche Schritte durchführen, weil das Modell so groß ist.

  2. Laden Sie das Modell herunter (nach der Installation pip install huggingface_hub hf_transfer ). Du kannst UD-Q2_K_XL oder andere quantisierte Versionen wählen..

  3. Führe das Modell aus und probiere beliebige Prompts.

  4. Bearbeiten Sie können --threads 32 für die Anzahl der CPU-Threads bearbeiten, --ctx-size 16384 --n-gpu-layers 99 --n-gpu-layers 2

circle-check

🦥 Qwen3 mit Unsloth feinabstimmen

Unsloth macht das Feintuning von Qwen3 2x schneller, verwendet 70% weniger VRAM und unterstützt 8x längere Kontextlängen. Qwen3 (14B) passt bequem auf eine Google Colab 16GB VRAM Tesla T4 GPU.

Da Qwen3 sowohl Schlussfolgern als auch Nicht-Schlussfolgern unterstützt, kannst du es mit einem Nicht-Schlussfolgerungs-Datensatz feinabstimmen, aber das kann seine Schlussfolgerungsfähigkeit beeinträchtigen. Wenn du seine Schlussfolgerungsfähigkeiten beibehalten möchtest (optional), kannst du eine Mischung aus direkten Antworten und Chain-of-Thought-Beispielen verwenden. Verwende 75% Reasoning und 25% Nicht-Reasoning in deinem Datensatz, damit das Modell seine Reasoning-Fähigkeiten behält.

Unser Conversation-Notebook verwendet eine Kombination aus 75% NVIDIAs open-math-reasoning-Datensatz und 25% Maximes FineTome-Datensatz (nicht-schlussfolgernd). Hier sind kostenlose Unsloth Colab-Notebooks, um Qwen3 feinabzustimmen:

Wenn Sie eine alte Version von Unsloth haben und/oder lokal feinabstimmen, installieren Sie die neueste Version von Unsloth:

Feintuning von Qwen3 MOE-Modellen

Die Fine-Tuning-Unterstützung umfasst unser neues 2026 Faster MOE Update: 30B-A3B und 235B-A22B. Qwen3-30B-A3B funktioniert mit nur 17,5GB VRAM mit Unsloth. Beim Fine-Tuning von MoEs ist es wahrscheinlich keine gute Idee, die Router-Schicht feinzujustieren, daher haben wir sie standardmäßig deaktiviert.

Das 30B-A3B passt in 17,5GB VRAM, aber dir könnte RAM oder Festplattenspeicher fehlen, da das vollständige 16-Bit-Modell heruntergeladen und für QLoRA-Feintuning on-the-fly in 4-Bit konvertiert werden muss. Dies liegt an Problemen beim direkten Import von 4-Bit BnB MOE-Modellen. Dies betrifft nur MOE-Modelle.

Notebook-Anleitung:

Um die Notebooks zu verwenden, klicke einfach auf Runtime und dann auf Run all. Du kannst die Einstellungen im Notebook nach Belieben ändern. Wir haben sie standardmäßig automatisch gesetzt. Ändere den Modellnamen nach Belieben, indem du ihn mit dem Namen des Modells auf Hugging Face abgleichst, z. B. 'unsloth/Qwen3-8B' oder 'unsloth/Qwen3-0.6B-unsloth-bnb-4bit'.

Es gibt weitere Einstellungen, die du umschalten kannst:

  • max_seq_length = 2048 – Steuert die Kontextlänge. Während Qwen3 40960 unterstützt, empfehlen wir 2048 zum Testen. Unsloth ermöglicht 8× längeres Kontext-Finetuning.

  • load_in_4bit = True – Aktiviert 4-Bit-Quantisierung, wodurch der Speicherbedarf für Feintuning auf 16GB-GPUs um das 4-fache reduziert wird.

  • Für vollständiges Finetuning - setze full_finetuning = True und 8-Bit-Finetuning - setze load_in_8bit = True

Wenn du eine vollständige Schritt-für-Schritt-Anleitung lesen möchtest, wie man Unsloth-Notebooks zum Feintuning verwendet oder einfach mehr über Feintuning, Erstellen von Datensätzen usw. erfahren willst, sieh dir unseren vollständigen Leitfaden hier:

🧬Fine-tuning Guidechevron-right📈Datensatz-Anleitungchevron-right

GRPO mit Qwen3

Wir haben ein neues Advanced-GRPO-Notebook zum Feintuning von Qwen3 erstellt. Lerne, unsere neue proximitätsbasierte Belohnungsfunktion zu verwenden (nähe Antworten = belohnt) und Hugging Faces Open-R1-Mathematik-Datensatz. Unsloth hat jetzt auch bessere Evaluierungen und verwendet die neueste Version von vLLM.

Qwen3 (4B)arrow-up-right Notebook - Advanced GRPO LoRA

Lerne über:

  • Aktivierung von Schlussfolgern in Qwen3 (Base) + Anleitung, es eine bestimmte Aufgabe ausführen zu lassen

  • Pre-Finetuning, um GRPOs Tendenz zu umgehen, Formatierung zu lernen

  • Verbesserte Evaluierungsgenauigkeit durch neues Regex-Matching

  • Benutzerdefinierte GRPO-Vorlagen über nur 'think' hinaus, z. B. <start_working_out></end_working_out>

  • Proximitätsbasierte Bewertung: bessere Antworten erhalten mehr Punkte (z. B. Vorhersage 9, wenn die Antwort 10 ist) und Ausreißer werden bestraft

Zuletzt aktualisiert

War das hilfreich?