🌠Qwen3 - Wie man ausführt & feinabstimmt

Lerne, Qwen3 lokal mit Unsloth & unseren Dynamic 2.0-Quants auszuführen und feinabzustimmen

Qwens neue Qwen3-Modelle liefern hochmoderne Fortschritte in den Bereichen Schlussfolgern, Befolge-anweisungen, Agentenfähigkeiten und mehrsprachige Unterstützung.

NEU! Qwen3 erhielt im Juli 2025 ein Update. Führe das neueste Modell aus und feineinstelle es: Qwen-2507

Alle Uploads verwenden Unsloth Dynamic 2.0 für SOTA 5-Shot MMLU- und KL-Divergenz-Leistung, das heißt, du kannst quantisierte Qwen-LLMs mit minimalem Genauigkeitsverlust ausführen und feinabstimmen.

Wir haben Qwen3 außerdem mit nativem 128K-Kontextlängen-Support hochgeladen. Qwen erreicht dies, indem YaRN verwendet wird, um sein ursprüngliches 40K-Fenster auf 128K zu erweitern.

Unsloth unterstützt jetzt auch Fine-Tuning und Verstärkendes Lernen (RL) für Qwen3- und Qwen3-MOE-Modelle — 2x schneller, mit 70% weniger VRAM und 8x längeren Kontextlängen. Feineinstellen von Qwen3 (14B) ist kostenlos möglich mit unserem Colab-Notebook.

Qwen3 ausführen – Tutorial Qwen3 feinabstimmen

Qwen3 - Unsloth Dynamic 2.0 mit optimalen Konfigurationen:

Dynamic 2.0 GGUF (zum Ausführen)

128K Kontext GGUF

Dynamic 4-Bit Safetensor (zum Feintunen/Deployen)

🖥️ Qwen3 ausführen

Um Inferenzgeschwindigkeiten von 6+ Token pro Sekunde zu erreichen, empfehlen wir, dass dein verfügbarer Speicher der Größe des verwendeten Modells entsprechen oder diese übersteigen sollte. Beispielsweise benötigt ein 30GB 1-bit quantisiertes Modell mindestens 150GB Speicher. Das Q2_K_XL-Quant, das 180GB beträgt, erfordert mindestens 180GB einheitlichen Speicher (VRAM + RAM) oder 180GB RAM für optimale Leistung.

HINWEIS: Es ist möglich, das Modell mit weniger Gesamtspeicher als seiner Größe auszuführen (z. B. weniger VRAM, weniger RAM oder eine geringere kombinierte Gesamtmenge). Dies führt jedoch zu langsameren Inferenzgeschwindigkeiten. Ausreichender Speicher ist nur erforderlich, wenn du die Durchsatzleistung maximieren und die schnellsten Inferenzzeiten erreichen möchtest.

⚙️ Offizielle empfohlene Einstellungen

Laut Qwen sind dies die empfohlenen Einstellungen für die Inferenz:

Einstellungen für Nicht-Denkmodus:

Einstellungen für Denkmodus:

Temperatur = 0,7

Temperature = 0.6

Min_P = 0.0 (optional, aber 0.01 funktioniert gut, llama.cpp-Standard ist 0.1)

Min_P = 0.0

Top_P = 0,8

Top_P = 0,95

TopK = 20

Chat-Vorlage/Prompt-Format:

<|im_start|>user\nWhat is 2+2?<|im_end|>\n<|im_start|>assistant\n

Für den NICHT-Denkmodus schließen wir <think> und </think> absichtlich mit nichts ein:

<|im_start|>user\nWhat is 2+2?<|im_end|>\n<|im_start|>assistant\n<think>\n\n</think>\n\n

Für den Denkmodus: Verwende KEINE greedy Decodierung, da dies zu Leistungseinbußen und endlosen Wiederholungen führen kann.

Wechsel zwischen Denk- und Nicht-Denkmodus

Qwen3-Modelle enthalten einen eingebauten "Denkmodus", um das Schlussfolgern zu verbessern und die Antwortqualität zu steigern — ähnlich wie QwQ-32B funktionierte. Anweisungen zum Wechseln unterscheiden sich je nach verwendeter Inferenz-Engine, daher stelle sicher, dass du die richtigen Anweisungen verwendest.

Anweisungen für llama.cpp und Ollama:

Du kannst /think und /no_think zu Benutzer-Prompts oder Systemnachrichten hinzufügen, um den Denkmodus des Modells von Runde zu Runde umzuschalten. Das Modell befolgt in Mehrfachrunden-Konversationen die zuletzt gegebene Anweisung.

Hier ist ein Beispiel für eine Mehrfachrunden-Konversation:

> Who are you /no_think

<think>

</think>

Ich bin Qwen, ein groß angelegtes Sprachmodell, entwickelt von Alibaba Cloud. [...]

> How many 'r's are in 'strawberries'? /think

<think>
Okay, mal sehen. Der Benutzer fragt, wie oft der Buchstabe 'r' im Wort "strawberries" vorkommt. [...]
</think>

Das Wort strawberries enthält 3 Instanzen des Buchstabens r. [...]

Anweisungen für transformers und vLLM:

Denkmodus:

enable_thinking=True

Standardmäßig ist bei Qwen3 das Denken aktiviert. Wenn du tokenizer.apply_chat_templateaufrufst, musst du nichts manuell setzen.

text = tokenizer.apply_chat_template(
    def unsloth_inference(
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True  # Standard ist True
)

Im Denkmodus wird das Modell einen zusätzlichen <think>...</think> Block vor der finalen Antwort erzeugen — das lässt es "planen" und schärft seine Antworten.

Nicht-Denkmodus:

enable_thinking=False

Das Aktivieren des Nicht-Denkens lässt Qwen3 alle Denk-Schritte überspringen und wie ein normales LLM agieren.

text = tokenizer.apply_chat_template(
    def unsloth_inference(
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=False  # Deaktiviert den Denkmodus
)

Dieser Modus liefert direkte abschließende Antworten — keine <think> Blöcke, keine Chain-of-Thought.

🦙 Ollama: Qwen3-Tutorial ausführen

In Ollama ausführen Installieren Sie falls du es noch nicht getan hast! Du kannst nur Modelle bis zu einer Größe von 32B ausführen. Um das komplette 235B-A22B-Modell auszuführen, falls Sie es noch nicht getan haben! Um weitere Varianten des Modells auszuführen,.

apt-get update
siehe hier
apt-get install pciutils -y

curl -fsSL https://ollama.com/install.sh | sh Führen Sie das Modell aus! Beachten Sie, dass Sieollama serve in einem anderen Terminal aufrufen können, wenn es fehlschlägt! Wir fügen alle unsere Fixes und vorgeschlagenen Parameter (Temperatur usw.) in params

ollama run hf.co/unsloth/Qwen3-8B-GGUF:UD-Q4_K_XL

Um Denken zu deaktivieren, verwende (oder du kannst es im Systemprompt setzen):

>>> Schreibe hier deinen Prompt /nothink

Wenn du irgendwelche Schleifenprobleme hast, könnte Ollama dein Kontextfenster auf etwa 2.048 gesetzt haben. Erhöhe es in diesem Fall auf 32.000 und prüfe, ob das Problem weiterhin besteht.

📖 Llama.cpp: Qwen3-Tutorial ausführen

Hole dir die neueste llama.cpp auf GitHub hier. Du kannst auch den Build-Anweisungen unten folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Laden Sie das Modell herunter (nach der Installation pip install huggingface_hub hf_transfer ). Du kannst Q4_K_M oder andere quantisierte Versionen wählen.

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Qwen3-14B-GGUF",
    local_dir = "unsloth/Qwen3-14B-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)

Führe das Modell aus und probiere beliebige Prompts.

./llama.cpp/llama-cli \
    --model unsloth/Qwen3-14B-GGUF/Qwen3-14B-UD-Q2_K_XL.gguf \
    --ctx-size 16384 \
    --n-gpu-layers 99 \
    -ot ".ffn_.*_exps.=CPU" \
    --seed 3407 \
    --prio 3 \
    --temp 0.6 \
    --min-p 0.0 \
    --top-p 0.95 \
    --top-k 20 \
    -no-cnv

Um Denken zu deaktivieren, verwende (oder du kannst es im Systemprompt setzen):

>>> Schreibe hier deinen Prompt /nothink

Qwen3-235B-A22B ausführen

Für Qwen3-235B-A22B werden wir speziell Llama.cpp für optimierte Inferenz und eine Fülle von Optionen verwenden.

Wir folgen ähnlichen Schritten wie oben, jedoch müssen wir dieses Mal zusätzliche Schritte durchführen, weil das Modell so groß ist.

Laden Sie das Modell herunter (nach der Installation pip install huggingface_hub hf_transfer ). Du kannst UD-Q2_K_XL oder andere quantisierte Versionen wählen..

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Qwen3-235B-A22B-GGUF",
    local_dir = "unsloth/Qwen3-235B-A22B-GGUF",
    allow_patterns = ["*UD-Q2_K_XL*"],
)

Führe das Modell aus und probiere beliebige Prompts.
Bearbeiten Sie können --threads 32 für die Anzahl der CPU-Threads bearbeiten, --ctx-size 16384 --n-gpu-layers 99 --n-gpu-layers 2

Verwende -ot ".ffn_.*_exps.=CPU" um alle MoE-Schichten auf die CPU auszulagern! Dadurch können Sie effektiv alle Nicht-MoE-Schichten auf einer GPU unterbringen, was die Generationsgeschwindigkeit verbessert. Sie können den Regex-Ausdruck anpassen, um mehr Schichten zu verschieben, wenn Sie mehr GPU-Kapazität haben.

./llama.cpp/llama-cli \
    --model unsloth/Qwen3-235B-A22B-GGUF/Qwen3-235B-A22B-UD-Q2_K_XL.gguf \
    --ctx-size 16384 \
    --n-gpu-layers 99 \
    -ot ".ffn_.*_exps.=CPU" \
    --seed 3407 \
    --prio 3 \
    --temp 0.6 \
    --min-p 0.0 \
    --top-p 0.95 \
    --top-k 20 \
    -no-cnv \
    --prompt "<|im_start|>user\nCreate a Flappy Bird game in Python. You must include these things:\n1. You must use pygame.\n2. The background color should be randomly chosen and is a light shade. Start with a light blue color.\n3. Pressing SPACE multiple times will accelerate the bird.\n4. The bird's shape should be randomly chosen as a square, circle or triangle. The color should be randomly chosen as a dark color.\n5. Place on the bottom some land colored as dark brown or yellow chosen randomly.\n6. Make a score shown on the top right side. Increment if you pass pipes and don't hit them.\n7. Make randomly spaced pipes with enough space. Color them randomly as dark green or light brown or a dark gray shade.\n8. When you lose, show the best score. Make the text inside the screen. Pressing q or Esc will quit the game. Restarting is pressing SPACE again.\nThe final game should be inside a markdown section in Python. Check your code for errors and fix them before the final markdown section.<|im_end|>\n<|im_start|>assistant\n"

🦥 Qwen3 mit Unsloth feinabstimmen

Unsloth macht das Feintuning von Qwen3 2x schneller, verwendet 70% weniger VRAM und unterstützt 8x längere Kontextlängen. Qwen3 (14B) passt bequem auf eine Google Colab 16GB VRAM Tesla T4 GPU.

Da Qwen3 sowohl Schlussfolgern als auch Nicht-Schlussfolgern unterstützt, kannst du es mit einem Nicht-Schlussfolgerungs-Datensatz feinabstimmen, aber das kann seine Schlussfolgerungsfähigkeit beeinträchtigen. Wenn du seine Schlussfolgerungsfähigkeiten beibehalten möchtest (optional), kannst du eine Mischung aus direkten Antworten und Chain-of-Thought-Beispielen verwenden. Verwende 75% Reasoning und 25% Nicht-Reasoning in deinem Datensatz, damit das Modell seine Reasoning-Fähigkeiten behält.

Unser Conversation-Notebook verwendet eine Kombination aus 75% NVIDIAs open-math-reasoning-Datensatz und 25% Maximes FineTome-Datensatz (nicht-schlussfolgernd). Hier sind kostenlose Unsloth Colab-Notebooks, um Qwen3 feinabzustimmen:

Qwen3 (14B) Reasoning + Conversational-Notebook (empfohlen)
Qwen3 (4B) - Advanced GRPO LoRA
Qwen3 (14B) Alpaca-Notebook (für Basis-Modelle)

Wenn Sie eine alte Version von Unsloth haben und/oder lokal feinabstimmen, installieren Sie die neueste Version von Unsloth:

pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo

Feintuning von Qwen3 MOE-Modellen

Die Fine-Tuning-Unterstützung umfasst unser neues 2026 Faster MOE Update: 30B-A3B und 235B-A22B. Qwen3-30B-A3B funktioniert mit nur 17,5GB VRAM mit Unsloth. Beim Fine-Tuning von MoEs ist es wahrscheinlich keine gute Idee, die Router-Schicht feinzujustieren, daher haben wir sie standardmäßig deaktiviert.

Das 30B-A3B passt in 17,5GB VRAM, aber dir könnte RAM oder Festplattenspeicher fehlen, da das vollständige 16-Bit-Modell heruntergeladen und für QLoRA-Feintuning on-the-fly in 4-Bit konvertiert werden muss. Dies liegt an Problemen beim direkten Import von 4-Bit BnB MOE-Modellen. Dies betrifft nur MOE-Modelle.

from unsloth import FastModel
import torch
model, tokenizer = FastModel.from_pretrained(
    model_name = "unsloth/Qwen3-30B-A3B",
    max_seq_length = 2048, # Wähle beliebig für langen Kontext!
    load_in_4bit = True,  # 4-Bit-Quantisierung zur Reduzierung des Speichers
    load_in_8bit = False, # [NEU!] Etwas genauer, verwendet 2x Speicher
    full_finetuning = False, # [NEU!] Wir haben jetzt vollständige Feinabstimmung!
    # token = "hf_...", # verwenden Sie einen, wenn Sie gegatterte Modelle verwenden
)

Notebook-Anleitung:

Um die Notebooks zu verwenden, klicke einfach auf Runtime und dann auf Run all. Du kannst die Einstellungen im Notebook nach Belieben ändern. Wir haben sie standardmäßig automatisch gesetzt. Ändere den Modellnamen nach Belieben, indem du ihn mit dem Namen des Modells auf Hugging Face abgleichst, z. B. 'unsloth/Qwen3-8B' oder 'unsloth/Qwen3-0.6B-unsloth-bnb-4bit'.

Es gibt weitere Einstellungen, die du umschalten kannst:

max_seq_length = 2048 – Steuert die Kontextlänge. Während Qwen3 40960 unterstützt, empfehlen wir 2048 zum Testen. Unsloth ermöglicht 8× längeres Kontext-Finetuning.
load_in_4bit = True – Aktiviert 4-Bit-Quantisierung, wodurch der Speicherbedarf für Feintuning auf 16GB-GPUs um das 4-fache reduziert wird.
Für vollständiges Finetuning - setze full_finetuning = True und 8-Bit-Finetuning - setze load_in_8bit = True

Wenn du eine vollständige Schritt-für-Schritt-Anleitung lesen möchtest, wie man Unsloth-Notebooks zum Feintuning verwendet oder einfach mehr über Feintuning, Erstellen von Datensätzen usw. erfahren willst, sieh dir unseren vollständigen Leitfaden hier:

🧬Fine-tuning Guide 📈Datensatz-Anleitung

GRPO mit Qwen3

Wir haben ein neues Advanced-GRPO-Notebook zum Feintuning von Qwen3 erstellt. Lerne, unsere neue proximitätsbasierte Belohnungsfunktion zu verwenden (nähe Antworten = belohnt) und Hugging Faces Open-R1-Mathematik-Datensatz. Unsloth hat jetzt auch bessere Evaluierungen und verwendet die neueste Version von vLLM.

Qwen3 (4B) Notebook - Advanced GRPO LoRA

Lerne über:

Aktivierung von Schlussfolgern in Qwen3 (Base) + Anleitung, es eine bestimmte Aufgabe ausführen zu lassen
Pre-Finetuning, um GRPOs Tendenz zu umgehen, Formatierung zu lernen
Verbesserte Evaluierungsgenauigkeit durch neues Regex-Matching
Benutzerdefinierte GRPO-Vorlagen über nur 'think' hinaus, z. B. <start_working_out></end_working_out>
Proximitätsbasierte Bewertung: bessere Antworten erhalten mehr Punkte (z. B. Vorhersage 9, wenn die Antwort 10 ist) und Ausreißer werden bestraft

VorherigeLong Context gpt-oss NächsteQwen3-VL

Zuletzt aktualisiert vor 7 Stunden

War das hilfreich?

hashtagQwen3 - Unsloth Dynamic 2.0 mit optimalen Konfigurationen:

hashtag🖥️ Qwen3 ausführen

hashtag⚙️ Offizielle empfohlene Einstellungen

hashtagWechsel zwischen Denk- und Nicht-Denkmodus

hashtagAnweisungen für llama.cpp und Ollama:

hashtagAnweisungen für transformers und vLLM:

hashtag🦙 Ollama: Qwen3-Tutorial ausführen

hashtag📖 Llama.cpp: Qwen3-Tutorial ausführen

hashtagQwen3-235B-A22B ausführen

hashtag🦥 Qwen3 mit Unsloth feinabstimmen

hashtagFeintuning von Qwen3 MOE-Modellen

hashtagNotebook-Anleitung:

hashtagGRPO mit Qwen3

Qwen3 - Unsloth Dynamic 2.0 mit optimalen Konfigurationen:

🖥️ Qwen3 ausführen

⚙️ Offizielle empfohlene Einstellungen

Wechsel zwischen Denk- und Nicht-Denkmodus

Anweisungen für llama.cpp und Ollama:

Anweisungen für transformers und vLLM:

🦙 Ollama: Qwen3-Tutorial ausführen

📖 Llama.cpp: Qwen3-Tutorial ausführen

Qwen3-235B-A22B ausführen

🦥 Qwen3 mit Unsloth feinabstimmen

Feintuning von Qwen3 MOE-Modellen

Notebook-Anleitung:

GRPO mit Qwen3