🌠Qwen3-2507: Anleitung zum lokalen Betrieb

Führe Qwen3-30B-A3B-2507 und 235B-A22B Thinking- und Instruct-Versionen lokal auf deinem Gerät aus!

Qwen veröffentlichte im Juli 2025 (2507) Updates für ihre Qwen3 4B-, 30B- und 235B-Modelle und führte sowohl „Thinking“- als auch „Non-Thinking“-Varianten ein. Das Non-Thinking 'Qwen3-30B-A3B-Instruct-2507' und 'Qwen3-235B-A22B-Instruct-2507' verfügt über ein 256K-Kontextfenster, verbesserte Anweisungsfolgebefolgung, mehrsprachige Fähigkeiten und Alignment.

Die Thinking-Modelle 'Qwen3-30B-A3B-Thinking-2507' und 'Qwen3-235B-A22B-Thinking-2507' zeichnen sich durch Schlussfolgerungsfähigkeiten aus; das 235B erreicht SOTA-Ergebnisse in Logik, Mathematik, Naturwissenschaften, Programmierung und fortgeschrittenen akademischen Aufgaben.

Unslotharrow-up-right unterstützt jetzt auch Fine-Tuning und Verstärkungslernen (Reinforcement Learning, RL) der Qwen3-2507-Modelle — 2x schneller, mit 70% weniger VRAM und 8x längeren Kontextlängen

30B-A3B ausführen235B-A22B ausführenQwen3-2507 feinabstimmen

Unsloth Dynamic 2.0 GGUFs:

Modell
GGUFs zum Ausführen:

⚙️Beste Praktiken

circle-check

Um optimale Leistung zu erzielen, empfiehlt Qwen diese Einstellungen:

Instruct-Modell-Einstellungen:
Thinking-Modell-Einstellungen:

Temperatur = 0,7

Temperature = 0.6

Min_P = 0.00 (llama.cpps Standard ist 0.1)

Min_P = 0.00 (llama.cpps Standard ist 0.1)

Top_P = 0.80

Top_P = 0,95

TopK = 20

TopK = 20

presence_penalty = 0.0 bis 2.0 (llama.cpp-Standard deaktiviert es, aber um Wiederholungen zu reduzieren, können Sie dies verwenden)

presence_penalty = 0.0 bis 2.0 (llama.cpp-Standard deaktiviert es, aber um Wiederholungen zu reduzieren, können Sie dies verwenden)

Angemessene Ausgabelänge: Verwenden Sie eine Ausgabelänge von 32,768 Token für die meisten Anfragen, was für die meisten Anfragen ausreichend ist.

Chat-Vorlage für beide: Thinking (Thinking hat <think></think>) und Instruct ist unten:

📖 Qwen3-30B-A3B-2507 Tutorials ausführen

Unten stehen Anleitungen für die Thinking und Instruct Versionen des Modells.

Instruct: Qwen3-30B-A3B-Instruct-2507

Da dies ein Non-Thinking-Modell ist, ist es nicht notwendig, thinking=False und das Modell erzeugt nicht <think> </think> Blöcke.

⚙️Beste Praktiken

Um optimale Leistung zu erzielen, empfiehlt Qwen die folgenden Einstellungen:

  • Wir empfehlen die Verwendung von temperature=0.7, top_p=0.8, top_k=20 und min_p=0.0 presence_penalty zwischen 0 und 2, falls das Framework dies unterstützt, um endlose Wiederholungen zu reduzieren.

  • temperature = 0.7

  • top_k = 20

  • min_p = 0.00 (llama.cpps Standard ist 0.1)

  • top_p = 0.80

  • presence_penalty = 0.0 bis 2.0 (llama.cpp-Standard deaktiviert es, aber um Wiederholungen zu reduzieren, können Sie dies verwenden) Probieren Sie z. B. 1.0.

  • Unterstützt bis zu 262,144 Kontext nativ, aber Sie können ihn auf 32,768 Token für weniger RAM-Verbrauch setzen

🦙 Ollama: Qwen3-30B-A3B-Instruct-2507 Tutorial ausführen

  1. In Ollama ausführen Installieren Sie falls Sie es noch nicht getan haben! Sie können nur Modelle bis zu einer Größe von 32B ausführen.

  1. curl -fsSL https://ollama.com/install.sh | sh Führen Sie das Modell aus! Beachten Sie, dass Sieollama serve in einem anderen Terminal aufrufen können, wenn es fehlschlägt! Wir fügen alle unsere Fixes und vorgeschlagenen Parameter (Temperatur usw.) in params

Llama.cpp: Qwen3-30B-A3B-Instruct-2507 Tutorial ausführen

  1. Hole dir die neueste llama.cpp auf GitHub hierarrow-up-right. Du kannst auch den Build-Anweisungen unten folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

  1. Sie können direkt von HuggingFace ziehen via:

  2. Laden Sie das Modell herunter (nach der Installation pip install huggingface_hub hf_transfer ). Sie können UD_Q4_K_XL oder andere quantisierte Versionen wählen.

Thinking: Qwen3-30B-A3B-Thinking-2507

Dieses Modell unterstützt nur den Thinking-Modus und ein 256K-Kontextfenster nativ. Die Standard-Chat-Vorlage fügt <think> automatisch hinzu, sodass Sie möglicherweise nur ein schließendes </think> Tag in der Ausgabe sehen.

⚙️Beste Praktiken

Um optimale Leistung zu erzielen, empfiehlt Qwen die folgenden Einstellungen:

  • Wir empfehlen die Verwendung von temperature=0.6, top_p=0.95, top_k=20 und min_p=0.0 presence_penalty zwischen 0 und 2, falls das Framework dies unterstützt, um endlose Wiederholungen zu reduzieren.

  • temperature = 0.6

  • top_k = 20

  • min_p = 0.00 (llama.cpps Standard ist 0.1)

  • top_p = 0.95

  • presence_penalty = 0.0 bis 2.0 (llama.cpp-Standard deaktiviert es, aber um Wiederholungen zu reduzieren, können Sie dies verwenden) Probieren Sie z. B. 1.0.

  • Unterstützt bis zu 262,144 Kontext nativ, aber Sie können ihn auf 32,768 Token für weniger RAM-Verbrauch setzen

🦙 Ollama: Qwen3-30B-A3B-Instruct-2507 Tutorial ausführen

  1. In Ollama ausführen Installieren Sie falls Sie es noch nicht getan haben! Sie können nur Modelle bis zu einer Größe von 32B ausführen. Um die vollständigen 235B-A22B-Modelle auszuführen, falls Sie es noch nicht getan haben! Um weitere Varianten des Modells auszuführen,.

  1. curl -fsSL https://ollama.com/install.sh | sh Führen Sie das Modell aus! Beachten Sie, dass Sieollama serve in einem anderen Terminal aufrufen können, wenn es fehlschlägt! Wir fügen alle unsere Fixes und vorgeschlagenen Parameter (Temperatur usw.) in params

Llama.cpp: Qwen3-30B-A3B-Instruct-2507 Tutorial ausführen

  1. Hole dir die neueste llama.cpp auf GitHub hierarrow-up-right. Du kannst auch den Build-Anweisungen unten folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

  1. Sie können direkt von Hugging Face ziehen via:

  2. Laden Sie das Modell herunter (nach der Installation pip install huggingface_hub hf_transfer ). Sie können UD_Q4_K_XL oder andere quantisierte Versionen wählen.

📖 Ausführen Qwen3-235B-A22B-2507 Tutorials

Unten stehen Anleitungen für die Thinking und Instruct Versionen des Modells.

Thinking: Qwen3-235B-A22B-Thinking-2507

Dieses Modell unterstützt nur den Thinking-Modus und ein 256K-Kontextfenster nativ. Die Standard-Chat-Vorlage fügt <think> automatisch hinzu, sodass Sie möglicherweise nur ein schließendes </think> Tag in der Ausgabe sehen.

⚙️ Beste Praktiken

Um optimale Leistung zu erzielen, empfiehlt Qwen diese Einstellungen für das Thinking-Modell:

  • temperature = 0.6

  • top_k = 20

  • min_p = 0.00 (llama.cpps Standard ist 0.1)

  • top_p = 0.95

  • presence_penalty = 0.0 bis 2.0 (llama.cpp-Standard deaktiviert es, aber um Wiederholungen zu reduzieren, können Sie dies verwenden) Probieren Sie z. B. 1.0.

  • Angemessene Ausgabelänge: Verwenden Sie eine Ausgabelänge von 32,768 Token für die meisten Anfragen, was für die meisten Anfragen ausreichend ist.

Qwen3-235B-A22B-Thinking via llama.cpp ausführen:

Für Qwen3-235B-A22B werden wir speziell Llama.cpp für optimierte Inferenz und eine Fülle von Optionen verwenden.

circle-check
  1. Hole dir die neueste llama.cpp auf GitHub hierarrow-up-right. Du kannst auch den Build-Anweisungen unten folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

  2. Sie können llama.cpp direkt verwenden, um das Modell herunterzuladen, aber ich empfehle normalerweise die Verwendung von huggingface_hub Um llama.cpp direkt zu verwenden, führen Sie aus:

  3. Laden Sie das Modell herunter (nach der Installation pip install huggingface_hub hf_transfer ). Du kannst UD-Q2_K_XL oder andere quantisierte Versionen wählen..

  4. Führe das Modell aus und probiere beliebige Prompts.

  5. Bearbeiten --threads -1 --threads 32 --ctx-size 262114 für Kontextlänge, --n-gpu-layers 99 --n-gpu-layers 2

circle-check

Instruct: Qwen3-235B-A22B-Instruct-2507

Da dies ein Non-Thinking-Modell ist, ist es nicht notwendig, thinking=False und das Modell erzeugt nicht <think> </think> Blöcke.

⚙️Beste Praktiken

Um optimale Leistung zu erzielen, empfehlen wir die folgenden Einstellungen:

1. Sampling-Parameter: Wir schlagen vor, temperature=0.7, top_p=0.8, top_k=20 und min_p=0. presence_penalty zwischen 0 und 2, falls das Framework dies unterstützt, um endlose Wiederholungen zu reduzieren.

2. Angemessene Ausgabelänge: Wir empfehlen die Verwendung einer Ausgabelänge von 16,384 Token für die meisten Anfragen, was für Instruct-Modelle ausreichend ist.

3. Ausgabeformat standardisieren: Wir empfehlen die Verwendung von Prompts, um Modell-Ausgaben beim Benchmarking zu standardisieren.

  • Mathematikaufgaben: Einschließen Bitte denken Sie Schritt für Schritt nach und geben Sie Ihre endgültige Antwort innerhalb von \boxed{} an. im Prompt.

  • Multiple-Choice-Fragen: Fügen Sie die folgende JSON-Struktur in den Prompt ein, um Antworten zu standardisieren: "Bitte zeigen Sie Ihre Wahl im Feld `answer` nur mit dem Buchstaben der Wahl, z. B. `"answer": "C".

Qwen3-235B-A22B-Instruct via llama.cpp ausführen:

Für Qwen3-235B-A22B werden wir speziell Llama.cpp für optimierte Inferenz und eine Fülle von Optionen verwenden.

circle-info

Wenn Sie eine vollpräzise unquantisierte Version, verwenden Sie unser Q8_K_XL, Q8_0 oder BF16 Versionen!

  1. Holen Sie sich das neueste llama.cpp auf GitHubarrow-up-right hier. Sie können auch den untenstehenden Build-Anweisungen folgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

2. Sie können llama.cpp direkt verwenden, um das Modell herunterzuladen, aber ich empfehle normalerweise die Verwendung von huggingface_hub Um llama.cpp direkt zu verwenden, führen Sie aus:\

3. Laden Sie das Modell herunter via (nach der Installation von pip install huggingface_hub hf_transfer ). Du kannst UD-Q2_K_XL oder andere quantisierte Versionen wählen..

4. Führen Sie das Modell aus und probieren Sie beliebige Prompts. 5. Bearbeiten Sie --threads -1 --threads 32 --ctx-size 262114 für Kontextlänge, --n-gpu-layers 99 --n-gpu-layers 2

circle-check

🛠️ Generationsgeschwindigkeit verbessern

Wenn Sie mehr VRAM haben, können Sie versuchen, mehr MoE-Schichten auszulagern oder ganze Schichten selbst auszulagern.

Normalerweise, -ot ".ffn_.*_exps.=CPU" lagert alle MoE-Schichten auf die CPU aus! Dies ermöglicht effektiv, alle Nicht-MoE-Schichten auf 1 GPU unterzubringen und verbessert die Generationsgeschwindigkeit. Sie können den Regex-Ausdruck anpassen, um mehr Schichten unterzubringen, wenn Sie mehr GPU-Kapazität haben.

Wenn Sie etwas mehr GPU-Speicher haben, versuchen Sie -ot ".ffn_(up|down)_exps.=CPU" Dies lagert Up- und Down-Projektions-MoE-Schichten aus.

Versuchen Sie -ot ".ffn_(up)_exps.=CPU" wenn Sie noch mehr GPU-Speicher haben. Dies lagert nur Up-Projektions-MoE-Schichten aus.

Sie können auch den Regex anpassen, zum Beispiel -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" bedeutet, Gate-, Up- und Down-MoE-Schichten auszulagern, aber nur ab der 6. Schicht.

Die neueste llama.cpp-Versionarrow-up-right führt außerdem einen Hochdurchsatzmodus ein. Verwenden Sie llama-parallel. Lesen Sie mehr darüber hierarrow-up-right. Sie können auch den KV-Cache z. B. auf 4 Bit quantisieren, um z. B. VRAM-/RAM-Bewegungen zu reduzieren, was den Generationsprozess ebenfalls beschleunigen kann. Die nächste Abschnitt bespricht die KV-Cache-Quantisierung.

📐Wie man langen Kontext unterbringt

Um längeren Kontext unterzubringen, können Sie KV-Cache-Quantisierung verwenden, um die K- und V-Caches auf niedrigere Bits zu quantisieren. Dies kann auch die Generationsgeschwindigkeit erhöhen aufgrund reduzierter RAM-/VRAM-Datenbewegungen. Die erlaubten Optionen für K-Quantisierung (Standard ist f16) umfassen die untenstehenden.

--cache-type-k f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1

Sie sollten die _1 Varianten für etwas erhöhte Genauigkeit verwenden, obwohl sie etwas langsamer sind. Zum Beispiel q4_1, q5_1 Probieren Sie also --cache-type-k q4_1

Sie können auch den V-Cache quantisieren, aber Sie müssen llama.cpp mit Flash Attention kompilieren Unterstützung via -DGGML_CUDA_FA_ALL_QUANTS=ON, und verwenden --flash-attn um es zu aktivieren. Nach der Installation von Flash Attention können Sie dann --cache-type-v q4_1

🦥 Qwen3-2507 mit Unsloth feinabstimmen

Unsloth macht Qwen3 und Qwen3-2507-Fine-Tuning 2x schneller, verwendet 70% weniger VRAM und unterstützt 8x längere Kontextlängen. Da Qwen3-2507 nur in einer 30B-Variante veröffentlicht wurde, bedeutet dies, dass Sie etwa eine 40GB A100-GPU benötigen, um das Modell mit QLoRA (4-Bit) feinabzustimmen.

Für ein Notebook: Da das Modell nicht in Colabs kostenlose 16GB-GPUs passt, müssen Sie eine 40GB A100 verwenden. Sie können unser Conversational-Notebook verwenden, aber den Datensatz durch einen Ihrer Wahl ersetzen. Diesmal müssen Sie in Ihrem Datensatz kein kombiniertes Reasoning aufnehmen, da das Modell kein Reasoning hat.

Wenn Sie eine alte Version von Unsloth haben und/oder lokal feinabstimmen, installieren Sie die neueste Version von Unsloth:

Qwen3-2507 MOE-Modelle Fine-Tuning

Das Fine-Tuning unterstützt MOE-Modelle: 30B-A3B und 235B-A22B. Qwen3-30B-A3B funktioniert mit 30GB VRAM mit Unsloth. Beim Fine-Tuning von MoEs ist es wahrscheinlich keine gute Idee, die Router-Schicht feinzuabstimmen, daher haben wir sie standardmäßig deaktiviert.

Qwen3-2507-4B-Notebooks für: Thinkingarrow-up-right und Instructarrow-up-right

Der 30B-A3B passt in 30GB VRAM, aber Sie könnten RAM- oder Festplattenspeicher vermissen, da das vollständige 16-Bit-Modell heruntergeladen und für QLoRA-Fine-Tuning on-the-fly in 4-Bit konvertiert werden muss. Dies liegt an Problemen beim direkten Import von 4-Bit BnB MOE-Modellen. Dies betrifft nur MOE-Modelle.

circle-exclamation

Zuletzt aktualisiert

War das hilfreich?