🌠Qwen3-Next: Anleitung zum lokalen Betrieb
Führe Qwen3-Next-80B-A3B-Instruct und Thinking-Versionen lokal auf deinem Gerät aus!
Qwen veröffentlichte Qwen3-Next im Sept. 2025, dabei handelt es sich um 80B MoEs mit Thinking- und Instruct-Modellvarianten von Qwen3. Mit 256K Kontext wurde Qwen3-Next mit einer brandneuen Architektur (Hybrid aus MoEs & Gated DeltaNet + Gated Attention) entwickelt, die speziell für schnelle Inferenz bei längeren Kontextlängen optimiert ist. Qwen3-Next bietet eine 10x schnellere Inferenz als Qwen3-32B.
Qwen3-Next Instruct ausführenQwen3-Next Thinking ausführen
Qwen3-Next-80B-A3B Dynamische GGUFs: Instruct • Thinking
⚙️ Gebrauchsanleitung
NEU ab 6. Dez. 2025: Unsloth Qwen3-Next jetzt mit iMatrix für verbesserte Leistung aktualisiert.
Das Thinking-Modell verwendet temperature = 0.6, aber das Instruct-Modell verwendet temperature = 0.7
Das Thinking-Modell verwendet top_p = 0.95, aber das Instruct-Modell verwendet top_p = 0.8
Um optimale Leistung zu erzielen, empfiehlt Qwen diese Einstellungen:
Temperature = 0.7
Temperature = 0.6
Min_P = 0.00 (llama.cpps Standard ist 0.1)
Min_P = 0.00 (llama.cpps Standard ist 0.1)
Top_P = 0.80
Top_P = 0.95
TopK = 20
TopK = 20
presence_penalty = 0.0 bis 2.0 (llama.cpp-Standard deaktiviert es, aber um Wiederholungen zu reduzieren, können Sie dies verwenden)
presence_penalty = 0.0 bis 2.0 (llama.cpp-Standard deaktiviert es, aber um Wiederholungen zu reduzieren, können Sie dies verwenden)
Angemessene Ausgabelänge: Verwenden Sie eine Ausgabelänge von 32,768 Token für die meisten Abfragen für die Thinking-Variante und 16,384 für die Instruct-Variante. Sie können die maximale Ausgabelänge für das Thinking-Modell bei Bedarf erhöhen.
Chat-Vorlage für beide: Thinking (Thinking hat <think></think>) und Instruct ist unten:
<|im_start|>user
Hey there!<|im_end|>
<|im_start|>assistant
What is 1+1?<|im_end|>
<|im_start|>user
2<|im_end|>
<|im_start|>assistant📖 Qwen3-Next Tutorials ausführen
Unten stehen Anleitungen für die Thinking und Instruct Versionen des Modells.
Instruct: Qwen3-Next-80B-A3B-Instruct
Da dies ein Nicht-Thinking-Modell ist, erzeugt das Modell nicht <think> </think> Blöcke.
⚙️Beste Praktiken
Um optimale Leistung zu erzielen, empfiehlt Qwen die folgenden Einstellungen:
Wir empfehlen die Verwendung von
temperature=0.7, top_p=0.8, top_k=20 und min_p=0.0presence_penaltyzwischen 0 und 2, falls das Framework dies unterstützt, um endlose Wiederholungen zu reduzieren.temperature = 0.7top_k = 20min_p = 0.00(llama.cpps Standard ist 0.1)top_p = 0.80presence_penalty = 0.0 bis 2.0(llama.cpp-Standard deaktiviert es, aber um Wiederholungen zu reduzieren, können Sie dies verwenden) Probieren Sie z. B. 1.0.Unterstützt bis zu
262,144Kontext nativ, aber Sie können ihn auf32,768Token für weniger RAM-Verbrauch setzen
✨ Llama.cpp: Qwen3-Next-80B-A3B-Instruct Tutorial ausführen
Hole das neueste
llama.cppauf GitHub hier. Sie können auch den unten stehenden Build-Anweisungen folgen. Ändern Sie-DGGML_CUDA=ONzu-DGGML_CUDA=OFFwenn Sie keine GPU haben oder nur CPU-Inferenz möchten. Für Apple Mac / Metal-Geräte, setze-DGGML_CUDA=OFFund fahre dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.
Sie können direkt von HuggingFace ziehen via:
Laden Sie das Modell herunter (nach der Installation
pip install huggingface_hub hf_transfer). Sie können wählenUD_Q4_K_XLoder andere quantisierte Versionen.
Thinking: Qwen3-Next-80B-A3B-Thinking
Dieses Modell unterstützt nur den Thinking-Modus und ein 256K-Kontextfenster nativ. Die Standard-Chat-Vorlage fügt <think> automatisch hinzu, sodass Sie möglicherweise nur ein schließendes </think> Tag in der Ausgabe sehen.
⚙️Beste Praktiken
Um optimale Leistung zu erzielen, empfiehlt Qwen die folgenden Einstellungen:
Wir empfehlen die Verwendung von
temperature=0.6, top_p=0.95, top_k=20 und min_p=0.0presence_penaltyzwischen 0 und 2, falls das Framework dies unterstützt, um endlose Wiederholungen zu reduzieren.temperature = 0.6top_k = 20min_p = 0.00(llama.cpps Standard ist 0.1)top_p = 0.95presence_penalty = 0.0 bis 2.0(llama.cpp-Standard deaktiviert es, aber um Wiederholungen zu reduzieren, können Sie dies verwenden) Probieren Sie z. B. 1.0.Unterstützt bis zu
262,144Kontext nativ, aber Sie können ihn auf32,768Token für weniger RAM-Verbrauch setzen
✨ Llama.cpp: Qwen3-Next-80B-A3B-Thinking Tutorial ausführen
Hole das neueste
llama.cppauf GitHub hier. Sie können auch den unten stehenden Build-Anweisungen folgen. Ändern Sie-DGGML_CUDA=ONzu-DGGML_CUDA=OFFwenn Sie keine GPU haben oder nur CPU-Inferenz möchten.
Sie können direkt von Hugging Face ziehen via:
Laden Sie das Modell herunter (nach der Installation
pip install huggingface_hub hf_transfer). Sie können wählenUD_Q4_K_XLoder andere quantisierte Versionen.
🛠️ Generationsgeschwindigkeit verbessern
Wenn Sie mehr VRAM haben, können Sie versuchen, mehr MoE-Schichten auszulagern oder ganze Schichten selbst auszulagern.
Normalerweise, -ot ".ffn_.*_exps.=CPU" lagert alle MoE-Schichten auf die CPU aus! Dies ermöglicht effektiv, alle Nicht-MoE-Schichten auf 1 GPU unterzubringen und verbessert die Generationsgeschwindigkeit. Sie können den Regex-Ausdruck anpassen, um mehr Schichten unterzubringen, wenn Sie mehr GPU-Kapazität haben.
Wenn Sie etwas mehr GPU-Speicher haben, versuchen Sie -ot ".ffn_(up|down)_exps.=CPU" Dies lagert Up- und Down-Projektions-MoE-Schichten aus.
Versuchen Sie -ot ".ffn_(up)_exps.=CPU" wenn Sie noch mehr GPU-Speicher haben. Dies lagert nur Up-Projektions-MoE-Schichten aus.
Sie können auch den Regex anpassen, zum Beispiel -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" bedeutet, Gate-, Up- und Down-MoE-Schichten auszulagern, aber nur ab der 6. Schicht.
Die neueste llama.cpp-Version führt außerdem einen Hochdurchsatzmodus ein. Verwenden Sie llama-parallel. Lesen Sie mehr darüber hier. Sie können auch den KV-Cache z. B. auf 4 Bit quantisieren, um z. B. VRAM-/RAM-Bewegungen zu reduzieren, was den Generationsprozess ebenfalls beschleunigen kann. Die nächste Abschnitt bespricht die KV-Cache-Quantisierung.
📐Wie man langen Kontext unterbringt
Um längeren Kontext unterzubringen, können Sie KV-Cache-Quantisierung verwenden, um die K- und V-Caches auf niedrigere Bits zu quantisieren. Dies kann auch die Generationsgeschwindigkeit erhöhen aufgrund reduzierter RAM-/VRAM-Datenbewegungen. Die erlaubten Optionen für K-Quantisierung (Standard ist f16) umfassen die untenstehenden.
--cache-type-k f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1
Sie sollten die _1 Varianten für etwas erhöhte Genauigkeit verwenden, obwohl sie etwas langsamer sind. Zum Beispiel q4_1, q5_1 Probieren Sie also --cache-type-k q4_1
Sie können auch den V-Cache quantisieren, aber Sie müssen llama.cpp mit Flash Attention kompilieren Unterstützung via -DGGML_CUDA_FA_ALL_QUANTS=ON, und verwenden --flash-attn um es zu aktivieren. Nach der Installation von Flash Attention können Sie dann --cache-type-v q4_1

Zuletzt aktualisiert
War das hilfreich?

