🌠Qwen3-Next: Anleitung zum lokalen Betrieb
Führe Qwen3-Next-80B-A3B-Instruct und Thinking-Versionen lokal auf deinem Gerät aus!
Qwen veröffentlichte Qwen3-Next im Sept. 2025, das sind 80B MoEs mit Thinking- und Instruct-Modellvarianten von Qwen3. Mit 256K Kontext wurde Qwen3-Next mit einer brandneuen Architektur (Hybrid aus MoEs & Gated DeltaNet + Gated Attention) entwickelt, die speziell für schnelle Inferenz bei längeren Kontextlängen optimiert ist. Qwen3-Next bietet eine 10x schnellere Inferenz als Qwen3-32B.
Qwen3-Next Instruct ausführenQwen3-Next Thinking ausführen
Qwen3-Next-80B-A3B Dynamic GGUFs: Instruktion • Denken
⚙️ Gebrauchsanleitung
NEU ab 6. Dez. 2025: Unsloth Qwen3-Next jetzt mit iMatrix für verbesserte Leistung aktualisiert.
Das Thinking-Modell verwendet temperature = 0.6, aber das Instruct-Modell verwendet temperature = 0.7
Das Thinking-Modell verwendet top_p = 0.95, aber das Instruct-Modell verwendet top_p = 0.8
Um optimale Leistung zu erzielen, empfiehlt Qwen diese Einstellungen:
Temperature = 0.7
Temperature = 0.6
Min_P = 0.00 (llama.cpps Standard ist 0.1)
Min_P = 0.00 (llama.cpps Standard ist 0.1)
Top_P = 0.80
Top_P = 0.95
TopK = 20
TopK = 20
presence_penalty = 0.0 bis 2.0 (llama.cpp-Standard schaltet es aus, aber um Wiederholungen zu reduzieren, können Sie dies verwenden)
presence_penalty = 0.0 bis 2.0 (llama.cpp-Standard schaltet es aus, aber um Wiederholungen zu reduzieren, können Sie dies verwenden)
Angemessene Ausgabelänge: Verwenden Sie eine Ausgabelänge von 32,768 Tokens für die meisten Abfragen für die Thinking-Variante und 16,384 für die Instruct-Variante. Sie können die maximale Ausgabengröße für das Thinking-Modell bei Bedarf erhöhen.
Chatvorlage für beide, Thinking (Thinking hat <think></think>) und Instruct ist unten:
<|im_start|>user
Hey there!<|im_end|>
<|im_start|>assistant
What is 1+1?<|im_end|>
<|im_start|>user
2<|im_end|>
<|im_start|>assistant📖 Qwen3-Next Tutorials ausführen
Unten sind Anleitungen für die Denken und Instruktion Versionen des Modells.
Instruct: Qwen3-Next-80B-A3B-Instruct
Da dies ein Nicht-Thinking-Modell ist, erzeugt das Modell nicht <think> </think> Blöcke.
⚙️Beste Praktiken
Um optimale Leistung zu erzielen, empfiehlt Qwen die folgenden Einstellungen:
Wir empfehlen die Verwendung von
temperature=0.7, top_p=0.8, top_k=20 und min_p=0.0presence_penaltyzwischen 0 und 2, falls das Framework dies unterstützt, um endlose Wiederholungen zu reduzieren.temperature = 0.7top_k = 20min_p = 0.00(llama.cpps Standard ist 0.1)top_p = 0.80presence_penalty = 0.0 bis 2.0(llama.cpp-Standard schaltet es aus, aber um Wiederholungen zu reduzieren, können Sie dies verwenden) Probieren Sie zum Beispiel 1.0.Unterstützt nativ bis zu
262,144Kontext, Sie können ihn jedoch auf32,768Tokens einstellen, um weniger RAM zu verwenden
✨ Llama.cpp: Qwen3-Next-80B-A3B-Instruct Tutorial ausführen
Holen Sie sich die neueste
llama.cppauf GitHub hier. Sie können auch den unten stehenden Build-Anweisungen folgen. Ändern Sie-DGGML_CUDA=ONzu-DGGML_CUDA=OFFwenn Sie keine GPU haben oder nur CPU-Inferenz wünschen.
Sie können direkt von HuggingFace ziehen via:
Laden Sie das Modell herunter über (nach Installation von
pip install huggingface_hub hf_transfer). Sie können wählenUD_Q4_K_XLoder andere quantisierte Versionen.
Thinking: Qwen3-Next-80B-A3B-Thinking
Dieses Modell unterstützt nur den Thinking-Modus und ein 256K-Kontextfenster nativ. Die Standard-Chatvorlage fügt <think> automatisch hinzu, daher sehen Sie möglicherweise nur ein schließendes </think> Tag in der Ausgabe.
⚙️Beste Praktiken
Um optimale Leistung zu erzielen, empfiehlt Qwen die folgenden Einstellungen:
Wir empfehlen die Verwendung von
temperature=0.6, top_p=0.95, top_k=20 und min_p=0.0presence_penaltyzwischen 0 und 2, falls das Framework dies unterstützt, um endlose Wiederholungen zu reduzieren.temperature = 0.6top_k = 20min_p = 0.00(llama.cpps Standard ist 0.1)top_p = 0.95presence_penalty = 0.0 bis 2.0(llama.cpp-Standard schaltet es aus, aber um Wiederholungen zu reduzieren, können Sie dies verwenden) Probieren Sie zum Beispiel 1.0.Unterstützt nativ bis zu
262,144Kontext, Sie können ihn jedoch auf32,768Tokens einstellen, um weniger RAM zu verwenden
✨ Llama.cpp: Qwen3-Next-80B-A3B-Thinking Tutorial ausführen
Holen Sie sich die neueste
llama.cppauf GitHub hier. Sie können auch den unten stehenden Build-Anweisungen folgen. Ändern Sie-DGGML_CUDA=ONzu-DGGML_CUDA=OFFwenn Sie keine GPU haben oder nur CPU-Inferenz wünschen.
Sie können direkt von Hugging Face ziehen via:
Laden Sie das Modell herunter über (nach Installation von
pip install huggingface_hub hf_transfer). Sie können wählenUD_Q4_K_XLoder andere quantisierte Versionen.
🛠️ Verbesserung der Generierungsgeschwindigkeit
Wenn Sie mehr VRAM haben, können Sie versuchen, mehr MoE-Schichten auszulagern oder ganze Schichten selbst auszulagern.
Normalerweise, -ot ".ffn_.*_exps.=CPU" lagert alle MoE-Schichten auf die CPU aus! Dies ermöglicht es effektiv, alle Nicht-MoE-Schichten auf einer GPU unterzubringen und die Generationsgeschwindigkeit zu verbessern. Sie können den Regex-Ausdruck anpassen, um mehr Schichten auszulagern, wenn Sie mehr GPU-Kapazität haben.
Wenn Sie etwas mehr GPU-Speicher haben, versuchen Sie -ot ".ffn_(up|down)_exps.=CPU" Dies lagert up- und down-Projektions-MoE-Schichten aus.
Versuchen Sie -ot ".ffn_(up)_exps.=CPU" wenn Sie noch mehr GPU-Speicher haben. Dies lagert nur up-Projektions-MoE-Schichten aus.
Sie können den Regex auch anpassen, zum Beispiel -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" bedeutet, Gate-, Up- und Down-MoE-Schichten auszulagern, jedoch nur ab der 6. Schicht.
Der neueste llama.cpp-Version führt auch einen Hochdurchsatzmodus ein. Verwenden Sie llama-parallel. Lesen Sie mehr darüber hier. Sie können auch den KV-Cache auf 4 Bit quantisieren zum Beispiel, um VRAM-/RAM-Bewegungen zu reduzieren, was den Generierungsprozess ebenfalls beschleunigen kann. Die nächste Abschnitt spricht über KV-Cache-Quantisierung.
📐Wie man langen Kontext anpasst
Um längere Kontexte unterzubringen, können Sie KV-Cache-Quantisierung verwenden, um die K- und V-Caches auf niedrigere Bits zu quantisieren. Dies kann auch die Generationsgeschwindigkeit aufgrund reduzierter RAM-/VRAM-Datenbewegung erhöhen. Die erlaubten Optionen für K-Quantisierung (Standard ist f16) umfassen die folgenden.
--cache-type-k f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1
Sie sollten die _1 Varianten für etwas erhöhte Genauigkeit verwenden, obwohl sie etwas langsamer sind. Zum Beispiel q4_1, q5_1 Probieren Sie also --cache-type-k q4_1
Sie können auch den V-Cache quantisieren, aber Sie müssen llama.cpp mit Flash Attention kompilieren Unterstützung über -DGGML_CUDA_FA_ALL_QUANTS=ON, und verwenden Sie --flash-attn um es zu aktivieren. Nachdem Sie Flash Attention installiert haben, können Sie dann --cache-type-v q4_1

Zuletzt aktualisiert
War das hilfreich?

