🌠Qwen3-Next: Anleitung zum lokalen Betrieb

Führe Qwen3-Next-80B-A3B-Instruct und Thinking-Versionen lokal auf deinem Gerät aus!

Qwen veröffentlichte Qwen3-Next im Sept. 2025, das sind 80B MoEs mit Thinking- und Instruct-Modellvarianten von Qwen3. Mit 256K Kontext wurde Qwen3-Next mit einer brandneuen Architektur (Hybrid aus MoEs & Gated DeltaNet + Gated Attention) entwickelt, die speziell für schnelle Inferenz bei längeren Kontextlängen optimiert ist. Qwen3-Next bietet eine 10x schnellere Inferenz als Qwen3-32B.

Qwen3-Next Instruct ausführenQwen3-Next Thinking ausführen

Qwen3-Next-80B-A3B Dynamic GGUFs: Instruktionarrow-up-rightDenkenarrow-up-right

⚙️ Gebrauchsanleitung

circle-check

Um optimale Leistung zu erzielen, empfiehlt Qwen diese Einstellungen:

Instruct:
Thinking:

Temperature = 0.7

Temperature = 0.6

Min_P = 0.00 (llama.cpps Standard ist 0.1)

Min_P = 0.00 (llama.cpps Standard ist 0.1)

Top_P = 0.80

Top_P = 0.95

TopK = 20

TopK = 20

presence_penalty = 0.0 bis 2.0 (llama.cpp-Standard schaltet es aus, aber um Wiederholungen zu reduzieren, können Sie dies verwenden)

presence_penalty = 0.0 bis 2.0 (llama.cpp-Standard schaltet es aus, aber um Wiederholungen zu reduzieren, können Sie dies verwenden)

Angemessene Ausgabelänge: Verwenden Sie eine Ausgabelänge von 32,768 Tokens für die meisten Abfragen für die Thinking-Variante und 16,384 für die Instruct-Variante. Sie können die maximale Ausgabengröße für das Thinking-Modell bei Bedarf erhöhen.

Chatvorlage für beide, Thinking (Thinking hat <think></think>) und Instruct ist unten:

<|im_start|>user
Hey there!<|im_end|>
<|im_start|>assistant
What is 1+1?<|im_end|>
<|im_start|>user
2<|im_end|>
<|im_start|>assistant

📖 Qwen3-Next Tutorials ausführen

Unten sind Anleitungen für die Denken und Instruktion Versionen des Modells.

Instruct: Qwen3-Next-80B-A3B-Instruct

Da dies ein Nicht-Thinking-Modell ist, erzeugt das Modell nicht <think> </think> Blöcke.

⚙️Beste Praktiken

Um optimale Leistung zu erzielen, empfiehlt Qwen die folgenden Einstellungen:

  • Wir empfehlen die Verwendung von temperature=0.7, top_p=0.8, top_k=20 und min_p=0.0 presence_penalty zwischen 0 und 2, falls das Framework dies unterstützt, um endlose Wiederholungen zu reduzieren.

  • temperature = 0.7

  • top_k = 20

  • min_p = 0.00 (llama.cpps Standard ist 0.1)

  • top_p = 0.80

  • presence_penalty = 0.0 bis 2.0 (llama.cpp-Standard schaltet es aus, aber um Wiederholungen zu reduzieren, können Sie dies verwenden) Probieren Sie zum Beispiel 1.0.

  • Unterstützt nativ bis zu 262,144 Kontext, Sie können ihn jedoch auf 32,768 Tokens einstellen, um weniger RAM zu verwenden

Llama.cpp: Qwen3-Next-80B-A3B-Instruct Tutorial ausführen

  1. Holen Sie sich die neueste llama.cpp auf GitHub hierarrow-up-right. Sie können auch den unten stehenden Build-Anweisungen folgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz wünschen.

  1. Sie können direkt von HuggingFace ziehen via:

  2. Laden Sie das Modell herunter über (nach Installation von pip install huggingface_hub hf_transfer ). Sie können wählen UD_Q4_K_XL oder andere quantisierte Versionen.

Thinking: Qwen3-Next-80B-A3B-Thinking

Dieses Modell unterstützt nur den Thinking-Modus und ein 256K-Kontextfenster nativ. Die Standard-Chatvorlage fügt <think> automatisch hinzu, daher sehen Sie möglicherweise nur ein schließendes </think> Tag in der Ausgabe.

⚙️Beste Praktiken

Um optimale Leistung zu erzielen, empfiehlt Qwen die folgenden Einstellungen:

  • Wir empfehlen die Verwendung von temperature=0.6, top_p=0.95, top_k=20 und min_p=0.0 presence_penalty zwischen 0 und 2, falls das Framework dies unterstützt, um endlose Wiederholungen zu reduzieren.

  • temperature = 0.6

  • top_k = 20

  • min_p = 0.00 (llama.cpps Standard ist 0.1)

  • top_p = 0.95

  • presence_penalty = 0.0 bis 2.0 (llama.cpp-Standard schaltet es aus, aber um Wiederholungen zu reduzieren, können Sie dies verwenden) Probieren Sie zum Beispiel 1.0.

  • Unterstützt nativ bis zu 262,144 Kontext, Sie können ihn jedoch auf 32,768 Tokens einstellen, um weniger RAM zu verwenden

Llama.cpp: Qwen3-Next-80B-A3B-Thinking Tutorial ausführen

  1. Holen Sie sich die neueste llama.cpp auf GitHub hierarrow-up-right. Sie können auch den unten stehenden Build-Anweisungen folgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz wünschen.

  1. Sie können direkt von Hugging Face ziehen via:

  2. Laden Sie das Modell herunter über (nach Installation von pip install huggingface_hub hf_transfer ). Sie können wählen UD_Q4_K_XL oder andere quantisierte Versionen.

🛠️ Verbesserung der Generierungsgeschwindigkeit

Wenn Sie mehr VRAM haben, können Sie versuchen, mehr MoE-Schichten auszulagern oder ganze Schichten selbst auszulagern.

Normalerweise, -ot ".ffn_.*_exps.=CPU" lagert alle MoE-Schichten auf die CPU aus! Dies ermöglicht es effektiv, alle Nicht-MoE-Schichten auf einer GPU unterzubringen und die Generationsgeschwindigkeit zu verbessern. Sie können den Regex-Ausdruck anpassen, um mehr Schichten auszulagern, wenn Sie mehr GPU-Kapazität haben.

Wenn Sie etwas mehr GPU-Speicher haben, versuchen Sie -ot ".ffn_(up|down)_exps.=CPU" Dies lagert up- und down-Projektions-MoE-Schichten aus.

Versuchen Sie -ot ".ffn_(up)_exps.=CPU" wenn Sie noch mehr GPU-Speicher haben. Dies lagert nur up-Projektions-MoE-Schichten aus.

Sie können den Regex auch anpassen, zum Beispiel -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" bedeutet, Gate-, Up- und Down-MoE-Schichten auszulagern, jedoch nur ab der 6. Schicht.

Der neueste llama.cpp-Versionarrow-up-right führt auch einen Hochdurchsatzmodus ein. Verwenden Sie llama-parallel. Lesen Sie mehr darüber hierarrow-up-right. Sie können auch den KV-Cache auf 4 Bit quantisieren zum Beispiel, um VRAM-/RAM-Bewegungen zu reduzieren, was den Generierungsprozess ebenfalls beschleunigen kann. Die nächste Abschnitt spricht über KV-Cache-Quantisierung.

📐Wie man langen Kontext anpasst

Um längere Kontexte unterzubringen, können Sie KV-Cache-Quantisierung verwenden, um die K- und V-Caches auf niedrigere Bits zu quantisieren. Dies kann auch die Generationsgeschwindigkeit aufgrund reduzierter RAM-/VRAM-Datenbewegung erhöhen. Die erlaubten Optionen für K-Quantisierung (Standard ist f16) umfassen die folgenden.

--cache-type-k f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1

Sie sollten die _1 Varianten für etwas erhöhte Genauigkeit verwenden, obwohl sie etwas langsamer sind. Zum Beispiel q4_1, q5_1 Probieren Sie also --cache-type-k q4_1

Sie können auch den V-Cache quantisieren, aber Sie müssen llama.cpp mit Flash Attention kompilieren Unterstützung über -DGGML_CUDA_FA_ALL_QUANTS=ON, und verwenden Sie --flash-attn um es zu aktivieren. Nachdem Sie Flash Attention installiert haben, können Sie dann --cache-type-v q4_1

Zuletzt aktualisiert

War das hilfreich?