🌠Qwen3-Next: Anleitung zum lokalen Betrieb

Führe Qwen3-Next-80B-A3B-Instruct und Thinking-Versionen lokal auf deinem Gerät aus!

Qwen veröffentlichte Qwen3-Next im Sept. 2025, dabei handelt es sich um 80B MoEs mit Thinking- und Instruct-Modellvarianten von Qwen3. Mit 256K Kontext wurde Qwen3-Next mit einer brandneuen Architektur (Hybrid aus MoEs & Gated DeltaNet + Gated Attention) entwickelt, die speziell für schnelle Inferenz bei längeren Kontextlängen optimiert ist. Qwen3-Next bietet eine 10x schnellere Inferenz als Qwen3-32B.

Qwen3-Next Instruct ausführen Qwen3-Next Thinking ausführen

Qwen3-Next-80B-A3B Dynamische GGUFs: Instruct • Thinking

⚙️ Gebrauchsanleitung

NEU ab 6. Dez. 2025: Unsloth Qwen3-Next jetzt mit iMatrix für verbesserte Leistung aktualisiert.

Das Thinking-Modell verwendet temperature = 0.6, aber das Instruct-Modell verwendet temperature = 0.7 Das Thinking-Modell verwendet top_p = 0.95, aber das Instruct-Modell verwendet top_p = 0.8

Um optimale Leistung zu erzielen, empfiehlt Qwen diese Einstellungen:

Instruct:

Thinking:

Temperature = 0.7

Temperature = 0.6

Min_P = 0.00 (llama.cpps Standard ist 0.1)

Top_P = 0.80

Top_P = 0.95

TopK = 20

presence_penalty = 0.0 bis 2.0 (llama.cpp-Standard deaktiviert es, aber um Wiederholungen zu reduzieren, können Sie dies verwenden)

Angemessene Ausgabelänge: Verwenden Sie eine Ausgabelänge von 32,768 Token für die meisten Abfragen für die Thinking-Variante und 16,384 für die Instruct-Variante. Sie können die maximale Ausgabelänge für das Thinking-Modell bei Bedarf erhöhen.

Chat-Vorlage für beide: Thinking (Thinking hat <think></think>) und Instruct ist unten:

<|im_start|>user
Hey there!<|im_end|>
<|im_start|>assistant
What is 1+1?<|im_end|>
<|im_start|>user
2<|im_end|>
<|im_start|>assistant

📖 Qwen3-Next Tutorials ausführen

Unten stehen Anleitungen für die Thinking und Instruct Versionen des Modells.

Instruct: Qwen3-Next-80B-A3B-Instruct

Da dies ein Nicht-Thinking-Modell ist, erzeugt das Modell nicht <think> </think> Blöcke.

⚙️Beste Praktiken

Um optimale Leistung zu erzielen, empfiehlt Qwen die folgenden Einstellungen:

Wir empfehlen die Verwendung von temperature=0.7, top_p=0.8, top_k=20 und min_p=0.0 presence_penalty zwischen 0 und 2, falls das Framework dies unterstützt, um endlose Wiederholungen zu reduzieren.
temperature = 0.7
top_k = 20
min_p = 0.00 (llama.cpps Standard ist 0.1)
top_p = 0.80
presence_penalty = 0.0 bis 2.0 (llama.cpp-Standard deaktiviert es, aber um Wiederholungen zu reduzieren, können Sie dies verwenden) Probieren Sie z. B. 1.0.
Unterstützt bis zu 262,144 Kontext nativ, aber Sie können ihn auf 32,768 Token für weniger RAM-Verbrauch setzen

✨ Llama.cpp: Qwen3-Next-80B-A3B-Instruct Tutorial ausführen

Hole das neueste llama.cpp auf GitHub hier. Sie können auch den unten stehenden Build-Anweisungen folgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz möchten. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF und fahre dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Sie können direkt von HuggingFace ziehen via:

./llama.cpp/llama-cli \
    -hf unsloth/Qwen3-Next-80B-A3B-Instruct-GGUF:Q4_K_XL \
    --jinja -ngl 99 --ctx-size 32768 \
    --temp 0.7 --min-p 0.0 --top-p 0.80 --top-k 20 --presence-penalty 1.0

Laden Sie das Modell herunter (nach der Installation pip install huggingface_hub hf_transfer ). Sie können wählen UD_Q4_K_XL oder andere quantisierte Versionen.

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Qwen3-Next-80B-A3B-Instruct-GGUF",
    local_dir = "Qwen3-Next-80B-A3B-Instruct-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)

Thinking: Qwen3-Next-80B-A3B-Thinking

Dieses Modell unterstützt nur den Thinking-Modus und ein 256K-Kontextfenster nativ. Die Standard-Chat-Vorlage fügt <think> automatisch hinzu, sodass Sie möglicherweise nur ein schließendes </think> Tag in der Ausgabe sehen.

⚙️Beste Praktiken

Um optimale Leistung zu erzielen, empfiehlt Qwen die folgenden Einstellungen:

Wir empfehlen die Verwendung von temperature=0.6, top_p=0.95, top_k=20 und min_p=0.0 presence_penalty zwischen 0 und 2, falls das Framework dies unterstützt, um endlose Wiederholungen zu reduzieren.
temperature = 0.6
top_k = 20
min_p = 0.00 (llama.cpps Standard ist 0.1)
top_p = 0.95
presence_penalty = 0.0 bis 2.0 (llama.cpp-Standard deaktiviert es, aber um Wiederholungen zu reduzieren, können Sie dies verwenden) Probieren Sie z. B. 1.0.
Unterstützt bis zu 262,144 Kontext nativ, aber Sie können ihn auf 32,768 Token für weniger RAM-Verbrauch setzen

✨ Llama.cpp: Qwen3-Next-80B-A3B-Thinking Tutorial ausführen

Hole das neueste llama.cpp auf GitHub hier. Sie können auch den unten stehenden Build-Anweisungen folgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz möchten.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Sie können direkt von Hugging Face ziehen via:

./llama.cpp/llama-cli \
    -hf unsloth/Qwen3-Next-80B-A3B-Thinking-GGUF:Q4_K_XL \
    --jinja -ngl 99 --ctx-size 32768 \
    --temp 0.6 --min-p 0.0 --top-p 0.95 --top-k 20 --presence-penalty 1.0

Laden Sie das Modell herunter (nach der Installation pip install huggingface_hub hf_transfer ). Sie können wählen UD_Q4_K_XL oder andere quantisierte Versionen.

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Qwen3-Next-80B-A3B-Thinking-GGUF",
    local_dir = "Qwen3-Next-80B-A3B-Thinking-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)

🛠️ Generationsgeschwindigkeit verbessern

Wenn Sie mehr VRAM haben, können Sie versuchen, mehr MoE-Schichten auszulagern oder ganze Schichten selbst auszulagern.

Normalerweise, -ot ".ffn_.*_exps.=CPU" lagert alle MoE-Schichten auf die CPU aus! Dies ermöglicht effektiv, alle Nicht-MoE-Schichten auf 1 GPU unterzubringen und verbessert die Generationsgeschwindigkeit. Sie können den Regex-Ausdruck anpassen, um mehr Schichten unterzubringen, wenn Sie mehr GPU-Kapazität haben.

Wenn Sie etwas mehr GPU-Speicher haben, versuchen Sie -ot ".ffn_(up|down)_exps.=CPU" Dies lagert Up- und Down-Projektions-MoE-Schichten aus.

Versuchen Sie -ot ".ffn_(up)_exps.=CPU" wenn Sie noch mehr GPU-Speicher haben. Dies lagert nur Up-Projektions-MoE-Schichten aus.

Sie können auch den Regex anpassen, zum Beispiel -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" bedeutet, Gate-, Up- und Down-MoE-Schichten auszulagern, aber nur ab der 6. Schicht.

Die neueste llama.cpp-Version führt außerdem einen Hochdurchsatzmodus ein. Verwenden Sie llama-parallel. Lesen Sie mehr darüber hier. Sie können auch den KV-Cache z. B. auf 4 Bit quantisieren, um z. B. VRAM-/RAM-Bewegungen zu reduzieren, was den Generationsprozess ebenfalls beschleunigen kann. Die nächste Abschnitt bespricht die KV-Cache-Quantisierung.

📐Wie man langen Kontext unterbringt

Um längeren Kontext unterzubringen, können Sie KV-Cache-Quantisierung verwenden, um die K- und V-Caches auf niedrigere Bits zu quantisieren. Dies kann auch die Generationsgeschwindigkeit erhöhen aufgrund reduzierter RAM-/VRAM-Datenbewegungen. Die erlaubten Optionen für K-Quantisierung (Standard ist f16) umfassen die untenstehenden.

--cache-type-k f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1

Sie sollten die _1 Varianten für etwas erhöhte Genauigkeit verwenden, obwohl sie etwas langsamer sind. Zum Beispiel q4_1, q5_1 Probieren Sie also --cache-type-k q4_1

Sie können auch den V-Cache quantisieren, aber Sie müssen llama.cpp mit Flash Attention kompilieren Unterstützung via -DGGML_CUDA_FA_ALL_QUANTS=ON, und verwenden --flash-attn um es zu aktivieren. Nach der Installation von Flash Attention können Sie dann --cache-type-v q4_1

VorherigeGLM-4.6 NächsteDeepSeek-V3.1

Zuletzt aktualisiert vor 10 Stunden

War das hilfreich?

hashtag⚙️ Gebrauchsanleitung

hashtag📖 Qwen3-Next Tutorials ausführen

hashtagInstruct: Qwen3-Next-80B-A3B-Instruct

hashtag⚙️Beste Praktiken

hashtag✨ Llama.cpp: Qwen3-Next-80B-A3B-Instruct Tutorial ausführen

hashtagThinking: Qwen3-Next-80B-A3B-Thinking

hashtag⚙️Beste Praktiken

hashtag✨ Llama.cpp: Qwen3-Next-80B-A3B-Thinking Tutorial ausführen

hashtag🛠️ Generationsgeschwindigkeit verbessern

hashtag📐Wie man langen Kontext unterbringt

⚙️ Gebrauchsanleitung

📖 Qwen3-Next Tutorials ausführen

Instruct: Qwen3-Next-80B-A3B-Instruct

⚙️Beste Praktiken

✨ Llama.cpp: Qwen3-Next-80B-A3B-Instruct Tutorial ausführen

Thinking: Qwen3-Next-80B-A3B-Thinking

⚙️Beste Praktiken

✨ Llama.cpp: Qwen3-Next-80B-A3B-Thinking Tutorial ausführen

🛠️ Generationsgeschwindigkeit verbessern

📐Wie man langen Kontext unterbringt