🌠Qwen3-Coder-Next: Anleitung zum lokalen Betrieb
Leitfaden zum lokalen Ausführen von Qwen3-Coder-Next auf deinem Gerät!
Qwen veröffentlicht Qwen3-Coder-Next, ein 80B MoE-Modell (3B aktive Parameter) mit 256K Kontext für schnelles agentisches Codieren und lokale Nutzung. Es ist vergleichbar mit der Leistung von Modellen mit 10–20× mehr aktiven Parametern.
Es läuft auf 46GB RAM/VRAM/einheitlichem Speicher (85GB für 8-Bit), ist nicht-denkend für ultraschnelle Code-Antworten. Das Modell glänzt bei langfristigem Denken, komplexer Werkzeugnutzung und der Wiederherstellung nach Ausführungsfehlern.
Update vom 4. Feb: llama.cpp behob einen Fehler bei der Korrektur der Berechnung für vektorisiertes key_gdiff. Dies behebt frühere Schleifen- und Ausgabeprobleme. Wir haben die GGUFs aktualisiert - bitte erneut herunterladen und AKTUALISIEREN llama.cpp für bessere Ausgaben.
Sie erfahren auch, wie man das Modell auf Codex & Claude Code ausführt. Für Feinabstimmungpasst Qwen3-Next-Coder für bf16 LoRA in Unsloth auf eine einzelne B200-GPU.
Qwen3-Coder-Next Unsloth Dynamische GGUFs zum Ausführen: unsloth/Qwen3-Coder-Next-GGUF
GGUF-Tutorial ausführenCodex & Claude CodeFP8 vLLM Tutorial
⚙️ Gebrauchsanleitung
Haben Sie nicht 46GB RAM oder einheitlichen Speicher? Kein Problem, Sie können unsere kleineren Quantisierungen wie 3-Bit verwenden. Am besten ist es, wenn die Modellgröße gleich der Summe Ihrer Rechnerressourcen ist ( Festplattenspeicher + RAM + VRAM ≥ Größe der Quantisierung). Wenn Ihre Quantisierung vollständig auf Ihr Gerät passt, erwarten Sie 20+ Tokens/s. Wenn sie nicht passt, funktioniert sie trotzdem durch Auslagern, ist dann aber langsamer.
Um optimale Leistung zu erzielen, empfiehlt Qwen diese Einstellungen:
Temperatur = 1,0Top_P = 0,95Top_K = 40Min_P = 0.01(llama.cpps Standard ist 0.05)Wiederholungsstrafe= deaktiviert oder 1,0
Unterstützt nativ bis zu 262,144 Kontext, Sie können ihn jedoch auf 32,768 Tokens für weniger Speicherverbrauch.
🖥️ Qwen3-Coder-Next ausführen
Je nach Anwendungsfall müssen Sie unterschiedliche Einstellungen verwenden. Da diese Anleitung 4-Bit nutzt, benötigen Sie etwa 46GB RAM/einheitlichen Speicher. Wir empfehlen mindestens 3-Bit-Präzision für beste Leistung.
Update vom 4. Feb: llama.cpp behob einen Fehler bei der Korrektur der Berechnung für vektorisiertes key_gdiff. Dies behebt frühere Schleifen- und Ausgabeprobleme. Wir haben die GGUFs aktualisiert - bitte erneut herunterladen und AKTUALISIEREN llama.cpp für bessere Ausgaben.
HINWEIS: Dieses Modell unterstützt nur den Nicht-Denk-Modus und erzeugt keine <think></think> Blöcke in seiner Ausgabe. Daher ist das Angeben von enable_thinking=False nicht mehr erforderlich.
Llama.cpp Tutorial (GGUF):
Anleitung zum Ausführen in llama.cpp (Hinweis: Wir verwenden 4-Bit, um die meisten Geräte passend zu machen):
Holen Sie sich die neueste llama.cpp auf GitHub hier. Sie können auch den unten stehenden Build-Anweisungen folgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz wünschen.
Sie können direkt von Hugging Face ziehen. Sie können den Kontext auf 256K erhöhen, wenn Ihr RAM/VRAM das zulässt. Die Verwendung von --fit on bestimmt ebenfalls automatisch die Kontextlänge.
Sie können die empfohlenen Parameter verwenden: temperature=1.0, top_p=0.95, top_k=40
Laden Sie das Modell herunter über (nach Installation von pip install huggingface_hub). Sie können wählen UD-Q4_K_XL oder andere quantisierte Versionen.
Führen Sie dann das Modell im Konversationsmodus aus:
Passen Sie außerdem Kontextfenster nach Bedarf, bis zu 262,144
HINWEIS: Dieses Modell unterstützt nur den Nicht-Denk-Modus und erzeugt keine <think></think> Blöcke in seiner Ausgabe. Daher ist das Angeben von enable_thinking=False nicht mehr erforderlich.
🦙Llama-Server Bereitstellung & Deployment
Um Qwen3-Coder-Next für die Produktion bereitzustellen, verwenden wir llama-server In einem neuen Terminal, zum Beispiel via tmux. Dann das Modell deployen mit:
Dann in einem neuen Terminal, nachdem Sie pip install openai, können wir das Modell ausführen:
Was folgendes ausgeben wird:
Wir extrahierten das HTML und führten es aus, und das erzeugte Beispiel-Flappy-Bird-Spiel funktionierte gut!

👾 OpenAI Codex & Claude Code
Um das Modell über lokale agentische Coding-Workloads auszuführen, können Sie unserer Anleitung folgen. Ändern Sie einfach den Modellnamen 'GLM-4.7-Flash' zu 'Qwen3-Coder-Next' und stellen Sie sicher, dass Sie die korrekten Qwen3-Coder-Next-Parameter und Nutzungsanweisungen befolgen. Verwenden Sie das llama-server das wir gerade eingerichtet haben.
Nach Befolgung der Anweisungen für Claude Code sehen Sie zum Beispiel:

Wir können dann zum Beispiel fragen Erstelle ein Python-Spiel für Schach :



Wenn Sie sehen API-Fehler: 400 {"error":{"code":400,"message":"request (16582 tokens) exceeds the available context size (16384 tokens), try increasing it","type":"exceed_context_size_error","n_prompt_tokens":16582,"n_ctx":16384}} das bedeutet, Sie müssen die Kontextlänge erhöhen oder siehe 📐Wie man langen Kontext anpasst

🎱 FP8 Qwen3-Coder-Next in vLLM
Sie können jetzt unser neues FP8 Dynamic Quant des Modells für hochwertige und schnelle Inferenz verwenden. Installieren Sie zuerst vLLM aus dem Nightly-Build. Ändern Sie --extra-index-url https://wheels.vllm.ai/nightly/cu130 zu Ihrer CUDA-Version, die Sie über nvidia-smi - nur cu129 und cu130 werden derzeit unterstützt.
Dann servieren Unsloths dynamische FP8-Version des Modells. Sie können FP8 auch aktivieren, um den KV-Cache-Speicherverbrauch um 50% zu reduzieren, indem Sie hinzufügen --kv-cache-dtype fp8 Wir haben es auf 4 GPUs gehostet, aber wenn Sie 1 GPU haben, verwenden Sie CUDA_VISIBLE_DEVICES='0' und setze --tensor-parallel-size 1 oder entfernen Sie dieses Argument. Verwenden Sie tmux um das Folgende in einem neuen Terminal zu starten und dann CTRL+B+D - verwenden Sie tmux attach-session -t0 um zurückzukehren.
Sie sollten so etwas wie unten sehen. Siehe Qwen3-Coder-Next wie man Qwen3-Coder-Next tatsächlich mit der OpenAI-API und Tool-Calls verwendet - das funktioniert für vLLM und llama-server.

🔧Tool Calling mit Qwen3-Coder-Next
In einem neuen Terminal erstellen wir einige Tools wie das Addieren von 2 Zahlen, das Ausführen von Python-Code, das Ausführen von Linux-Funktionen und vieles mehr:
Dann verwenden wir die unten stehenden Funktionen (kopieren, einfügen und ausführen), die Funktionsaufrufe automatisch parsen und den OpenAI-Endpunkt für jedes Modell aufrufen:
Nun zeigen wir mehrere Methoden zur Ausführung von Tool-Calling für viele verschiedene Anwendungsfälle unten:
Generierten Python-Code ausführen

Beliebige Terminalbefehle ausführen
Wir bestätigen, dass die Datei erstellt wurde — und das wurde sie!

Siehe Tool Calling Guide für weitere Beispiele zum Tool-Calling.
🛠️ Verbesserung der Generierungsgeschwindigkeit
Wenn Sie vLLM / SGLang verwenden, probieren Sie unsere FP8-Dynamic-Quantisierungen, die den Durchsatz um 25% oder mehr steigern können! Siehe 🎱 FP8 Qwen3-Coder-Next in vLLM
Wenn Sie mehr VRAM haben, können Sie versuchen, mehr MoE-Schichten auszulagern oder ganze Schichten selbst auszulagern.
Normalerweise, -ot ".ffn_.*_exps.=CPU" lagert alle MoE-Schichten auf die CPU aus! Dies ermöglicht es effektiv, alle Nicht-MoE-Schichten auf einer GPU unterzubringen und die Generationsgeschwindigkeit zu verbessern. Sie können den Regex-Ausdruck anpassen, um mehr Schichten auszulagern, wenn Sie mehr GPU-Kapazität haben.
Wenn Sie etwas mehr GPU-Speicher haben, versuchen Sie -ot ".ffn_(up|down)_exps.=CPU" Dies lagert up- und down-Projektions-MoE-Schichten aus.
Versuchen Sie -ot ".ffn_(up)_exps.=CPU" wenn Sie noch mehr GPU-Speicher haben. Dies lagert nur up-Projektions-MoE-Schichten aus.
Sie können den Regex auch anpassen, zum Beispiel -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" bedeutet, Gate-, Up- und Down-MoE-Schichten auszulagern, jedoch nur ab der 6. Schicht.
Der neueste llama.cpp-Version führt auch einen Hochdurchsatzmodus ein. Verwenden Sie llama-parallel. Lesen Sie mehr darüber hier. Sie können auch den KV-Cache auf 4 Bit quantisieren zum Beispiel, um VRAM-/RAM-Bewegungen zu reduzieren, was den Generierungsprozess ebenfalls beschleunigen kann. Die nächste Abschnitt spricht über KV-Cache-Quantisierung.
📐Wie man langen Kontext anpasst
Um längere Kontexte unterzubringen, können Sie KV-Cache-Quantisierung verwenden, um die K- und V-Caches auf niedrigere Bits zu quantisieren. Dies kann auch die Generationsgeschwindigkeit aufgrund reduzierter RAM-/VRAM-Datenbewegung erhöhen. Die erlaubten Optionen für K-Quantisierung (Standard ist f16) umfassen die folgenden.
--cache-type-k f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1
Sie sollten die _1 Varianten für etwas erhöhte Genauigkeit verwenden, obwohl sie etwas langsamer sind. Zum Beispiel q4_1, q5_1 Probieren Sie also --cache-type-k q4_1
Sie können auch den V-Cache quantisieren, aber Sie müssen llama.cpp mit Flash Attention kompilieren Unterstützung über -DGGML_CUDA_FA_ALL_QUANTS=ON, und verwenden Sie --flash-attn um es zu aktivieren. Nachdem Sie Flash Attention installiert haben, können Sie dann --cache-type-v q4_1
Wenn Sie unsere Dynamic FP8-Quantisierungen verwenden 🎱 FP8 Qwen3-Coder-Next in vLLMkann die Verwendung der FP8 KV-Cache-Quantisierung die Kontextlängenunterstützung ungefähr verdoppeln. Fügen Sie hinzu --kv-cache-dtype fp8
📐Benchmarks
Qwen3-Coder-Next ist das leistungsstärkste Modell für seine Größe, und seine Leistung ist vergleichbar mit Modellen mit 10–20× mehr aktiven Parametern.
SWE-Bench Verifiziert (mit SWE-Agent)
70.6
70.2
74.2
74.8
SWE-Bench Mehrsprachig (mit SWE-Agent)
62.8
62.3
63.7
66.2
SWE-Bench Pro (mit SWE-Agent)
44.3
40.9
40.6
34.6
Terminal-Bench 2.0 (mit Terminus-2 json)
36.2
39.3
37.1
32.6
Aider
66.2
69.9
52.1
61.0



Zuletzt aktualisiert
War das hilfreich?

