🌠Qwen3-Coder-Next: Anleitung zum lokalen Ausführen
Anleitung zum lokalen Ausführen von Qwen3-Coder-Next auf deinem Gerät!
Qwen veröffentlicht Qwen3-Coder-Next, ein 80B MoE-Modell (3B aktive Parameter) mit 256K Kontext für schnelles agentisches Codieren und lokale Nutzung. Es ist vergleichbar mit der Leistung von Modellen mit 10–20× mehr aktiven Parametern.
Es läuft auf 46GB RAM/VRAM/vereinheitlichtem Speicher (85GB für 8-Bit), ist nicht-denkend für ultraschnelle Code-Antworten. Das Modell glänzt bei Langzeitschlussfolgerungen, komplexem Tool-Einsatz und der Wiederherstellung nach Ausführungsfehlern.
Update 19. Feb: Tool-Aufrufe sollten jetzt nach llama.cpp-Parsingskorrekturen noch besser funktionieren.
NEU! Siehe Quantisierungs-Benchmarks für unsere Dynamic GGUFs!
4. Feb: llama.cpp hat einen Fehler behoben, der die Berechnung für vektorisierten key_gdiff korrigierte. Das behebt frühere Schleifen- und Ausgabeprobleme. Wir haben die GGUFs aktualisiert - bitte neu herunterladen und AKTUALISIEREN llama.cpp für bessere Ausgaben.
Sie erfahren auch, wie man das Modell auf Codex & Claude Code ausführt. Für Feinabstimmungpasst Qwen3-Next-Coder für bf16 LoRA in Unsloth auf eine einzelne B200 GPU.
Qwen3-Coder-Next Unsloth Dynamic GGUFs zum Ausführen: unsloth/Qwen3-Coder-Next-GGUF
GGUF-Tutorial ausführenCodex & Claude CodeFP8 vLLM Tutorial
⚙️ Gebrauchsanleitung
Haben Sie nicht 46GB RAM oder vereinheitlichten Speicher? Kein Problem, Sie können unsere kleineren Quants wie 3-Bit ausführen. Am besten ist, wenn die Modellgröße gleich der Summe Ihrer Rechenressourcen ist ( Festplattenspeicher + RAM + VRAM ≥ Größe der Quantisierung). Wenn Ihre Quantisierung vollständig auf Ihr Gerät passt, erwarten Sie 20+ Tokens/s. Wenn sie nicht passt, funktioniert sie trotzdem durch Auslagern, wird aber langsamer.
Um optimale Leistung zu erzielen, empfiehlt Qwen diese Einstellungen:
Temperatur = 1.0Top_P = 0.95Top_K = 40Min_P = 0.01(llama.cpps Standard ist 0.05)Wiederholungsstrafe= deaktiviert oder 1.0
Unterstützt bis zu 262,144 Kontext nativ, aber Sie können ihn auf 32,768 Tokens einstellen, um weniger Speicher zu verwenden.
🖥️ Qwen3-Coder-Next ausführen
Je nach Anwendungsfall müssen Sie unterschiedliche Einstellungen verwenden. Da dieses Handbuch 4-Bit nutzt, benötigen Sie etwa 46GB RAM/vereinheitlichten Speicher. Wir empfehlen mindestens 3-Bit-Präzision für beste Leistung.
Update 4. Feb: llama.cpp hat einen Fehler behoben, der die Berechnung für vektorisierten key_gdiff korrigierte. Das behebt frühere Schleifen- und Ausgabeprobleme. Wir haben die GGUFs aktualisiert - bitte neu herunterladen und AKTUALISIEREN llama.cpp für bessere Ausgaben.
HINWEIS: Dieses Modell unterstützt nur den Nicht-Denken-Modus und erzeugt keine <think></think> Blöcke in seiner Ausgabe. Das Festlegen von enable_thinking=False ist daher nicht mehr erforderlich.
Llama.cpp Tutorial (GGUF):
Anweisungen zum Ausführen in llama.cpp (Hinweis: wir verwenden 4-Bit, um auf die meisten Geräte zu passen):
Holen Sie sich das neueste llama.cpp auf GitHub hier. Sie können auch den untenstehenden Build-Anweisungen folgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz möchten.
Sie können direkt von Hugging Face ziehen. Sie können den Kontext auf 256K erhöhen, wenn Ihr RAM/VRAM dies zulässt. Die Verwendung von --fit on bestimmt auch automatisch die Kontextlänge.
Sie können die empfohlenen Parameter verwenden: temperature=1.0, top_p=0.95, top_k=40
Laden Sie das Modell herunter via (nach der Installation von pip install huggingface_hub). Sie können UD-Q4_K_XL oder andere quantisierte Versionen wählen. Wenn Downloads hängen bleiben, siehe Hugging Face Hub, XET-Debugging
Dann führen Sie das Modell im Konversationsmodus aus:
Passen Sie außerdem das Kontextfenster bei Bedarf an, bis zu 262,144
HINWEIS: Dieses Modell unterstützt nur den Nicht-Denken-Modus und erzeugt keine <think></think> Blöcke in seiner Ausgabe. Das Festlegen von enable_thinking=False ist daher nicht mehr erforderlich.
🦙Llama-server Bereitstellung & Deployment
Um Qwen3-Coder-Next für die Produktion bereitzustellen, verwenden wir llama-server Öffnen Sie in einem neuen Terminal z. B. via tmux. Dann bereitstellen Sie das Modell mit:
Dann, in einem neuen Terminal, nachdem Sie pip install openaiausgeführt haben, können wir das Modell starten:
Was Folgendes ausgeben wird:
Wir haben das HTML extrahiert und ausgeführt, und das erzeugte Beispiel-Flappy-Bird-Spiel funktionierte gut!

👾 OpenAI Codex & Claude Code
Um das Modell für lokale agentische Codier-Workloads auszuführen, können Sie unserer Anleitung folgen. Ändern Sie einfach den Modellnamen 'GLM-4.7-Flash' zu 'Qwen3-Coder-Next' und stellen Sie sicher, dass Sie die korrekten Qwen3-Coder-Next-Parameter und Nutzungsanweisungen befolgen. Verwenden Sie das llama-server das wir gerade eingerichtet haben.
Nachdem Sie z. B. die Anweisungen für Claude Code befolgt haben, sehen Sie:

Wir können dann beispielsweise fragen Create a Python game for Chess :



Wenn Sie sehen API Error: 400 {"error":{"code":400,"message":"request (16582 tokens) exceeds the available context size (16384 tokens), try increasing it","type":"exceed_context_size_error","n_prompt_tokens":16582,"n_ctx":16384}} bedeutet das, dass Sie die Kontextlänge erhöhen müssen oder siehe Qwen3-Coder-Next

🎱 FP8 Qwen3-Coder-Next in vLLM
Sie können jetzt unsere neue FP8 Dynamic-Quantisierung des Modells für hochwertige und schnelle Inferenz verwenden. Installieren Sie zuerst vLLM aus dem Nightly-Build. Ändern Sie --extra-index-url https://wheels.vllm.ai/nightly/cu130 auf Ihre CUDA-Version, die Sie mit nvidia-smi finden - nur und cu129 cu130
werden derzeit unterstützt. 🎱 FP8 Qwen3-Coder-Next in vLLM
uv pip install --force-reinstall numba Unsloths dynamische FP8-Version des Modells. Sie können FP8 auch aktivieren, um die KV-Cache-Speichernutzung um 50 % zu reduzieren, indem Sie --kv-cache-dtype fp8 Wir haben es auf 4 GPUs bereitgestellt, aber wenn Sie 1 GPU haben, verwenden Sie CUDA_VISIBLE_DEVICES='0' und setzen Sie --tensor-parallel-size 1 oder entfernen Sie dieses Argument. Verwenden Sie tmux um das Folgende in einem neuen Terminal zu starten und dann CTRL+B+D - verwenden Sie tmux attach-session -t0 um wieder dorthin zurückzukehren.
Sie sollten etwas Ähnliches wie unten sehen. Siehe Qwen3-Coder-Next wie man Qwen3-Coder-Next tatsächlich mit der OpenAI-API und Tool-Calls verwendet - dies funktioniert für vLLM und llama-server.

🔧Tool-Aufrufe mit Qwen3-Coder-Next
In einem neuen Terminal erstellen wir einige Tools wie das Addieren von 2 Zahlen, das Ausführen von Python-Code, das Ausführen von Linux-Funktionen und vieles mehr:
Anschließend verwenden wir die folgenden Funktionen (kopieren, einfügen und ausführen), die Funktionsaufrufe automatisch parsen und den OpenAI-Endpunkt für jedes Modell aufrufen:
Nun zeigen wir mehrere Methoden zum Ausführen von Tool-Calls für viele verschiedene Anwendungsfälle unten:
Ausführung generierten Python-Codes

Ausführen beliebiger Terminal-Funktionen
Wir bestätigen, dass die Datei erstellt wurde, und das war sie!

Siehe Tool Calling Guide für weitere Beispiele für Tool-Calls.
📐Benchmarks
GGUF-Quantisierungs-Benchmarks
Hier sind einige Quantisierungs-Benchmarks, die von Drittgutachtern durchgeführt wurden.


Benchmarks wurden von Drittbeiträgern auf dem Aider Polyglot-Server durchgeführt und verglichen Unsloth-GGUF-Quantisierungen im Aider Polyglot-Benchmark (Punktzahl vs. VRAM). Bemerkenswert ist, dass die 3-Bit- UD-IQ3_XXS Quant kommt nahe an BF16 Leistung, wodurch 3-Bit ein vernünftiges Minimum für die meisten Anwendungsfälle ist.
NVFP4 übertrifft die BF16-Referenz leicht, was Probenrauschen aufgrund begrenzter Läufe sein kann; das allgemeine Muster für: 1-Bit → 2-Bit → 3-Bit → 6-Bit stetige Verbesserung legt nahe, dass der Benchmark bedeutende Qualitätsunterschiede zwischen Unsloth-GGUFs erfasst. Die nicht-Unsloth FP8 scheint schlechter abzuschneiden als beide UD-IQ3_XXS und UD-Q6_K_XL, was Unterschiede in der Quantisierungspipeline oder, wiederum, unzureichende Stichprobengröße widerspiegeln könnte.
Benjamin Marie (Drittanbieter) hat bewertet Qwen3-Coder-Next unter Verwendung von Unsloth- und Qwen-GGUFs auf einer 750-Prompt-Mischsuite (LiveCodeBench v6, MMLU Pro, GPQA, Math500) und berichtete sowohl Gesamtgenauigkeit und relative Fehlerzunahme (wie viel häufiger das quantisierte Modell Fehler macht im Vergleich zum Original).
Die Grafiken zeigen deutlich, dass Unsloths Q4_K_M-Quants besser abschneiden als das Standard-Q4_K_M. Q3_K_M schneidet erwartungsgemäß schlechter auf Live Code Bench v6 ab, aber überraschenderweise deutlich besser auf HumanEval als das Standard-Q4_K_M. Es scheint am effizientesten zu laufen; die Verwendung von mindestens Q4_K_M wird empfohlen.
Qwen3-Coder-Next Benchmarks
Qwen3-Coder-Next ist das leistungsstärkste Modell für seine Größe, und seine Leistung ist vergleichbar mit Modellen mit 10–20× mehr aktiven Parametern.
SWE-Bench Verifiziert (mit SWE-Agent)
70.6
70.2
74.2
74.8
SWE-Bench Mehrsprachig (mit SWE-Agent)
62.8
62.3
63.7
66.2
SWE-Bench Pro (mit SWE-Agent)
44.3
40.9
40.6
34.6
Terminal-Bench 2.0 (mit Terminus-2 json)
36.2
39.3
37.1
32.6
Aider
66.2
69.9
52.1
61.0



Zuletzt aktualisiert
War das hilfreich?

