🌠Qwen3-Coder-Next: Wie man lokal ausführt
Leitfaden zum Ausführen von Qwen3-Coder-Next lokal auf deinem Gerät!
Qwen veröffentlicht Qwen3-Coder-Next, ein 80B-MoE-Modell (3B aktive Parameter) mit 256K Kontext für schnelles agentisches Coden und die lokale Nutzung. Es ist in seiner Leistung vergleichbar mit Modellen mit 10–20× mehr aktiven Parametern.
Es läuft auf 46 GB RAM/VRAM/vereinheitlichtem Speicher (85 GB für 8-Bit), ist nicht-reasoningfähig für ultraschnelle Code-Antworten. Das Modell glänzt bei langfristigem Denken, komplexer Tool-Nutzung und der Wiederherstellung nach Ausführungsfehlern.
Update vom 19. Feb.: Das Aufrufen von Tools sollte jetzt noch besser sein, nachdem llama.cpp das Parsen behoben hat.
NEU! Siehe Quantisierungs-Benchmarks für unsere dynamischen GGUFs!
4. Feb.: llama.cpp einen Fehler behoben, der die Berechnung für vektorisiertes key_gdiff korrigiert. Dadurch werden frühere Probleme mit Schleifen und der Ausgabe behoben. Wir haben die GGUFs aktualisiert – bitte erneut herunterladen und AKTUALISIERUNG llama.cpp für bessere Ausgaben.
Du lernst außerdem, wie man das Modell auf Codex & Claude Code ausführt. Für Fine-Tuning, passt Qwen3-Next-Coder in Unsloth auf eine einzelne B200-GPU für bf16 LoRA.
Qwen3-Coder-Next Unsloth Dynamische GGUFs auszuführen: unsloth/Qwen3-Coder-Next-GGUF
GGUF-Tutorial ausführenCodex & Claude CodeFP8 vLLM-Tutorial
⚙️ Nutzungsanleitung
Keine 46 GB RAM oder kein vereinheitlichter Speicher vorhanden? Kein Problem – du kannst unsere kleineren Quants wie 3-Bit ausführen. Am besten ist es, wenn die Modellgröße = der Summe deiner Ressourcen entspricht ( Speicherplatz auf der Festplatte + RAM + VRAM ≥ Größe des Quants). Wenn dein Quant vollständig auf dein Gerät passt, kannst du mit 20+ Tokens/s rechnen. Wenn er nicht passt, funktioniert er trotzdem per Auslagerung, wird aber langsamer sein.
Um eine optimale Leistung zu erreichen, empfiehlt Qwen diese Einstellungen:
Temperatur = 1.0Top_P = 0,95Top_K = 40Min_P = 0,01(llama.cpps Standardwert ist 0,05)Wiederholungsstrafe= deaktiviert oder 1.0
Unterstützt nativ bis zu 262,144 Kontext, aber Sie können es auf 32,768 Tokens für geringeren Speicherverbrauch.
🖥️ Qwen3-Coder-Next ausführen
Je nach Anwendungsfall musst du unterschiedliche Einstellungen verwenden. Da diese Anleitung 4-Bit verwendet, benötigst du etwa 46 GB RAM/vereinheitlichten Speicher. Für die beste Leistung empfehlen wir mindestens 3-Bit-Präzision.
🦥 Unsloth Studio-Anleitung
Qwen3-Coder-Next kann ausgeführt und feinabgestimmt werden in Unsloth Studio, unserer neuen Open-Source-Web-UI für lokale KI. Mit Unsloth Studio können Sie Modelle lokal ausführen auf MacOS, Windows, Linux und:
Suchen, herunterladen, GGUFs ausführen und Safetensor-Modelle
Selbstheilendes Tool-Calling + Websuche
Code-Ausführung (Python, Bash)
Automatische Inferenz Parameter-Tuning (Temp, Top-p usw.)
Schnelle CPU-+GPU-Inferenz via llama.cpp
LLMs trainieren 2x schneller mit 70% weniger VRAM

Unsloth installieren
Führen Sie es in Ihrem Terminal aus:
MacOS, Linux, WSL:
Windows PowerShell:
Die Installation geht schnell und dauert ungefähr 1-2 Minuten.
Unsloth starten
MacOS, Linux, WSL und Windows:
Dann öffnen Sie http://localhost:8888 in Ihrem Browser.
Qwen3-Coder-Next suchen und herunterladen
Beim ersten Start musst du ein Passwort erstellen, um dein Konto zu sichern, und dich später erneut anmelden. Danach siehst du einen kurzen Einrichtungsassistenten, um ein Modell, einen Datensatz und grundlegende Einstellungen auszuwählen. Du kannst ihn jederzeit überspringen und direkt zum Chat gehen.
Gehen Sie dann zur Studio Chat Tab und suche nach Qwen3-Coder-Next in die Suchleiste eingeben und das gewünschte Modell sowie Quant herunterladen.

Qwen3-Coder-Next ausführen
Inferenzparameter sollten bei der Verwendung von Unsloth Studio automatisch gesetzt werden; Sie können sie jedoch weiterhin manuell ändern. Sie können auch die Kontextlänge, die Chat-Vorlage und andere Einstellungen bearbeiten.
Weitere Informationen finden Sie in unserer Unsloth Studio-Inferenzanleitung.

Llama.cpp-Tutorial (GGUF):
Anweisungen zum Ausführen in llama.cpp (beachten Sie, dass wir 4-Bit verwenden werden, damit es auf die meisten Geräte passt):
Hole dir die neueste llama.cpp auf GitHub hier. Du kannst auch den untenstehenden Build-Anweisungen folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF und fahre dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.
Du kannst direkt von Hugging Face ziehen. Du kannst den Kontext auf 256K erhöhen, wenn dein RAM/VRAM dafür ausreicht. Die Verwendung von --fit on wird die Kontextlänge ebenfalls automatisch bestimmen.
Du kannst die empfohlenen Parameter verwenden: temperature=1.0, top_p=0.95, top_k=40
Lade das Modell herunter über (nach der Installation von pip install huggingface_hub). Du kannst UD-Q4_K_XL oder andere quantisierte Versionen. Wenn Downloads hängen bleiben, siehe Hugging Face Hub, XET-Debugging
Führen Sie das Modell dann im Konversationsmodus aus:
Passen Sie außerdem das Kontextfenster je nach Bedarf, bis zu 262,144
HINWEIS: Dieses Modell unterstützt nur den Non-Thinking-Modus und erzeugt keine <think></think> Blöcke in seiner Ausgabe. Daher ist die Angabe von enable_thinking=False nicht mehr erforderlich.
🦙Llama-Server Serving & Deployment
Um Qwen3-Coder-Next produktiv bereitzustellen, verwenden wir llama-server Sage in einem neuen Terminal, z. B. via tmux. Stelle dann das Modell bereit mit:
Dann in einem neuen Terminal, nachdem du pip install openai, können wir das Modell ausführen:
Was Folgendes ausgeben wird:
Wir haben das HTML extrahiert und ausgeführt, und das generierte Beispiel-Flappy-Bird-Spiel funktionierte gut!

👾 OpenAI Codex & Claude Code
Um das Modell über lokale agentische Coding-Workloads auszuführen, kannst du unserer Anleitung folgen. Ändere einfach den Modellnamen 'GLM-4.7-Flash' zu 'Qwen3-Coder-Next' und stelle sicher, dass du die korrekten Parameter und Nutzungshinweise für Qwen3-Coder-Next befolgst. Verwende die llama-server die wir gerade eben eingerichtet haben.
Nachdem du beispielsweise die Anweisungen für Claude Code befolgt hast, wirst du sehen:

Dann können wir beispielsweise fragen Erstelle ein Python-Spiel für Schach :



Wenn du API Error: 400 {"error":{"code":400,"message":"request (16582 tokens) exceeds the available context size (16384 tokens), try increasing it","type":"exceed_context_size_error","n_prompt_tokens":16582,"n_ctx":16384}} siehst, bedeutet das, dass du die Kontextlänge erhöhen musst oder siehe Qwen3-Coder-Next

🎱 FP8 Qwen3-Coder-Next in vLLM
Du kannst jetzt unsere neue FP8 Dynamic Quantisierung des Modells für hochwertige und schnelle Inferenz verwenden. Installiere zuerst vLLM aus dem Nightly-Build. Ändere --extra-index-url https://wheels.vllm.ai/nightly/cu130 zu deiner CUDA-Version, die du mit nvidia-smi findest - derzeit werden nur cu129 und cu130 unterstützt.
Wenn du vLLM / SGLang verwendest, probiere unsere FP8-Dynamic-Quants aus, die den Durchsatz um 25 % oder mehr steigern können! Siehe 🎱 FP8 Qwen3-Coder-Next in vLLM
Dann starte Unsloths dynamische FP8-Version des Modells. Du kannst FP8 auch aktivieren, um die Speichernutzung des KV-Caches um 50 % zu reduzieren, indem du --kv-cache-dtype fp8 Wir haben es auf 4 GPUs bereitgestellt, aber wenn du 1 GPU hast, verwende CUDA_VISIBLE_DEVICES='0' und setze --tensor-parallel-size 1 oder entferne dieses Argument. Verwende tmux um das Folgende in einem neuen Terminal zu starten, dann CTRL+B+D - verwende tmux attach-session -t0 um dorthin zurückzukehren.
Du solltest etwas wie unten sehen. Siehe Qwen3-Coder-Next für die tatsächliche Verwendung von Qwen3-Coder-Next über die OpenAI-API und Tool-Calling - das funktioniert für vLLM und llama-server.

🔧Tool-Calling mit Qwen3-Coder-Next
In einem neuen Terminal erstellen wir einige Tools wie das Addieren von 2 Zahlen, das Ausführen von Python-Code, das Ausführen von Linux-Funktionen und vieles mehr:
Wir verwenden dann die folgenden Funktionen (kopieren, einfügen und ausführen), die die Funktionsaufrufe automatisch parsen und für jedes Modell den OpenAI-Endpunkt aufrufen:
Nun zeigen wir unten mehrere Methoden, wie Tool Calling für viele verschiedene Anwendungsfälle ausgeführt werden kann:
Generierten Python-Code ausführen

Beliebige Terminalfunktionen ausführen
Wir bestätigen, dass die Datei erstellt wurde, und das wurde sie!

Siehe Tool Calling Guide für weitere Beispiele für Tool-Calling.
📐Benchmarks
GGUF-Quantisierungs-Benchmarks
Hier sind einige Quantisierungs-Benchmarks, die von unabhängigen Gutachtern durchgeführt wurden.


Die Benchmarks wurden von Dritten auf dem Aider-Polyglot-Server durchgeführt und vergleichen Unsloth-GGUF-Quantisierungen im Aider-Polyglot-Benchmark (Score vs. VRAM). Bemerkenswert ist, dass das 3-Bit UD-IQ3_XXS Quant nahe an BF16 der Leistung herankommt, was 3-Bit zu einem sinnvollen Minimum für die meisten Anwendungsfälle macht.
NVFP4 übertrifft die BF16-Referenz leicht, was möglicherweise auf Sampling-Rauschen aufgrund begrenzter Läufe zurückzuführen ist; dennoch zeigt das Gesamtmuster für: 1-Bit → 2-Bit → 3-Bit → 6-Bit das stetig besser wird, dass der Benchmark aussagekräftige Qualitätsunterschiede zwischen den Unsloth-GGUFs erfasst. Die Nicht-Unsloth FP8 scheint schlechter abzuschneiden als sowohl UD-IQ3_XXS und UD-Q6_K_XL, was Unterschiede im Quantisierungspipeline oder wiederum unzureichendes Sampling widerspiegeln könnte.
Benjamin Marie (Drittanbieter) benchmarkte Qwen3-Coder-Next unter Verwendung von Unsloth und Qwen-GGUFs auf einem 750-Prompt-Mischsuite (LiveCodeBench v6, MMLU Pro, GPQA, Math500) und berichtete sowohl über Gesamtgenauigkeit und relative Fehlerzunahme (wie viel häufiger das quantisierte Modell im Vergleich zum Original Fehler macht).
Die Grafiken zeigen klar, dass die Q4_K_M-Quants von Unsloth besser abschneiden als das Standard-Q4_K_M. Q3_K_M schneidet erwartungsgemäß beim Live Code Bench v6 schlechter ab, aber überraschenderweise bei HumanEval deutlich besser als Standard-Q4_K_M. Es scheint mit der höchsten Effizienz zu laufen; mindestens Q4_K_M wird empfohlen.
Qwen3-Coder-Next Benchmarks
Qwen3-Coder-Next ist das leistungsstärkste Modell seiner Größe, und seine Leistung ist vergleichbar mit Modellen mit 10–20× mehr aktiven Parametern.
SWE-Bench Verified (mit SWE-Agent)
70.6
70.2
74.2
74.8
SWE-Bench Multilingual (mit SWE-Agent)
62.8
62.3
63.7
66.2
SWE-Bench Pro (mit SWE-Agent)
44.3
40.9
40.6
34.6
Terminal-Bench 2.0 (mit Terminus-2 json)
36.2
39.3
37.1
32.6
Aider
66.2
69.9
52.1
61.0



Zuletzt aktualisiert
War das hilfreich?

