🌠Qwen3-Coder-Next: Wie man lokal ausführt

Leitfaden zum Ausführen von Qwen3-Coder-Next lokal auf deinem Gerät!

Qwen veröffentlicht Qwen3-Coder-Next, ein 80B-MoE-Modell (3B aktive Parameter) mit 256K Kontext für schnelles agentisches Coden und die lokale Nutzung. Es ist in seiner Leistung vergleichbar mit Modellen mit 10–20× mehr aktiven Parametern.

Es läuft auf 46 GB RAM/VRAM/vereinheitlichtem Speicher (85 GB für 8-Bit), ist nicht-reasoningfähig für ultraschnelle Code-Antworten. Das Modell glänzt bei langfristigem Denken, komplexer Tool-Nutzung und der Wiederherstellung nach Ausführungsfehlern.

Du lernst außerdem, wie man das Modell auf Codex & Claude Code ausführt. Für Fine-Tuning, passt Qwen3-Next-Coder in Unsloth auf eine einzelne B200-GPU für bf16 LoRA.

Qwen3-Coder-Next Unsloth Dynamische GGUFs auszuführen: unsloth/Qwen3-Coder-Next-GGUF

GGUF-Tutorial ausführenCodex & Claude CodeFP8 vLLM-Tutorial

⚙️ Nutzungsanleitung

Keine 46 GB RAM oder kein vereinheitlichter Speicher vorhanden? Kein Problem – du kannst unsere kleineren Quants wie 3-Bit ausführen. Am besten ist es, wenn die Modellgröße = der Summe deiner Ressourcen entspricht ( Speicherplatz auf der Festplatte + RAM + VRAM ≥ Größe des Quants). Wenn dein Quant vollständig auf dein Gerät passt, kannst du mit 20+ Tokens/s rechnen. Wenn er nicht passt, funktioniert er trotzdem per Auslagerung, wird aber langsamer sein.

Um eine optimale Leistung zu erreichen, empfiehlt Qwen diese Einstellungen:

  • Temperatur = 1.0

  • Top_P = 0,95

  • Top_K = 40

  • Min_P = 0,01 (llama.cpps Standardwert ist 0,05)

  • Wiederholungsstrafe = deaktiviert oder 1.0

Unterstützt nativ bis zu 262,144 Kontext, aber Sie können es auf 32,768 Tokens für geringeren Speicherverbrauch.

🖥️ Qwen3-Coder-Next ausführen

Je nach Anwendungsfall musst du unterschiedliche Einstellungen verwenden. Da diese Anleitung 4-Bit verwendet, benötigst du etwa 46 GB RAM/vereinheitlichten Speicher. Für die beste Leistung empfehlen wir mindestens 3-Bit-Präzision.

🦥 Unsloth Studio-Anleitung

Qwen3-Coder-Next kann ausgeführt und feinabgestimmt werden in Unsloth Studio, unserer neuen Open-Source-Web-UI für lokale KI. Mit Unsloth Studio können Sie Modelle lokal ausführen auf MacOS, Windows, Linux und:

1

Unsloth installieren

Führen Sie es in Ihrem Terminal aus:

MacOS, Linux, WSL:

Windows PowerShell:

2

Unsloth starten

MacOS, Linux, WSL und Windows:

Dann öffnen Sie http://localhost:8888 in Ihrem Browser.

3

Qwen3-Coder-Next suchen und herunterladen

Beim ersten Start musst du ein Passwort erstellen, um dein Konto zu sichern, und dich später erneut anmelden. Danach siehst du einen kurzen Einrichtungsassistenten, um ein Modell, einen Datensatz und grundlegende Einstellungen auszuwählen. Du kannst ihn jederzeit überspringen und direkt zum Chat gehen.

Gehen Sie dann zur Studio Chat Tab und suche nach Qwen3-Coder-Next in die Suchleiste eingeben und das gewünschte Modell sowie Quant herunterladen.

4

Qwen3-Coder-Next ausführen

Inferenzparameter sollten bei der Verwendung von Unsloth Studio automatisch gesetzt werden; Sie können sie jedoch weiterhin manuell ändern. Sie können auch die Kontextlänge, die Chat-Vorlage und andere Einstellungen bearbeiten.

Weitere Informationen finden Sie in unserer Unsloth Studio-Inferenzanleitung.

Llama.cpp-Tutorial (GGUF):

Anweisungen zum Ausführen in llama.cpp (beachten Sie, dass wir 4-Bit verwenden werden, damit es auf die meisten Geräte passt):

1

Hole dir die neueste llama.cpp auf GitHub hier. Du kannst auch den untenstehenden Build-Anweisungen folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF und fahre dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

2

Du kannst direkt von Hugging Face ziehen. Du kannst den Kontext auf 256K erhöhen, wenn dein RAM/VRAM dafür ausreicht. Die Verwendung von --fit on wird die Kontextlänge ebenfalls automatisch bestimmen.

Du kannst die empfohlenen Parameter verwenden: temperature=1.0, top_p=0.95, top_k=40

3

Lade das Modell herunter über (nach der Installation von pip install huggingface_hub). Du kannst UD-Q4_K_XL oder andere quantisierte Versionen. Wenn Downloads hängen bleiben, siehe Hugging Face Hub, XET-Debugging

4

Führen Sie das Modell dann im Konversationsmodus aus:

Passen Sie außerdem das Kontextfenster je nach Bedarf, bis zu 262,144

HINWEIS: Dieses Modell unterstützt nur den Non-Thinking-Modus und erzeugt keine <think></think> Blöcke in seiner Ausgabe. Daher ist die Angabe von enable_thinking=False nicht mehr erforderlich.

🦙Llama-Server Serving & Deployment

Um Qwen3-Coder-Next produktiv bereitzustellen, verwenden wir llama-server Sage in einem neuen Terminal, z. B. via tmux. Stelle dann das Modell bereit mit:

Dann in einem neuen Terminal, nachdem du pip install openai, können wir das Modell ausführen:

Was Folgendes ausgeben wird:

Wir haben das HTML extrahiert und ausgeführt, und das generierte Beispiel-Flappy-Bird-Spiel funktionierte gut!

👾 OpenAI Codex & Claude Code

Um das Modell über lokale agentische Coding-Workloads auszuführen, kannst du unserer Anleitung folgen. Ändere einfach den Modellnamen 'GLM-4.7-Flash' zu 'Qwen3-Coder-Next' und stelle sicher, dass du die korrekten Parameter und Nutzungshinweise für Qwen3-Coder-Next befolgst. Verwende die llama-server die wir gerade eben eingerichtet haben.

Nachdem du beispielsweise die Anweisungen für Claude Code befolgt hast, wirst du sehen:

Dann können wir beispielsweise fragen Erstelle ein Python-Spiel für Schach :

Wenn du API Error: 400 {"error":{"code":400,"message":"request (16582 tokens) exceeds the available context size (16384 tokens), try increasing it","type":"exceed_context_size_error","n_prompt_tokens":16582,"n_ctx":16384}} siehst, bedeutet das, dass du die Kontextlänge erhöhen musst oder siehe Qwen3-Coder-Next

🎱 FP8 Qwen3-Coder-Next in vLLM

Du kannst jetzt unsere neue FP8 Dynamic Quantisierung des Modells für hochwertige und schnelle Inferenz verwenden. Installiere zuerst vLLM aus dem Nightly-Build. Ändere --extra-index-url https://wheels.vllm.ai/nightly/cu130 zu deiner CUDA-Version, die du mit nvidia-smi findest - derzeit werden nur cu129 und cu130 unterstützt.

Dann starte Unsloths dynamische FP8-Version des Modells. Du kannst FP8 auch aktivieren, um die Speichernutzung des KV-Caches um 50 % zu reduzieren, indem du --kv-cache-dtype fp8 Wir haben es auf 4 GPUs bereitgestellt, aber wenn du 1 GPU hast, verwende CUDA_VISIBLE_DEVICES='0' und setze --tensor-parallel-size 1 oder entferne dieses Argument. Verwende tmux um das Folgende in einem neuen Terminal zu starten, dann CTRL+B+D - verwende tmux attach-session -t0 um dorthin zurückzukehren.

Du solltest etwas wie unten sehen. Siehe Qwen3-Coder-Next für die tatsächliche Verwendung von Qwen3-Coder-Next über die OpenAI-API und Tool-Calling - das funktioniert für vLLM und llama-server.

🔧Tool-Calling mit Qwen3-Coder-Next

In einem neuen Terminal erstellen wir einige Tools wie das Addieren von 2 Zahlen, das Ausführen von Python-Code, das Ausführen von Linux-Funktionen und vieles mehr:

Wir verwenden dann die folgenden Funktionen (kopieren, einfügen und ausführen), die die Funktionsaufrufe automatisch parsen und für jedes Modell den OpenAI-Endpunkt aufrufen:

Nun zeigen wir unten mehrere Methoden, wie Tool Calling für viele verschiedene Anwendungsfälle ausgeführt werden kann:

Generierten Python-Code ausführen

Beliebige Terminalfunktionen ausführen

Wir bestätigen, dass die Datei erstellt wurde, und das wurde sie!

Siehe Tool Calling Guide für weitere Beispiele für Tool-Calling.

📐Benchmarks

GGUF-Quantisierungs-Benchmarks

Hier sind einige Quantisierungs-Benchmarks, die von unabhängigen Gutachtern durchgeführt wurden.

Aider Polyglot Benchmarks
Benjamine Marie Benchmarks (Quelle)

Die Benchmarks wurden von Dritten auf dem Aider-Polyglot-Server durchgeführt und vergleichen Unsloth-GGUF-Quantisierungen im Aider-Polyglot-Benchmark (Score vs. VRAM). Bemerkenswert ist, dass das 3-Bit UD-IQ3_XXS Quant nahe an BF16 der Leistung herankommt, was 3-Bit zu einem sinnvollen Minimum für die meisten Anwendungsfälle macht.

NVFP4 übertrifft die BF16-Referenz leicht, was möglicherweise auf Sampling-Rauschen aufgrund begrenzter Läufe zurückzuführen ist; dennoch zeigt das Gesamtmuster für: 1-Bit → 2-Bit → 3-Bit → 6-Bit das stetig besser wird, dass der Benchmark aussagekräftige Qualitätsunterschiede zwischen den Unsloth-GGUFs erfasst. Die Nicht-Unsloth FP8 scheint schlechter abzuschneiden als sowohl UD-IQ3_XXS und UD-Q6_K_XL, was Unterschiede im Quantisierungspipeline oder wiederum unzureichendes Sampling widerspiegeln könnte.

Benjamin Marie (Drittanbieter) benchmarkte Qwen3-Coder-Next unter Verwendung von Unsloth und Qwen-GGUFs auf einem 750-Prompt-Mischsuite (LiveCodeBench v6, MMLU Pro, GPQA, Math500) und berichtete sowohl über Gesamtgenauigkeit und relative Fehlerzunahme (wie viel häufiger das quantisierte Modell im Vergleich zum Original Fehler macht).

Die Grafiken zeigen klar, dass die Q4_K_M-Quants von Unsloth besser abschneiden als das Standard-Q4_K_M. Q3_K_M schneidet erwartungsgemäß beim Live Code Bench v6 schlechter ab, aber überraschenderweise bei HumanEval deutlich besser als Standard-Q4_K_M. Es scheint mit der höchsten Effizienz zu laufen; mindestens Q4_K_M wird empfohlen.

Qwen3-Coder-Next Benchmarks

Qwen3-Coder-Next ist das leistungsstärkste Modell seiner Größe, und seine Leistung ist vergleichbar mit Modellen mit 10–20× mehr aktiven Parametern.

Benchmark
Qwen3-Coder-Next (80B)
DeepSeek-V3.2 (671B)
GLM-4.7 (358B)
MiniMax M2.1 (229B)

SWE-Bench Verified (mit SWE-Agent)

70.6

70.2

74.2

74.8

SWE-Bench Multilingual (mit SWE-Agent)

62.8

62.3

63.7

66.2

SWE-Bench Pro (mit SWE-Agent)

44.3

40.9

40.6

34.6

Terminal-Bench 2.0 (mit Terminus-2 json)

36.2

39.3

37.1

32.6

Aider

66.2

69.9

52.1

61.0

Zuletzt aktualisiert

War das hilfreich?