🌠Qwen3-Coder-Next: Wie man lokal ausführt

Anleitung zum lokalen Ausführen von Qwen3-Coder-Next auf deinem Gerät!

Qwen veröffentlicht Qwen3-Coder-Next, ein 80B-MoE-Modell (3B aktive Parameter) mit 256K Kontext für schnelles agentisches Programmieren und lokale Nutzung. Es ist vergleichbar mit der Leistung von Modellen mit 10–20× mehr aktiven Parametern.

Es läuft auf 46 GB RAM/VRAM/Unified Memory (85 GB für 8-Bit) und ist nicht-reasoning für ultraschnelle Code-Antworten. Das Modell glänzt bei langfristigem Schlussfolgern, komplexer Tool-Nutzung und der Wiederherstellung nach Ausführungsfehlern.

circle-check

Du lernst außerdem, das Modell auf Codex & Claude Code auszuführen. Für Fine-Tuningpasst Qwen3-Next-Coder auf eine einzelne B200-GPU für bf16 LoRA in Unsloth.

Qwen3-Coder-Next Unsloth Dynamic GGUFs auszuführen: unsloth/Qwen3-Coder-Next-GGUFarrow-up-right

GGUF-Tutorial ausführenCodex & Claude CodeFP8 vLLM-Tutorial

⚙️ Verwendungsleitfaden

Du hast keine 46 GB RAM oder Unified Memory? Kein Problem, du kannst unsere kleineren Quants wie 3-Bit ausführen. Am besten ist es, wenn die Modellgröße = der Summe deiner Rechenressourcen ist ( Festplattenspeicher + RAM + VRAM ≥ Größe des Quants). Wenn dein Quant vollständig auf dein Gerät passt, kannst du mit 20+ Tokens/s rechnen. Wenn nicht, funktioniert es trotzdem per Auslagern, aber langsamer.

Um optimale Leistung zu erzielen, empfiehlt Qwen diese Einstellungen:

  • Temperatur = 1.0

  • Top_P = 0.95

  • Top_K = 40

  • Min_P = 0.01 (llama.cpps Standardwert ist 0.05)

  • Wiederholungsstrafe = deaktiviert oder 1.0

Unterstützt nativ bis zu 262,144 Kontext, aber du kannst ihn auf 32,768 Tokens setzen, um weniger Speicher zu verbrauchen.

🖥️ Qwen3-Coder-Next ausführen

Je nach Anwendungsfall musst du unterschiedliche Einstellungen verwenden. Da dieser Leitfaden 4-Bit nutzt, benötigst du etwa 46 GB RAM/Unified Memory. Wir empfehlen mindestens 3-Bit-Präzision für beste Leistung.

circle-check
circle-info

HINWEIS: Dieses Modell unterstützt nur den Nicht-Denkmodus und erzeugt keine <think></think> Blöcke in seiner Ausgabe. Daher ist das Angeben von enable_thinking=False nicht mehr erforderlich.

Llama.cpp-Tutorial (GGUF):

Anweisungen zum Ausführen in llama.cpp (beachten Sie, dass wir 4-Bit verwenden werden, um auf die meisten Geräte zu passen):

1

Beschaffe die neueste llama.cpp auf GitHub hierarrow-up-right. Du kannst unten auch den Build-Anweisungen folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF und fahre dann wie gewohnt fort – Metal-Unterstützung ist standardmäßig aktiviert.

2

Du kannst direkt von Hugging Face ziehen. Du kannst den Kontext auf 256K erhöhen, wenn dein RAM/VRAM dafür ausreicht. Die Verwendung von --fit on wird die Kontextlänge ebenfalls automatisch bestimmen.

Du kannst die empfohlenen Parameter verwenden: temperature=1.0, top_p=0.95, top_k=40

3

Lade das Modell über (nach Installation von pip install huggingface_hub). Du kannst UD-Q4_K_XL oder andere quantisierte Versionen. Wenn Downloads hängen bleiben, siehe Hugging Face Hub, XET-Debugging

4

Dann führe das Modell im Gesprächsmodus aus:

Passen Sie außerdem das Kontextfenster wie erforderlich, bis zu 262,144

circle-info

HINWEIS: Dieses Modell unterstützt nur den Nicht-Denkmodus und erzeugt keine <think></think> Blöcke in seiner Ausgabe. Daher ist das Angeben von enable_thinking=False nicht mehr erforderlich.

🦙 Llama-Server-Bereitstellung & Deployment

Um Qwen3-Coder-Next für den produktiven Einsatz bereitzustellen, verwenden wir llama-server In einem neuen Terminal, z. B. über tmux. Dann das Modell bereitstellen mit:

Dann in einem neuen Terminal, nachdem du pip install openaikönnen wir das Modell ausführen:

Was Folgendes ausgibt:

Wir haben das HTML extrahiert und ausgeführt, und das erzeugte Beispiel-Flappy-Bird-Spiel funktionierte gut!

👾 OpenAI Codex & Claude Code

Um das Modell für lokale, agentische Coding-Workloads auszuführen, können Sie unseren Leitfaden befolgen. Ändere einfach den Modellnamen 'GLM-4.7-Flash' zu 'Qwen3-Coder-Next' und stelle sicher, dass du die korrekten Parameter und Nutzungsanweisungen für Qwen3-Coder-Next befolgst. Verwende die llama-server die wir gerade eben eingerichtet haben.

Nachdem Sie zum Beispiel die Anweisungen für Claude Code befolgt haben, sehen Sie:

Dann können wir zum Beispiel fragen Erstelle ein Python-Spiel für Schach :

Wenn du API-Fehler: 400 {"error":{"code":400,"message":"request (16582 tokens) exceeds the available context size (16384 tokens), try increasing it","type":"exceed_context_size_error","n_prompt_tokens":16582,"n_ctx":16384}} siehst, bedeutet das, dass du die Kontextlänge erhöhen musst oder siehe Qwen3-Coder-Next

🎱 FP8 Qwen3-Coder-Next in vLLM

Du kannst jetzt unser neues FP8 Dynamic Quantarrow-up-right des Modells für schnelle Premium-Inferenz verwenden. Installiere zuerst vLLM aus dem Nightly-Build. Ändere --extra-index-url https://wheels.vllm.ai/nightly/cu130 auf deine CUDA-Version, die du über nvidia-smi findest - nur cu129 und cu130 werden derzeit unterstützt.

circle-check

Dann bereitstellen Unsloths dynamische FP8-Versionarrow-up-right des Modells. Du kannst FP8 auch aktivieren, um die KV-Cache-Speichernutzung um 50% zu reduzieren, indem du --kv-cache-dtype fp8 Wir haben es auf 4 GPUs bereitgestellt, aber wenn du 1 GPU hast, verwende CUDA_VISIBLE_DEVICES='0' und setze --tensor-parallel-size 1 oder entferne dieses Argument. Verwende tmux um das Folgende in einem neuen Terminal zu starten und dann CTRL+B+D - verwende tmux attach-session -t0 um zurückzukehren.

Du solltest etwas wie unten sehen. Siehe Qwen3-Coder-Next für die tatsächliche Verwendung von Qwen3-Coder-Next über die OpenAI-API und Tool-Calling – das funktioniert für vLLM und llama-server.

🔧Tool-Calling mit Qwen3-Coder-Next

In einem neuen Terminal erstellen wir einige Tools wie das Addieren von 2 Zahlen, das Ausführen von Python-Code, das Ausführen von Linux-Funktionen und vieles mehr:

Wir verwenden dann die folgenden Funktionen (kopieren, einfügen und ausführen), die die Funktionsaufrufe automatisch analysieren und für jedes Modell den OpenAI-Endpunkt aufrufen:

Jetzt zeigen wir unten mehrere Methoden, Tool-Calling für viele verschiedene Anwendungsfälle auszuführen:

Generierten Python-Code ausführen

Beliebige Terminalfunktionen ausführen

Wir bestätigen, dass die Datei erstellt wurde, und das wurde sie!

Siehe Tool Calling Guide für weitere Beispiele für Tool-Calling.

📐Benchmarks

GGUF-Quantisierungs-Benchmarks

Hier sind einige Quantisierungs-Benchmarks, die von unabhängigen Gutachtern durchgeführt wurden.

Aider Polyglot Benchmarks
Benjamine Marie Benchmarks (Quellearrow-up-right)

Die Benchmarks wurden von unabhängigen Mitwirkenden auf dem Aider-Polyglot-Server durchgeführt und verglichen Unsloth-GGUF-Quantisierungen auf dem Aider-Polyglot-Benchmark (Score vs. VRAM). Bemerkenswert ist, dass die 3-Bit UD-IQ3_XXS Quant kommt nahe an BF16 Leistung heran, was 3-Bit zu einem sinnvollen Minimum für die meisten Anwendungsfälle macht.

NVFP4 übertrifft die BF16-Referenz leicht, was möglicherweise auf Sampling-Rauschen aufgrund begrenzter Durchläufe zurückzuführen ist; insgesamt deutet das Muster für: 1-Bit → 2-Bit → 3-Bit → 6-Bit das stetig besser wird, darauf hin, dass der Benchmark aussagekräftige Qualitätsunterschiede über die Unsloth GGUFs hinweg erfasst. Das nicht-Unsloth FP8 scheint schlechter abzuschneiden als beide UD-IQ3_XXS und UD-Q6_K_XL, was Unterschiede in der Quantisierungspipeline oder erneut unzureichendes Sampling widerspiegeln könnte.

Benjamin Marie (Drittanbieter) hat Benchmarks durchgeführtarrow-up-right Qwen3-Coder-Next unter Verwendung von Unsloth und Qwen-GGUFs auf einem 750-Prompt-Mix-Suite (LiveCodeBench v6, MMLU Pro, GPQA, Math500), wobei sowohl Gesamtgenauigkeit und relative Fehlerzunahme (wie viel häufiger das quantisierte Modell im Vergleich zum Original Fehler macht).

Die Diagramme zeigen deutlich, dass Unsloths Q4_K_M-Quantisierungen besser abschneiden als das Standard-Q4_K_M. Q3_K_M schneidet erwartungsgemäß beim Live Code Bench v6 schlechter ab, aber überraschenderweise bei HumanEval deutlich besser als das Standard-Q4_K_M. Es scheint mit der höchsten Effizienz zu laufen; mindestens Q4_K_M zu verwenden wird empfohlen.

Qwen3-Coder-Next Benchmarks

Qwen3-Coder-Next ist das leistungsstärkste Modell seiner Größe, und seine Leistung ist mit Modellen vergleichbar, die 10–20× mehr aktive Parameter haben.

Benchmark
Qwen3-Coder-Next (80B)
DeepSeek-V3.2 (671B)
GLM-4.7 (358B)
MiniMax M2.1 (229B)

SWE-Bench Verified (mit SWE-Agent)

70.6

70.2

74.2

74.8

SWE-Bench Multilingual (mit SWE-Agent)

62.8

62.3

63.7

66.2

SWE-Bench Pro (mit SWE-Agent)

44.3

40.9

40.6

34.6

Terminal-Bench 2.0 (mit Terminus-2 JSON)

36.2

39.3

37.1

32.6

Aider

66.2

69.9

52.1

61.0

Zuletzt aktualisiert

War das hilfreich?