🌠Qwen3-Coder-Next:如何本地运行
在你的设备上本地运行 Qwen3-Coder-Next 的指南!
Qwen 发布了 Qwen3-Coder-Next,一种 80B MoE 模型(3B 活跃参数),具有 256K 上下文 用于快速的智能编码和本地使用。其性能可与活跃参数多 10–20× 的模型相当。
它运行在 46GB 内存/显存/统一内存(8 位为 85GB),为非推理(non-reasoning)模式以获得超快的代码响应。该模型在长时程推理、复杂工具使用和从执行失败中恢复方面表现出色。
2 月 19 日更新: 在 llama.cpp 修复了解析问题后,工具调用现在应该更好。
新! 参见 量化基准 了解我们的动态 GGUF!
2 月 4 日: llama.cpp 修复了用于计算的一个错误,修正了 向量化的 key_gdiff。 这修复了之前的循环和输出问题。我们已更新 GGUF——请 重新下载 和 更新 llama.cpp 以获得更好的输出。
你还将学会在 Codex & Claude Code 上运行该模型。对于 微调,Qwen3-Next-Coder 在 Unsloth 中用于 bf16 LoRA 时可在单张 B200 GPU 上运行。
Qwen3-Coder-Next Unsloth 动态 GGUFs 运行: unsloth/Qwen3-Coder-Next-GGUF
运行 GGUF 教程Codex & Claude CodeFP8 vLLM 教程
⚙️ 使用指南
没有 46GB 内存或统一内存?别担心,你可以运行我们更小的量化版本,比如 3-bit。最好使模型大小等于你的计算总和( 磁盘空间 + 内存 + 显存 ≥ 量化模型大小)。 如果你的量化模型完全适配你的设备,预期可达每秒 20+ 令牌。如果不适配,它仍可通过卸载工作,但会更慢。
为获得最佳性能,Qwen 建议以下设置:
温度 = 1.0Top_P = 0.95Top_K = 40Min_P = 0.01(llama.cpp 的默认值为 0.05)重复惩罚= 禁用或 1.0
原生支持最多 262,144 上下文,但你可以将其设置为 32,768 令牌以减少内存使用。
🖥️ 运行 Qwen3-Coder-Next
根据你的使用场景,你需要使用不同的设置。因为本指南使用 4-bit,你需要大约 46GB 内存/统一内存。我们建议至少使用 3-bit 精度以获得最佳性能。
2 月 4 日更新: llama.cpp 修复了用于计算的一个错误,修正了 向量化的 key_gdiff。 这修复了之前的循环和输出问题。我们已更新 GGUF——请 重新下载 和 更新 llama.cpp 以获得更好的输出。
注意:此模型仅支持非思考模式(non-thinking mode),不会在输出中生成 <think></think> 块。因此不再需要指定 enable_thinking=False 。
Llama.cpp 教程(GGUF):
在 llama.cpp 中运行的说明(注意我们将使用 4 位以适配大多数设备):
获取最新的 llama.cpp 在 GitHub 在此。你也可以按照下面的构建说明。若 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU 或仅想使用 CPU 推理。 对于 Apple Mac / Metal 设备,设置 -DGGML_CUDA=OFF 然后照常继续 - Metal 支持默认开启。
你可以直接从 Hugging Face 拉取。如果你的内存/显存能容纳,你可以将上下文增加到 256K。使用 --fit on 也会自动确定上下文长度。
你可以使用推荐参数: temperature=1.0, top_p=0.95, top_k=40
通过以下方式下载模型(在安装后 pip install huggingface_hub)。你可以选择 UD-Q4_K_XL 或其他量化版本。如果下载卡住,请参见 Hugging Face Hub, XET 调试
然后以对话模式运行模型:
另外,根据需要调整 上下文窗口 到 262,144
注意:此模型仅支持非思考模式(non-thinking mode),不会在输出中生成 <think></think> 块。因此不再需要指定 enable_thinking=False 。
🦙 Llama-server 提供服务与部署
要在生产环境中部署 Qwen3-Coder-Next,我们使用 llama-server 在新的终端(例如通过 tmux)中。然后,通过以下方式部署模型:
然后在新终端中,在执行 pip install openai之后,我们可以运行模型:
将输出:
我们提取了 HTML 并运行了它,示例生成的 Flappy Bird 游戏运行良好!

👾 OpenAI Codex & Claude Code
要通过本地编码代理工作负载运行模型,你可以 参照我们的指南。只需将模型名称 'GLM-4.7-Flash' 更改为 'Qwen3-Coder-Next' 并确保遵循正确的 Qwen3-Coder-Next 参数和使用说明。使用我们刚才设置的 llama-server 。
按照例如 Claude Code 的说明后,你会看到:

然后我们可以比如要求 为国际象棋创建一个 Python 游戏 :



如果你看到 API 错误:400 {"error":{"code":400,"message":"请求(16582 令牌)超出可用上下文大小(16384 令牌),请尝试增加它","type":"exceed_context_size_error","n_prompt_tokens":16582,"n_ctx":16384}} 那意味着你需要增加上下文长度或参见 Qwen3-Coder-Next

🎱 vLLM 中的 FP8 Qwen3-Coder-Next
你现在可以使用我们的新 FP8 动态量化 的模型以获得高性能和快速推理。首先从 nightly 安装 vLLM。将 --extra-index-url https://wheels.vllm.ai/nightly/cu130 更改为通过 nvidia-smi 找到的你的 CUDA 版本, 仅支持 和 cu129 cu130
当前受支持。 Qwen3-Coder-Next
然后提供服务 Unsloth 的动态 FP8 版本 Unsloth 的动态 FP8 版本 --kv-cache-dtype fp8 --kv-cache-dtype fp8 CUDA_VISIBLE_DEVICES='0' 并设置 --tensor-parallel-size 1 --tensor-parallel-size 1 tmux 或移除此参数。使用 在新终端中启动下面的命令然后 CTRL+B+D - 使用 tmux attach-session -t0
--port 8001 你应该会看到如下内容。参见 Qwen3-Coder-Next 关于如何使用 OpenAI API 和工具调用实际使用 Qwen3-Coder-Next——这适用于 vLLM 和 llama-server。

🔧使用 Qwen3-Coder-Next 的工具调用
在一个新终端中,我们创建一些工具,例如添加两个数字、执行 Python 代码、执行 Linux 功能等:
然后我们使用下面的函数(复制粘贴并执行),它们会自动解析函数调用并为任何模型调用 OpenAI 端点:
现在我们将展示多种在不同用例下运行工具调用的方法:
执行生成的 Python 代码

执行任意终端功能
我们确认文件已创建,确实如此!

参见 Tool Calling Guide 有关更多工具调用的示例。
📐基准测试
GGUF 量化基准
以下是由第三方评估者进行的一些量化基准测试。


基准由第三方贡献者在 Aider Polyglot 服务器上运行,比较 Unsloth GGUF 在 Aider Polyglot 基准(分数 vs. 显存)上的量化结果。值得注意的是,3 位 UD-IQ3_XXS 量化接近于 BF16 的性能,使得 3 位成为大多数用例的合理最低选择。 对于大多数用例而言。
NVFP4 略微优于 BF16 参考值,这可能是由于运行次数有限导致的抽样噪声;然而,对于以下情况的整体模式: 1 位 → 2 位 → 3 位 → 6 位 稳步提升,表明基准正在捕捉到 Unsloth GGUF 在质量上的实际差异。该 非 Unsloth FP8 似乎比两者表现都差, UD-IQ3_XXS 和 UD-Q6_K_XL,这可能反映了量化流程的差异,或同样是样本不足。
Benjamin Marie(第三方)对以下项进行了基准测试 Qwen3-Coder-Next 使用 Unsloth 和 Qwen GGUF 在一个 750 个提示的混合测试套件 (LiveCodeBench v6、MMLU Pro、GPQA、Math500),报告了 总体准确率 和 相对错误增加 (量化模型比原始模型更容易出错的程度)。
图表清楚地显示 Unsloth 的 Q4_K_M 量化比标准 Q4_K_M 表现更好。Q3_K_M 在 Live Code Bench v6 上如预期表现更差,但在 HumanEval 上令人惊讶地比标准 Q4_K_M 好得多。 它似乎以最高效的方式运行,建议至少使用 Q4_K_M。
Qwen3-Coder-Next 基准
Qwen3-Coder-Next 是其规模中性能最好的模型,其性能可与参数活跃数量高出 10–20 倍的模型相媲美。
SWE-Bench 验证(含 SWE-Agent)
70.6
70.2
74.2
74.8
SWE-Bench 多语言(含 SWE-Agent)
62.8
62.3
63.7
66.2
SWE-Bench 专业版(含 SWE-Agent)
44.3
40.9
40.6
34.6
Terminal-Bench 2.0(含 Terminus-2 json)
36.2
39.3
37.1
32.6
Aider
66.2
69.9
52.1
61.0



最后更新于
这有帮助吗?

