🌠Qwen3-Coder-Next:如何本地运行

在你的设备上本地运行 Qwen3-Coder-Next 的指南!

Qwen 发布了 Qwen3-Coder-Next,一种 80B MoE 模型(3B 活跃参数),具有 256K 上下文 用于快速的智能编码和本地使用。其性能可与活跃参数多 10–20× 的模型相当。

它运行在 46GB 内存/显存/统一内存(8 位为 85GB),为非推理(non-reasoning)模式以获得超快的代码响应。该模型在长时程推理、复杂工具使用和从执行失败中恢复方面表现出色。

circle-check

你还将学会在 Codex & Claude Code 上运行该模型。对于 微调,Qwen3-Next-Coder 在 Unsloth 中用于 bf16 LoRA 时可在单张 B200 GPU 上运行。

Qwen3-Coder-Next Unsloth 动态 GGUFs 运行: unsloth/Qwen3-Coder-Next-GGUFarrow-up-right

运行 GGUF 教程Codex & Claude CodeFP8 vLLM 教程

⚙️ 使用指南

没有 46GB 内存或统一内存?别担心,你可以运行我们更小的量化版本,比如 3-bit。最好使模型大小等于你的计算总和( 磁盘空间 + 内存 + 显存 ≥ 量化模型大小)。 如果你的量化模型完全适配你的设备,预期可达每秒 20+ 令牌。如果不适配,它仍可通过卸载工作,但会更慢。

为获得最佳性能,Qwen 建议以下设置:

  • 温度 = 1.0

  • Top_P = 0.95

  • Top_K = 40

  • Min_P = 0.01 (llama.cpp 的默认值为 0.05)

  • 重复惩罚 = 禁用或 1.0

原生支持最多 262,144 上下文,但你可以将其设置为 32,768 令牌以减少内存使用。

🖥️ 运行 Qwen3-Coder-Next

根据你的使用场景,你需要使用不同的设置。因为本指南使用 4-bit,你需要大约 46GB 内存/统一内存。我们建议至少使用 3-bit 精度以获得最佳性能。

circle-check
circle-info

注意:此模型仅支持非思考模式(non-thinking mode),不会在输出中生成 <think></think> 块。因此不再需要指定 enable_thinking=False

Llama.cpp 教程(GGUF):

在 llama.cpp 中运行的说明(注意我们将使用 4 位以适配大多数设备):

1

获取最新的 llama.cppGitHub 在此arrow-up-right。你也可以按照下面的构建说明。若 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU 或仅想使用 CPU 推理。 对于 Apple Mac / Metal 设备,设置 -DGGML_CUDA=OFF 然后照常继续 - Metal 支持默认开启。

2

你可以直接从 Hugging Face 拉取。如果你的内存/显存能容纳,你可以将上下文增加到 256K。使用 --fit on 也会自动确定上下文长度。

你可以使用推荐参数: temperature=1.0, top_p=0.95, top_k=40

3

通过以下方式下载模型(在安装后 pip install huggingface_hub)。你可以选择 UD-Q4_K_XL 或其他量化版本。如果下载卡住,请参见 Hugging Face Hub, XET 调试

4

然后以对话模式运行模型:

另外,根据需要调整 上下文窗口262,144

circle-info

注意:此模型仅支持非思考模式(non-thinking mode),不会在输出中生成 <think></think> 块。因此不再需要指定 enable_thinking=False

🦙 Llama-server 提供服务与部署

要在生产环境中部署 Qwen3-Coder-Next,我们使用 llama-server 在新的终端(例如通过 tmux)中。然后,通过以下方式部署模型:

然后在新终端中,在执行 pip install openai之后,我们可以运行模型:

将输出:

我们提取了 HTML 并运行了它,示例生成的 Flappy Bird 游戏运行良好!

👾 OpenAI Codex & Claude Code

要通过本地编码代理工作负载运行模型,你可以 参照我们的指南。只需将模型名称 'GLM-4.7-Flash' 更改为 'Qwen3-Coder-Next' 并确保遵循正确的 Qwen3-Coder-Next 参数和使用说明。使用我们刚才设置的 llama-server

按照例如 Claude Code 的说明后,你会看到:

然后我们可以比如要求 为国际象棋创建一个 Python 游戏 :

如果你看到 API 错误:400 {"error":{"code":400,"message":"请求(16582 令牌)超出可用上下文大小(16384 令牌),请尝试增加它","type":"exceed_context_size_error","n_prompt_tokens":16582,"n_ctx":16384}} 那意味着你需要增加上下文长度或参见 Qwen3-Coder-Next

🎱 vLLM 中的 FP8 Qwen3-Coder-Next

你现在可以使用我们的新 FP8 动态量化arrow-up-right 的模型以获得高性能和快速推理。首先从 nightly 安装 vLLM。将 --extra-index-url https://wheels.vllm.ai/nightly/cu130 更改为通过 nvidia-smi 找到的你的 CUDA 版本, 仅支持cu129 cu130

circle-check

然后提供服务 Unsloth 的动态 FP8 版本arrow-up-right Unsloth 的动态 FP8 版本 --kv-cache-dtype fp8 --kv-cache-dtype fp8 CUDA_VISIBLE_DEVICES='0' 并设置 --tensor-parallel-size 1 --tensor-parallel-size 1 tmux 或移除此参数。使用 在新终端中启动下面的命令然后 CTRL+B+D - 使用 tmux attach-session -t0

--port 8001 你应该会看到如下内容。参见 Qwen3-Coder-Next 关于如何使用 OpenAI API 和工具调用实际使用 Qwen3-Coder-Next——这适用于 vLLM 和 llama-server。

🔧使用 Qwen3-Coder-Next 的工具调用

在一个新终端中,我们创建一些工具,例如添加两个数字、执行 Python 代码、执行 Linux 功能等:

然后我们使用下面的函数(复制粘贴并执行),它们会自动解析函数调用并为任何模型调用 OpenAI 端点:

现在我们将展示多种在不同用例下运行工具调用的方法:

执行生成的 Python 代码

执行任意终端功能

我们确认文件已创建,确实如此!

参见 Tool Calling Guide 有关更多工具调用的示例。

📐基准测试

GGUF 量化基准

以下是由第三方评估者进行的一些量化基准测试。

Aider 多语言基准
Benjamine Marie 基准(来源arrow-up-right)

基准由第三方贡献者在 Aider Polyglot 服务器上运行,比较 Unsloth GGUF 在 Aider Polyglot 基准(分数 vs. 显存)上的量化结果。值得注意的是,3 位 UD-IQ3_XXS 量化接近于 BF16 的性能,使得 3 位成为大多数用例的合理最低选择。 对于大多数用例而言。

NVFP4 略微优于 BF16 参考值,这可能是由于运行次数有限导致的抽样噪声;然而,对于以下情况的整体模式: 1 位 → 2 位 → 3 位 → 6 位 稳步提升,表明基准正在捕捉到 Unsloth GGUF 在质量上的实际差异。该 非 Unsloth FP8 似乎比两者表现都差, UD-IQ3_XXSUD-Q6_K_XL,这可能反映了量化流程的差异,或同样是样本不足。

Benjamin Marie(第三方)对以下项进行了基准测试arrow-up-right Qwen3-Coder-Next 使用 Unsloth 和 Qwen GGUF 在一个 750 个提示的混合测试套件 (LiveCodeBench v6、MMLU Pro、GPQA、Math500),报告了 总体准确率相对错误增加 (量化模型比原始模型更容易出错的程度)。

图表清楚地显示 Unsloth 的 Q4_K_M 量化比标准 Q4_K_M 表现更好。Q3_K_M 在 Live Code Bench v6 上如预期表现更差,但在 HumanEval 上令人惊讶地比标准 Q4_K_M 好得多。 它似乎以最高效的方式运行,建议至少使用 Q4_K_M。

Qwen3-Coder-Next 基准

Qwen3-Coder-Next 是其规模中性能最好的模型,其性能可与参数活跃数量高出 10–20 倍的模型相媲美。

基准
Qwen3-Coder-Next(80B)
DeepSeek-V3.2(671B)
GLM-4.7(358B)
MiniMax M2.1(229B)

SWE-Bench 验证(含 SWE-Agent)

70.6

70.2

74.2

74.8

SWE-Bench 多语言(含 SWE-Agent)

62.8

62.3

63.7

66.2

SWE-Bench 专业版(含 SWE-Agent)

44.3

40.9

40.6

34.6

Terminal-Bench 2.0(含 Terminus-2 json)

36.2

39.3

37.1

32.6

Aider

66.2

69.9

52.1

61.0

最后更新于

这有帮助吗?