🌠Qwen3-Coder-Next:本地运行指南
在您的设备上本地运行 Qwen3-Coder-Next 的指南!
Qwen 发布了 Qwen3-Coder-Next,这是一个 80B MoE 模型(3B 活跃参数),具有 256K 上下文 用于快速的自主编码和本地使用。其性能可与活跃参数数量高出 10–20 倍的模型相媲美。
它在 46GB 内存/显存/统一内存(8 位为 85GB)上运行,为超快速代码响应而使用非推理(non-reasoning)模式。该模型在长时程推理、复杂工具使用以及从执行失败中恢复方面表现出色。
2 月 4 日更新: llama.cpp 修复了一个错误,该错误修正了 向量化 key_gdiff 的计算。 这修复了之前的循环和输出问题。我们更新了 GGUF —— 请 重新下载 并且 更新 llama.cpp 以获得更好的输出。
我们引入了新的 MXFP4 量化,以获得出色的质量和速度,你还将学习如何在 Codex 与 Claude Code 上运行该模型。
Qwen3-Coder-Next Unsloth 动态 GGUFs 以运行: unsloth/Qwen3-Coder-Next-GGUF
运行 GGUF 教程Codex 与 Claude CodeFP8 vLLM 教程
⚙️ 使用指南
没有 46GB 内存或统一内存?别担心,你可以运行我们更小的量化版本,比如 3 位。最好使模型大小等于你计算资源之和( 磁盘空间 + 内存 + 显存 ≥ 量化文件大小)。 如果你的量化文件完全适合你的设备,预期速度为 20+ 令牌/秒。如果不完全适合,它仍可通过卸载(offloading)工作,但会更慢。
为了获得最佳性能,Qwen 建议以下设置:
Temperature = 1.0Top_P = 0.95Top_K = 40Min_P = 0.01(llama.cpp 的默认值是 0.05)
原生支持最多 262,144 上下文,但你可以将其设置为 32,768 令牌以减少内存使用。
🖥️ 运行 Qwen3-Coder-Next
根据你的使用场景,你需要使用不同的设置。因为本指南使用 4 位,你将需要大约 46GB 内存/统一内存。我们建议至少使用 3 位精度以获得最佳性能。
2 月 4 日更新: llama.cpp 修复了一个错误,该错误修正了 向量化 key_gdiff 的计算。 这修复了之前的循环和输出问题。我们更新了 GGUF —— 请 重新下载 并且 更新 llama.cpp 以获得更好的输出。
注意:此模型仅支持非思考模式(non-thinking mode),不会在其输出中生成 <think></think> 块。因此不再需要指定 enable_thinking=False 。
Llama.cpp 教程(GGUF):
在 llama.cpp 中运行的说明(注意我们将使用 4 位以适配大多数设备):
获取最新的 llama.cpp 在 GitHub 这里。你也可以按照下面的构建说明。将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU 或者只想使用 CPU 推理。
你可以直接从 Hugging Face 拉取。如果你的内存/显存可以容纳,你可以将上下文增加到 256K。使用 --fit on 也会自动确定上下文长度。
你可以使用推荐参数: temperature=1.0, top_p=0.95, top_k=40
通过以下方式下载模型(在安装 pip install huggingface_hub之后)。你可以选择 UD-Q4_K_XL 或其他量化版本。
然后以对话模式运行模型:
此外,根据需要调整 上下文窗口 最多为 262,144
注意:此模型仅支持非思考模式(non-thinking mode),不会在其输出中生成 <think></think> 块。因此不再需要指定 enable_thinking=False 。
🦙Llama-server 服务与部署
要将 Qwen3-Coder-Next 部署到生产环境,我们使用 llama-server 在新终端(例如通过 tmux)中。然后,通过以下命令部署模型:
然后在新终端中,在执行 pip install openai之后,我们可以运行该模型:
将输出:
我们提取了该 HTML 并运行,示例生成的 Flappy Bird 游戏运行良好!

👾 OpenAI Codex 与 Claude Code
要通过本地编码代理工作负载运行模型,你可以 按照我们的指南。只需将模型名称 'GLM-4.7-Flash' 更改为 'Qwen3-Coder-Next',并确保遵循正确的 Qwen3-Coder-Next 参数和使用说明。使用我们刚刚设置的 llama-server 配置。
例如,在按照 Claude Code 的说明操作后,你将看到:

然后我们可以例如请求 创建一个用 Python 实现的国际象棋游戏 :



如果你看到 API Error: 400 {"error":{"code":400,"message":"request (16582 tokens) exceeds the available context size (16384 tokens), try increasing it","type":"exceed_context_size_error","n_prompt_tokens":16582,"n_ctx":16384}} 那意味着你需要增加上下文长度或查看 📐 如何适应长上下文

🎱 在 vLLM 中的 FP8 Qwen3-Coder-Next
你现在可以使用我们的新 FP8 动态量化 来获得高性能且快速的推理。首先从 nightly 安装 vLLM。将 --extra-index-url https://wheels.vllm.ai/nightly/cu130 更改为与你的 CUDA 版本相符的地址,可通过 nvidia-smi 找到 - 目前仅支持 cu129 并且 cu130 。
然后服务化 Unsloth 的动态 FP8 版本 的模型。你还可以通过添加 --kv-cache-dtype fp8 启用 FP8 以将 KV 缓存内存使用降低 50%。 我们在 4 块 GPU 上部署了它,但如果你只有 1 块 GPU,请使用 CUDA_VISIBLE_DEVICES='0' 并设置 --tensor-parallel-size 1 或移除此参数。使用 tmux 在新终端中启动下面的命令然后 CTRL+B+D - 使用 返回到它。
你应该会看到类似如下的内容。参见 Qwen3-Coder-Next 了解如何使用 OpenAI API 和工具调用实际使用 Qwen3-Coder-Next —— 这适用于 vLLM 和 llama-server。

🔧使用 Qwen3-Coder-Next 的工具调用
在一个新的终端中,我们创建了一些工具,例如加两个数、执行 Python 代码、执行 Linux 命令等:
然后我们使用下面的函数(复制并粘贴执行),它们会自动解析函数调用并针对任何模型调用 OpenAI 端点:
现在我们将展示下面多种用于不同用例的工具调用运行方法:
执行生成的 Python 代码

执行任意终端命令
我们确认文件已创建,确实创建了!

参见 Tool Calling Guide 了解更多关于工具调用的示例。
🛠️ 提高生成速度
如果使用 vLLM / SGLang,尝试使用我们的 FP8-Dynamic 量化,它可以将吞吐量提升 25% 或更多!见 Qwen3-Coder-Next
如果你有更多显存,可以尝试卸载更多 MoE 层,或卸载整层本身。
通常, -ot ".ffn_.*_exps.=CPU" 将所有 MoE 层卸载到 CPU!这实际上允许你将所有非 MoE 层放在 1 个 GPU 上,从而提高生成速度。如果你有更多 GPU 容量,可以自定义正则表达式以适配更多层。
如果你有更多一些 GPU 内存,尝试 -ot ".ffn_(up|down)_exps.=CPU" 这会将上投影和下投影的 MoE 层卸载。
尝试 -ot ".ffn_(up)_exps.=CPU" 如果你有更多 GPU 内存。这只会卸载上投影的 MoE 层。
你也可以自定义正则,例如 -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" 表示从第 6 层起卸载 gate、up 和 down 的 MoE 层。
最新的 llama.cpp 发行版 还引入了高吞吐量模式。使用 llama-parallel。在这里阅读更多 此处。你也可以 将 KV 缓存量化为 4 位 例如以减少 VRAM / RAM 的数据移动,这也可以使生成过程更快。下一节 讨论了 KV 缓存量化。
📐 如何适应长上下文
为了适应更长的上下文,你可以使用 KV 缓存量化 将 K 和 V 缓存量化为更低的位数。这也可以由于减少 RAM / VRAM 数据移动而提高生成速度。K 量化的可选项(默认是 f16)包括下面这些。
--cache-type-k f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1
你应当使用 _1 这些变体以获得稍微提高的准确性,尽管它们稍慢。例如 q4_1, q5_1 所以尝试一下 --cache-type-k q4_1
你也可以量化 V 缓存,但你需要 用 Flash Attention 支持编译 llama.cpp 通过 -DGGML_CUDA_FA_ALL_QUANTS=ON,并使用 --flash-attn 来启用它。安装 Flash Attention 之后,你就可以使用 --cache-type-v q4_1
如果你正在使用我们的动态 FP8 量化 Qwen3-Coder-Next那么使用 FP8 KV 缓存量化可以使上下文长度支持大约翻倍。添加 --kv-cache-dtype fp8
📐基准测试
Qwen3-Coder-Next 在其规模中表现最佳,其性能可与具有 10–20 倍更多活跃参数的模型相媲美。
SWE-Bench 验证(含 SWE-Agent)
70.6
70.2
74.2
74.8
SWE-Bench 多语种(含 SWE-Agent)
62.8
62.3
63.7
66.2
SWE-Bench Pro(含 SWE-Agent)
44.3
40.9
40.6
34.6
Terminal-Bench 2.0(含 Terminus-2 json)
36.2
39.3
37.1
32.6
Aider
66.2
69.9
52.1
61.0



最后更新于
这有帮助吗?

