🌠Qwen3-Coder-Next:本地运行指南
在您的设备上本地运行 Qwen3-Coder-Next 的指南!
Qwen 发布了 Qwen3-Coder-Next,一款 80B MoE 模型(3B 活跃参数),具有 256K 上下文 用于快速自治编码和本地使用。其性能可与活跃参数多 10–20× 的模型相媲美。
它运行在 46GB 内存/显存/统一内存(8 位时为 85GB),为超快速代码响应而设为非推理模式。该模型擅长长时程推理、复杂工具使用以及从执行故障中恢复。
2 月 19 日更新: 在 llama.cpp 修复了解析问题后,工具调用现在应更加可靠。
新! 参见 量化基准 了解我们的动态 GGUF!
Q6 或 Q8 GGUF 在 LM Studio 中失败了吗? LM Studio 推送了修复,请更新并重新下载。
2 月 4 日: llama.cpp 修复了一个错误,纠正了 向量化 key_gdiff 的计算。 这修复了此前的循环和输出问题。我们已更新 GGUF — 请 重新下载 并 更新 llama.cpp 以获得更好的输出。
你还将学习如何在 Codex & Claude Code 上运行模型。对于 微调,Qwen3-Next-Coder 在 Unsloth 中的 bf16 LoRA 可适配单个 B200 GPU。
Qwen3-Coder-Next Unsloth 动态 GGUF 运行: unsloth/Qwen3-Coder-Next-GGUF
运行 GGUF 教程Codex & Claude CodeFP8 vLLM 教程
⚙️ 使用指南
没有 46GB 内存或统一内存?别担心,你可以运行我们更小的量化版本,例如 3 位。最好让模型大小等于你的计算总和( 磁盘空间 + 内存 + 显存 ≥ 量化后大小)。 如果你的量化文件完全适合你的设备,预计每秒 20+ 代币。如果不适合,它仍然可以通过换出(offloading)工作,但会更慢。
为了达到最佳性能,Qwen 推荐以下设置:
温度 = 1.0Top_P = 0.95Top_K = 40Min_P = 0.01(llama.cpp 的默认值是 0.05)重复惩罚= 禁用或 1.0
原生支持最多 262,144 上下文,但你可以将其设置为 32,768 代币以减少内存使用。
🖥️ 运行 Qwen3-Coder-Next
根据你的用例需要使用不同设置。因为本指南使用 4 位,你将需要大约 46GB 内存/统一内存。我们建议至少使用 3 位精度以获得最佳性能。
2 月 4 日更新: llama.cpp 修复了一个错误,纠正了 向量化 key_gdiff 的计算。 这修复了此前的循环和输出问题。我们已更新 GGUF — 请 重新下载 并 更新 llama.cpp 以获得更好的输出。
注意:此模型仅支持非思考模式,并且不会在输出中生成 <think></think> 块。因此不再需要指定 enable_thinking=False 。
Llama.cpp 教程(GGUF):
在 llama.cpp 中运行的说明(注意我们将使用 4 位以适配大多数设备):
获取最新的 llama.cpp 在 GitHub(在此)。你也可以按照下面的构建说明。若没有 GPU 或仅想使用 CPU 推理,请将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 。
你可以直接从 Hugging Face 拉取。如果你的内存/显存足够,可以将上下文增加到 256K。使用 --fit on 也会自动确定上下文长度。
你可以使用推荐参数: temperature=1.0, top_p=0.95, top_k=40
通过以下方式下载模型(在安装后) pip install huggingface_hub)。你可以选择 UD-Q4_K_XL 或其他量化版本。如果下载卡住,请参见 Hugging Face Hub、XET 调试
然后以对话模式运行模型:
另外,根据需要调整 上下文窗口 ,最高可达 262,144
注意:此模型仅支持非思考模式,并且不会在输出中生成 <think></think> 块。因此不再需要指定 enable_thinking=False 。
🦙Llama-server 提供服务与部署
要将 Qwen3-Coder-Next 部署到生产环境,我们使用 llama-server 在新终端(例如通过 tmux)中。然后,通过以下命令部署模型:
然后在新终端,执行完 pip install openai,我们可以运行模型:
这将输出:
我们提取了 HTML 并运行了它,示例生成的 Flappy Bird 游戏运行良好!

👾 OpenAI Codex & Claude Code
要通过本地编码代理工作负载运行模型,你可以 遵循我们的指南。只需将模型名称 'GLM-4.7-Flash' 改为 'Qwen3-Coder-Next',并确保遵循正确的 Qwen3-Coder-Next 参数和使用说明。使用我们刚才设置的。 llama-server 我们刚才设置的。
例如,按照 Claude Code 的说明操作后你会看到:

然后我们可以例如要求 创建一个用于国际象棋的 Python 游戏 :



如果你看到 API Error: 400 {"error":{"code":400,"message":"request (16582 tokens) exceeds the available context size (16384 tokens), try increasing it","type":"exceed_context_size_error","n_prompt_tokens":16582,"n_ctx":16384}} 这意味着你需要增加上下文长度或参见 为了适配更长的上下文,你可以使用

🎱 vLLM 中的 FP8 Qwen3-Coder-Next
你现在可以使用我们新的 FP8 动态量化 模型以获得优质且快速的推理。首先从 nightly 安装 vLLM。将 --extra-index-url https://wheels.vllm.ai/nightly/cu130 更改为与你通过以下命令查询到的 CUDA 版本相匹配: nvidia-smi - 仅支持 cu129 并 cu130 目前支持。
然后提供服务 Unsloth 的动态 FP8 版本 的模型。你也可以通过添加来启用 FP8,将 KV 缓存内存使用减少 50% --kv-cache-dtype fp8 我们在 4 张 GPU 上部署,但如果你只有 1 张 GPU,使用 CUDA_VISIBLE_DEVICES='0' 并设置 --tensor-parallel-size 1 或移除此参数。使用 tmux 在新终端中启动下面的内容然后按 CTRL+B+D - 使用 tmux attach-session -t0 以返回到该会话。
你应该会看到类似下列的内容。参见 Qwen3-Coder-Next 关于如何使用 OpenAI API 和工具调用来实际使用 Qwen3-Coder-Next —— 这适用于 vLLM 和 llama-server。

🔧使用 Qwen3-Coder-Next 的工具调用
在一个新终端中,我们创建一些工具,比如两个数相加、执行 Python 代码、执行 Linux 命令等等:
然后我们使用下面的函数(复制粘贴并执行),这些函数会自动解析函数调用并为任何模型调用 OpenAI 端点:
现在我们将展示多种用于不同用例的工具调用运行方法:
执行生成的 Python 代码

执行任意终端命令
我们确认该文件已被创建,确实如此!

参见 Tool Calling Guide 有关更多工具调用示例,请参见。
🛠️ 提高生成速度
如果使用 vLLM / SGLang,尝试使用我们的 FP8-Dynamic 量化,它可以提高吞吐量 25% 或更多!参见 Qwen3-Coder-Next
如果你有更多显存,可以尝试卸载更多 MoE 层,或卸载整个层本身。
通常, -ot ".ffn_.*_exps.=CPU" 会将所有 MoE 层卸载到 CPU!这实际上允许你将所有非 MoE 层放在 1 张 GPU 上,从而提高生成速度。如果你有更多 GPU 容量,你可以自定义正则表达式以适配更多层。
如果你有更多一些 GPU 内存,尝试 -ot ".ffn_(up|down)_exps.=CPU" 这会卸载上投影和下投影的 MoE 层。
试试 -ot ".ffn_(up)_exps.=CPU" 如果你有更多显存。这只会卸载上投影的 MoE 层。
你也可以自定义正则表达式,例如 -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" 意味着从第 6 层开始卸载 gate、up 和 down 的 MoE 层。
最新的 llama.cpp 发行版 也引入了高吞吐量模式。使用 llama-parallel。更多信息请阅读 这里。你也可以 将 KV 缓存量化为 4 位 例如以减少 VRAM / RAM 的移动,这也可以使生成过程更快。下一节 讨论了 KV 缓存量化。 📐 如何适配长上下文
为了适配更长的上下文,你可以使用
KV 缓存量化 将 K 和 V 缓存量化为更低位数。这也可以由于减少 RAM / VRAM 数据移动而提高生成速度。K 量化的允许选项(默认是 f16 )包括以下选项。--cache-type-k f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1
你应该使用
这些变体以获得更高的准确性,尽管它们稍微慢一些。例如 _1 q4_1, q5_1 所以试试 --cache-type-k q4_1 你也可以量化 V 缓存,但你需要
用 Flash Attention 支持重新编译 llama.cpp 通过 -DGGML_CUDA_FA_ALL_QUANTS=ON ,并使用--flash-attn 来启用它。安装 Flash Attention 之后,你就可以使用 --cache-type-v q4_1 如果你使用我们的动态 FP8 量化
那么使用 FP8 KV 缓存量化可以使上下文长度支持大约翻倍。添加 Qwen3-Coder-Next基准测试 --kv-cache-dtype fp8
📐GGUF 量化基准
以下是由第三方评估者进行的一些量化基准测试结果。
基准测试由第三方贡献者在 Aider Polyglot 服务器上运行,比较了 Unsloth GGUF 在 Aider Polyglot 基准(得分 vs. VRAM)上的量化表现。值得注意的是,3 位的

UD-IQ3_XXS 量化接近于 BF16 的性能,使得 3 位成为大多数用例的合理最低选择。 NVFP4 略微优于 BF16 参考,这可能是由于运行次数有限导致的抽样噪声;然而,对于:
1 位 → 2 位 → 3 位 → 6 位 稳步提升的总体模式表明该基准正在捕捉到 Unsloth GGUF 之间有意义的质量差异。非 Unsloth 的 FP8 似乎比 UD-Q6_K_XL 表现更差,这可能反映了量化流程的差异,或者同样是采样不足所致。 Qwen3-Coder-Next 基准 量化接近于 并 Qwen3-Coder-Next 在其规模中表现最佳,其性能可与具有 10–20× 更多活跃参数的模型相媲美。基准
Qwen3-Coder-Next (80B)
DeepSeek-V3.2 (671B)
Terminal-Bench 2.0(含 Terminus-2 json)
70.6
70.2
74.2
74.8
Aider
62.8
62.3
63.7
66.2
Aider
44.3
40.9
40.6
34.6
Aider
36.2
39.3
37.1
32.6
Aider
66.2
69.9
52.1
61.0



最后更新于
这有帮助吗?

