For the complete documentation index, see llms.txt. This page is also available as Markdown.

🌠Qwen3-Coder-Next:如何在本地运行

在你的设备上本地运行 Qwen3-Coder-Next 的指南!

Qwen 发布 Qwen3-Coder-Next,这是一款 80B MoE 模型(3B 激活参数),具备 256K 上下文 用于快速的智能体编码和本地使用。其性能可与激活参数多出 10–20 倍的模型相媲美。

它可运行在 46GB RAM/VRAM/统一内存(8-bit 需要 85GB)上,并且是非推理模式,可实现超快的代码响应。该模型在长程推理、复杂工具使用以及从执行失败中恢复方面表现出色。

你还将学习如何在 Codex 和 Claude Code 上运行该模型。对于 微调,Qwen3-Next-Coder 可在 Unsloth 中的单张 B200 GPU 上进行 bf16 LoRA 训练。

Qwen3-Coder-Next Unsloth 动态 GGUF 运行: unsloth/Qwen3-Coder-Next-GGUF

运行 GGUF 教程Codex 和 Claude CodeFP8 vLLM 教程

⚙️ 使用指南

没有 46GB RAM 或统一内存?没关系,你可以运行我们更小的量化版本,比如 3-bit。最好使模型大小 = 你的计算资源总和( 磁盘空间 + RAM + VRAM ≥ 量化版本大小)。 如果你的量化版本完全适配设备,预期可达 20+ tokens/s。如果不完全适配,它仍然可以通过卸载运行,但会更慢。

为获得最佳性能,Qwen 建议使用以下设置:

  • Temperature = 1.0

  • Top_P = 0.95

  • Top_K = 40

  • Min_P = 0.01 (llama.cpp 的默认值是 0.05)

  • 重复惩罚 = 禁用 或 1.0

支持最多 262,144 个上下文,原生支持,但你可以将其设置为 32,768 tokens,以减少内存使用。

🖥️ 运行 Qwen3-Coder-Next

根据你的使用场景,你需要使用不同的设置。由于本指南使用 4-bit,你将需要大约 46GB RAM/统一内存。我们建议至少使用 3-bit 精度以获得最佳性能。

🦥 Unsloth Studio 指南

Qwen3-Coder-Next 可以在以下环境中运行并微调: Unsloth Studio,我们新的用于本地 AI 的开源网页界面。使用 Unsloth Studio,你可以在以下平台本地运行模型: MacOS、Windows、Linux 和:

1

安装 Unsloth

在你的终端中运行:

MacOS、Linux、WSL:

Windows PowerShell:

2

启动 Unsloth

MacOS、Linux、WSL 和 Windows:

然后在浏览器中打开 http://localhost:8888

3

搜索并下载 Qwen3-Coder-Next

首次启动时,你需要创建一个密码来保护你的账户,并在之后重新登录。随后你会看到一个简短的引导向导,用于选择模型、数据集和基础设置。你可以随时跳过并直接进入聊天。

然后前往 Studio Chat 标签页并搜索 Qwen3-Coder-Next 在搜索栏中输入,并下载你想要的模型和量化版本。

4

运行 Qwen3-Coder-Next

在使用 Unsloth Studio 时,推理参数应会自动设置,不过你仍然可以手动更改。你也可以编辑上下文长度、聊天模板和其他设置。

如需更多信息,你可以查看我们的 Unsloth Studio 推理指南.

Llama.cpp 教程(GGUF):

在 llama.cpp 中运行的说明(注意我们将使用 4 位以适配大多数设备):

1

获取最新的 llama.cppGitHub 这里。你也可以按照下面的构建说明操作。将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU,或者只想进行 CPU 推理。 对于 Apple Mac / Metal 设备,设置 -DGGML_CUDA=OFF 然后照常继续——Metal 支持默认开启。

2

你可以直接从 Hugging Face 拉取。如果你的 RAM/VRAM 足够,可以将上下文增至 256K。使用 --fit on 也会自动确定上下文长度。

你可以使用推荐参数: temperature=1.0, top_p=0.95, top_k=40

3

通过以下方式下载模型(在安装 pip install huggingface_hub之后)。你可以选择 UD-Q4_K_XL 或其他量化版本。如果下载卡住,请查看 Hugging Face Hub,XET 调试

4

然后以对话模式运行模型:

另外,请按需调整 上下文窗口 按需,最多到 262,144

注意:此模型仅支持非思考模式,并且不会生成 <think></think> 块作为输出。因此,指定 enable_thinking=False 已不再需要。

🦙Llama-server 服务与部署

要将 Qwen3-Coder-Next 部署到生产环境,我们使用 llama-server 在新终端中,例如通过 tmux。然后,通过以下命令部署模型:

然后在一个新终端中,在执行 pip install openai,我们可以运行该模型:

输出如下:

我们提取了 HTML 并运行了它,生成的示例 Flappy Bird 游戏运行得很好!

👾 OpenAI Codex 和 Claude Code

要通过本地编码智能体工作负载运行该模型,你可以 按照我们的指南。只需将模型名称 'GLM-4.7-Flash' 改为 'Qwen3-Coder-Next',并确保遵循正确的 Qwen3-Coder-Next 参数和使用说明。使用 llama-server 我们刚刚设置好的。

例如,按照 Claude Code 的说明后,你会看到:

然后我们可以问例如 创建一个 Python 国际象棋游戏 :

如果你看到 API Error: 400 {"error":{"code":400,"message":"request (16582 tokens) exceeds the available context size (16384 tokens), try increasing it","type":"exceed_context_size_error","n_prompt_tokens":16582,"n_ctx":16384}} 这意味着你需要增加上下文长度,或者查看 Qwen3-Coder-Next

🎱 vLLM 中的 FP8 Qwen3-Coder-Next

你现在可以使用我们新的 FP8 Dynamic 量化版本 的模型,来获得高性能且快速的推理。首先从 nightly 安装 vLLM。将 --extra-index-url https://wheels.vllm.ai/nightly/cu130 改为你的 CUDA 版本,可通过以下命令查看: nvidia-smi - 目前仅 cu129cu130 受支持。

然后提供服务 该模型的 Unsloth 动态 FP8 版本 。你也可以通过添加以下内容启用 FP8,将 KV cache 内存使用量减少 50%: --kv-cache-dtype fp8 我们在 4 张 GPU 上部署了它,但如果你只有 1 张 GPU,请使用 CUDA_VISIBLE_DEVICES='0' 并设置 --tensor-parallel-size 1 ,或者移除此参数。使用 tmux 在新终端中启动下面的内容,然后按 CTRL+B+D - 使用 tmux attach-session -t0 返回。

你应该会看到类似下面的内容。请参见 Qwen3-Coder-Next 了解如何使用 OpenAI API 和工具调用实际使用 Qwen3-Coder-Next——这适用于 vLLM 和 llama-server。

🔧使用 Qwen3-Coder-Next 进行工具调用

在一个新终端中,我们创建一些工具,例如两个数字相加、执行 Python 代码、执行 Linux 函数等等:

然后我们使用下面的函数(复制并粘贴执行),它会自动解析函数调用,并为任何模型调用 OpenAI 端点:

现在我们将在下面展示多种针对不同用例运行工具调用的方法:

执行生成的 Python 代码

执行任意终端函数

我们确认文件已创建,而且确实创建了!

查看 Tool Calling Guide 查看更多工具调用示例。

📐基准测试

GGUF 量化基准

以下是由第三方评估者进行的一些量化基准测试。

Aider Polyglot 基准
Benjamine Marie 基准(来源)

这些基准由第三方贡献者在 Aider Polyglot 服务器上运行,将 Unsloth GGUF 量化版本与 Aider Polyglot 基准进行比较(得分 vs. VRAM)。值得注意的是,3-bit UD-IQ3_XXS 量化版本接近 BF16 性能,使 3-bit 成为一个合理的最低选择 ,适用于大多数用例。

NVFP4 略微优于 BF16 参考值,这可能是由于运行次数有限导致的采样噪声;不过,整体趋势: 1-bit → 2-bit → 3-bit → 6-bit 稳步提升,说明该基准捕捉到了 Unsloth GGUF 之间有意义的质量差异。 非 Unsloth FP8 的表现似乎同时不如 UD-IQ3_XXSUD-Q6_K_XL,这可能反映了量化流程的差异,或者仍然是采样不足所致。

Benjamin Marie(第三方)进行了基准测试 Qwen3-Coder-Next 在一个上使用 Unsloth 和 Qwen GGUF 750 提示混合套件 (LiveCodeBench v6、MMLU Pro、GPQA、Math500),同时报告了 总体准确率相对错误增加 (量化模型相较原始模型更频繁出错的程度)。

图表清楚地表明,Unsloth 的 Q4_K_M 量化版本优于标准 Q4_K_M。Q3_K_M 在 Live Code Bench v6 上表现不佳,这是预期之中的,但在 HumanEval 上却比标准 Q4_K_M 好得多。 它似乎以最高效率运行,建议至少使用 Q4_K_M。

Qwen3-Coder-Next 基准

Qwen3-Coder-Next 是其尺寸下表现最好的模型,其性能可与激活参数多出 10–20 倍的模型相媲美。

基准
Qwen3-Coder-Next(80B)
DeepSeek-V3.2(671B)
GLM-4.7(358B)
MiniMax M2.1(229B)

SWE-Bench Verified(使用 SWE-Agent)

70.6

70.2

74.2

74.8

SWE-Bench Multilingual(使用 SWE-Agent)

62.8

62.3

63.7

66.2

SWE-Bench Pro(使用 SWE-Agent)

44.3

40.9

40.6

34.6

Terminal-Bench 2.0(使用 Terminus-2 json)

36.2

39.3

37.1

32.6

Aider

66.2

69.9

52.1

61.0

最后更新于

这有帮助吗?