🌠Qwen3-Next:本地运行指南
在你的设备上本地运行 Qwen3-Next-80B-A3B-Instruct 和 Thinking 版本!
Qwen 于 2025 年 9 月发布了 Qwen3-Next,它们是 80B MoE,具有 Thinking 和 Instruct 两个模型变体, Qwen3。在 256K 上下文下,Qwen3-Next 采用了全新架构设计(MoE 与 Gated DeltaNet + Gated Attention 的混合),专门针对更长上下文长度上的快速推理进行了优化。Qwen3-Next 的推理速度比 Qwen3-32B 快 10 倍。
运行 Qwen3-Next Instruct运行 Qwen3-Next Thinking
Qwen3-Next-80B-A3B 动态 GGUF: Instruct • Thinking
⚙️ 使用指南
截至 2025 年 12 月 6 日更新:Unsloth Qwen3-Next 现已使用 iMatrix 更新,以提升性能。
thinking 模型使用 temperature = 0.6,而 instruct 模型使用 temperature = 0.7
thinking 模型使用 top_p = 0.95,而 instruct 模型使用 top_p = 0.8
为获得最佳性能,Qwen 建议使用以下设置:
Temperature = 0.7
Temperature = 0.6
Min_P = 0.00 (llama.cpp 的默认值是 0.1)
Min_P = 0.00 (llama.cpp 的默认值是 0.1)
Top_P = 0.80
Top_P = 0.95
TopK = 20
TopK = 20
presence_penalty = 0.0 到 2.0 (llama.cpp 默认会将其关闭,但为了减少重复,你可以使用这个设置)
presence_penalty = 0.0 到 2.0 (llama.cpp 默认会将其关闭,但为了减少重复,你可以使用这个设置)
足够的输出长度:对于大多数查询,thinking 变体使用 32,768 个 token,而 instruct 变体使用 16,384 个 token。如有必要,你可以增加 thinking 模型的最大输出大小。
两者的聊天模板(thinking 有 <think></think>)和 Instruct 如下:
<|im_start|>user
嘿!<|im_end|>
<|im_start|>assistant
1+1 等于多少?<|im_end|>
<|im_start|>user
2<|im_end|>
<|im_start|>assistant📖 运行 Qwen3-Next 教程
以下是针对该模型 Thinking 和 Instruct 各版本的指南。
Instruct: Qwen3-Next-80B-A3B-Instruct
鉴于这是一个非 thinking 模型,模型不会生成 <think> </think> 块。
⚙️最佳实践
为获得最佳性能,Qwen 建议采用以下设置:
我们建议使用
temperature=0.7, top_p=0.8, top_k=20, 以及 min_p=0.0presence_penalty在 0 到 2 之间,如果框架支持,以减少无尽重复。temperature = 0.7top_k = 20min_p = 0.00(llama.cpp 的默认值是 0.1)top_p = 0.80presence_penalty = 0.0 到 2.0(llama.cpp 默认会将其关闭,但为了减少重复,你可以使用这个设置)例如可以试试 1.0。支持最多
262,144个上下文,原生支持,但你可以将其设置为32,768个 token,以减少 RAM 使用
✨ Llama.cpp:运行 Qwen3-Next-80B-A3B-Instruct 教程
获取最新的
llama.cpp在 GitHub 这里。你也可以按照下面的构建说明操作。将-DGGML_CUDA=ON改为-DGGML_CUDA=OFF如果你没有 GPU,或者只想进行 CPU 推理。 对于 Apple Mac / Metal 设备,设置-DGGML_CUDA=OFF然后照常继续——Metal 支持默认开启。
你可以直接通过 HuggingFace 拉取:
通过以下方式下载模型(在安装
pip install huggingface_hub hf_transfer之后)。你可以选择UD_Q4_K_XL或其他量化版本。
Thinking: Qwen3-Next-80B-A3B-Thinking
此模型仅支持 thinking 模式,并原生支持 256K 上下文窗口。默认聊天模板会自动添加 <think> ,因此你在输出中可能只会看到一个结尾的 </think> 标签。
⚙️最佳实践
为获得最佳性能,Qwen 建议采用以下设置:
我们建议使用
temperature=0.6, top_p=0.95, top_k=20, 以及 min_p=0.0presence_penalty在 0 到 2 之间,如果框架支持,以减少无尽重复。temperature = 0.6top_k = 20min_p = 0.00(llama.cpp 的默认值是 0.1)top_p = 0.95presence_penalty = 0.0 到 2.0(llama.cpp 默认会将其关闭,但为了减少重复,你可以使用这个设置)例如可以试试 1.0。支持最多
262,144个上下文,原生支持,但你可以将其设置为32,768个 token,以减少 RAM 使用
✨ Llama.cpp:运行 Qwen3-Next-80B-A3B-Thinking 教程
获取最新的
llama.cpp在 GitHub 这里。你也可以按照下面的构建说明操作。将-DGGML_CUDA=ON改为-DGGML_CUDA=OFF如果你没有 GPU,或者只想进行 CPU 推理。
你可以通过以下方式直接从 Hugging Face 拉取:
通过以下方式下载模型(在安装
pip install huggingface_hub hf_transfer之后)。你可以选择UD_Q4_K_XL或其他量化版本。
🛠️ 提升生成速度
如果你有更多 VRAM,可以尝试卸载更多 MoE 层,或直接卸载整个层。
通常, -ot ".ffn_.*_exps.=CPU" 会将所有 MoE 层卸载到 CPU!这实际上允许你将所有非 MoE 层放到 1 张 GPU 上,从而提高生成速度。如果你有更多 GPU 容量,可以自定义正则表达式以适配更多层。
如果你的 GPU 内存再多一些,尝试 -ot ".ffn_(up|down)_exps.=CPU" 这会卸载上、下投影 MoE 层。
再试试 -ot ".ffn_(up)_exps.=CPU" 如果你的 GPU 内存更多一些。这样只会卸载上投影 MoE 层。
你也可以自定义正则表达式,例如 -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" 表示从第 6 层开始卸载 gate、up 和 down MoE 层。
最新的 llama.cpp 版本 还引入了高吞吐模式。使用 llama-parallel。了解更多 这里。你还可以 将 KV 缓存量化为 4bits 例如可以减少 VRAM / RAM 之间的数据移动,这也能让生成过程更快。 下一节 将介绍 KV cache 量化。
📐如何适配长上下文
要适配更长上下文,你可以使用 KV 缓存量化 将 K 和 V 缓存量化到更低位数。由于减少了 RAM / VRAM 数据移动,这也可以提高生成速度。允许的 K 量化选项(默认是 f16)如下。
--cache-type-k f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1
你应该使用 _1 这些变体,以略微提高准确率,尽管会稍慢一些。例如 q4_1, q5_1 所以试试 --cache-type-k q4_1
你也可以量化 V 缓存,但你需要 通过以下方式编译带有 Flash Attention 支持的 llama.cpp : -DGGML_CUDA_FA_ALL_QUANTS=ON,并使用 --flash-attn 来启用它。安装 Flash Attention 后,你还可以使用 --cache-type-v q4_1

最后更新于
这有帮助吗?

