🌠Qwen3-2507:本地运行指南
在您的设备上本地运行 Qwen3-30B-A3B-2507 以及 235B-A22B 的 Thinking 与 Instruct 版本!
Qwen 在 2507(2025 年 7 月)发布了他们的 Qwen3 4B、30B 和 235B 模型的更新,引入了“思考型”和“非思考型”两种变体。非思考型 'Qwen3-30B-A3B-Instruct-2507' 和 'Qwen3-235B-A22B-Instruct-2507' 具有 256K 的上下文窗口、改进的指令遵循、多语言能力和对齐。
思考型模型 'Qwen3-30B-A3B-Thinking-2507' 和 'Qwen3-235B-A22B-Thinking-2507' 在推理方面表现出色,235B 在逻辑、数学、科学、编码和高级学术任务上达到了最先进(SOTA)的结果。
Unsloth 现在也支持微调和 强化学习(RL) 针对 Qwen3-2507 模型——速度提高 2 倍,显存减少 70%,并支持 8 倍更长的上下文长度
运行 30B-A3B运行 235B-A22B微调 Qwen3-2507
Unsloth Dynamic 2.0 GGUF 文件:
Qwen3-4B-2507
Qwen3-30B-A3B-2507
Qwen3-235B-A22B-2507
⚙️ 最佳实践
思考型和指令型模型的设置不同。 思考型模型使用 temperature = 0.6,但指令型模型使用 temperature = 0.7 思考型模型使用 top_p = 0.95,但指令型模型使用 top_p = 0.8
为了获得最佳性能,Qwen 推荐以下设置:
Temperature = 0.7
Temperature = 0.6
Min_P = 0.00 (llama.cpp 的默认值为 0.1)
Min_P = 0.00 (llama.cpp 的默认值为 0.1)
Top_P = 0.80
Top_P = 0.95
TopK = 20
TopK = 20
presence_penalty = 0.0 到 2.0 (llama.cpp 默认关闭该项,但若要减少重复,可以使用该设置)
presence_penalty = 0.0 到 2.0 (llama.cpp 默认关闭该项,但若要减少重复,可以使用该设置)
适当的输出长度:对于大多数查询,思考变体请使用 32,768 对于大多数查询的令牌数,已足够满足大多数查询需求。
思考(Thinking)(思考包含 <think></think>)和指令(Instruct)两者的聊天模板如下:
📖 运行 Qwen3-30B-A3B-2507 教程
下面是该 思考(Thinking) 和 指令(Instruct) 版本模型的指南。
指令型:Qwen3-30B-A3B-Instruct-2507
鉴于这是非思考型模型,无需设置 thinking=False 并且模型不会生成 <think> </think> 块(blocks)。
⚙️ 最佳实践
为了获得最佳性能,Qwen 建议以下设置:
我们建议使用
temperature=0.7, top_p=0.8, top_k=20, and min_p=0.0presence_penalty在 0 到 2 之间(如果框架支持)以减少无尽的重复。temperature = 0.7top_k = 20min_p = 0.00(llama.cpp 的默认值为 0.1)top_p = 0.80presence_penalty = 0.0 到 2.0(llama.cpp 的默认会关闭,但若要减少重复,你可以使用此设置)例如可尝试 1.0。原生支持最多
262,144上下文,但你可以将其设为32,768令牌以减少内存使用
🦙 Ollama:运行 Qwen3-30B-A3B-Instruct-2507 教程
安装
ollama如果你还没有运行!你只能运行最多 32B 的模型。
运行模型!注意如果失败您可以在另一个终端调用
ollama serve!我们在 Hugging Face 上传中包含了所有修复和建议的参数(温度等),位于params!
✨ Llama.cpp:运行 Qwen3-30B-A3B-Instruct-2507 教程
获取最新的
llama.cpp在 GitHub(此处)。您也可以按照下面的构建说明。若没有 GPU 或仅想用 CPU 推理,请将-DGGML_CUDA=ON改为-DGGML_CUDA=OFF。
您可以直接通过 HuggingFace 拉取:
通过以下方式下载模型(在安装
pip install huggingface_hub hf_transfer)。你可以选择 UD_Q4_K_XL 或其他量化版本。
思考型:Qwen3-30B-A3B-Thinking-2507
该模型原生仅支持思考模式并具有 256K 上下文窗口。默认聊天模板会自动添加 <think> ,所以你可能只会在输出中看到一个闭合的 </think> 标签。
⚙️ 最佳实践
为了获得最佳性能,Qwen 建议以下设置:
我们建议使用
temperature=0.6, top_p=0.95, top_k=20, and min_p=0.0presence_penalty在 0 到 2 之间(如果框架支持)以减少无尽的重复。temperature = 0.6top_k = 20min_p = 0.00(llama.cpp 的默认值为 0.1)top_p = 0.95presence_penalty = 0.0 到 2.0(llama.cpp 的默认会关闭,但若要减少重复,你可以使用此设置)例如可尝试 1.0。原生支持最多
262,144上下文,但你可以将其设为32,768令牌以减少内存使用
🦙 Ollama:运行 Qwen3-30B-A3B-Instruct-2507 教程
安装
ollama如果你还没有运行!你只能运行最多 32B 的模型。要运行完整的 235B-A22B 模型, 请查看此处.
运行模型!注意如果失败您可以在另一个终端调用
ollama serve!我们在 Hugging Face 上传中包含了所有修复和建议的参数(温度等),位于params!
✨ Llama.cpp:运行 Qwen3-30B-A3B-Instruct-2507 教程
获取最新的
llama.cpp在 GitHub(此处)。您也可以按照下面的构建说明。若没有 GPU 或仅想用 CPU 推理,请将-DGGML_CUDA=ON改为-DGGML_CUDA=OFF。
你可以直接通过 Hugging Face 拉取:
通过以下方式下载模型(在安装
pip install huggingface_hub hf_transfer)。你可以选择 UD_Q4_K_XL 或其他量化版本。
📖 运行 Qwen3-235B-A22B-2507 教程
下面是该 思考(Thinking) 和 指令(Instruct) 版本模型的指南。
思考型:Qwen3-235B-A22B-Thinking-2507
该模型原生仅支持思考模式并具有 256K 上下文窗口。默认聊天模板会自动添加 <think> ,所以你可能只会在输出中看到一个闭合的 </think> 标签。
⚙️ 最佳实践
为了获得最佳性能,Qwen 建议为思考型模型使用以下设置:
temperature = 0.6top_k = 20min_p = 0.00(llama.cpp 的默认值为 0.1)top_p = 0.95presence_penalty = 0.0 到 2.0(llama.cpp 的默认会关闭,但若要减少重复,你可以使用此设置)例如可尝试 1.0。适当的输出长度:对于大多数查询,思考变体请使用
32,768对于大多数查询的令牌数,已足够满足大多数查询需求。
✨通过 llama.cpp 运行 Qwen3-235B-A22B-Thinking:
对于 Qwen3-235B-A22B,我们将专门使用 Llama.cpp 以优化推理并提供大量选项。
如果你想要一个 全精度未量化版本,请使用我们的 Q8_K_XL、Q8_0 或 BF16 版本!
获取最新的
llama.cpp在 GitHub(此处)。您也可以按照下面的构建说明。若没有 GPU 或仅想用 CPU 推理,请将-DGGML_CUDA=ON改为-DGGML_CUDA=OFF。你可以直接使用 llama.cpp 下载模型,但我通常建议使用
huggingface_hub要直接使用 llama.cpp,请执行:通过以下方式下载模型(在安装
pip install huggingface_hub hf_transfer)。你可以选择 UD-Q2_K_XL 或其他量化版本。运行模型并尝试任何提示(prompt)。
编辑
--threads -1以设置 CPU 线程数,--ctx-size262114 作为上下文长度,--n-gpu-layers 99以设置多少层使用 GPU 卸载。如果 GPU 出现内存不足,请尝试调整它。如果仅使用 CPU 推理,请移除它。
使用 -ot ".ffn_.*_exps.=CPU" 将所有 MoE 层卸载到 CPU!这实际上允许您将所有非 MoE 层放入 1 块 GPU,从而提高生成速度。如果您有更多 GPU 容量,可以自定义正则表达式以适配更多层。
指令型:Qwen3-235B-A22B-Instruct-2507
鉴于这是非思考型模型,无需设置 thinking=False 并且模型不会生成 <think> </think> 块(blocks)。
⚙️ 最佳实践
为了获得最佳性能,我们建议以下设置:
1. 采样参数:我们建议使用 temperature=0.7、top_p=0.8、top_k=20,以及 min_p=0。 presence_penalty 在 0 到 2 之间(如果框架支持)以减少无尽的重复。
2. 适当的输出长度:我们建议使用输出长度为 16,384 令牌,适用于大多数查询,这对指令型模型来说是足够的。
3. 标准化输出格式: 在基准测试时,我们建议使用提示语来标准化模型输出。
数学问题:包含
请逐步推理,并将最终答案放入 \boxed{} 中。在提示中。多项选择题:在提示中加入以下 JSON 结构以标准化响应:"请在 `answer` 字段中仅显示选择字母,例如,`"answer": "C"。
✨通过 llama.cpp 运行 Qwen3-235B-A22B-Instruct:
对于 Qwen3-235B-A22B,我们将专门使用 Llama.cpp 以优化推理并提供大量选项。
{% hint style="success" %} 如果你想要一个 全精度未量化版本,请使用我们的 Q8_K_XL、Q8_0 或 BF16 版本! {% endhint %}
获取最新的 `
llama.cpp在 [GitHub 这里](https://github.com/ggml-org/llama.cpp)。你也可以按照下面的构建说明进行。若没有 GPU 或仅想要 CPU 推理,请更改-DGGML_CUDA=ON改为-DGGML_CUDA=OFF`。
2. 你可以直接使用 llama.cpp 下载模型,但我通常建议使用 huggingface_hub 要直接使用 llama.cpp,请执行:\
3. 通过以下方式下载模型(在安装之后 pip install huggingface_hub hf_transfer )。你可以选择 UD-Q2_K_XL 或其他量化版本。
4. 运行模型并尝试任何提示。 5. 编辑 --threads -1 以设置 CPU 线程数, --ctx-size 262114 作为上下文长度, --n-gpu-layers 99 以设置多少层使用 GPU 卸载。如果 GPU 出现内存不足,请尝试调整它。如果仅使用 CPU 推理,请移除它。
使用 -ot ".ffn_.*_exps.=CPU" 将所有 MoE 层卸载到 CPU!这实际上允许您将所有非 MoE 层放入 1 块 GPU,从而提高生成速度。如果您有更多 GPU 容量,可以自定义正则表达式以适配更多层。
🛠️ 提升生成速度
如果你有更多显存,可以尝试卸载更多 MoE 层,或将整层卸载。
通常, -ot ".ffn_.*_exps.=CPU" 会将所有 MoE 层卸载到 CPU!这实际上允许你将所有非 MoE 层放到 1 块 GPU 上,从而提高生成速度。如果你有更多的 GPU 容量,可以自定义正则表达式以卸载更多层。
如果你有稍多的 GPU 显存,尝试 -ot ".ffn_(up|down)_exps.=CPU" 此命令会卸载上投影和下投影的 MoE 层。
尝试 -ot ".ffn_(up)_exps.=CPU" 如果你有更多的 GPU 显存。此命令仅卸载上投影的 MoE 层。
你也可以自定义正则,例如 -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" 表示从第 6 层起卸载 gate、up 和 down 的 MoE 层。
最新的 llama.cpp 发布版 也引入了高吞吐量模式。使用 llama-parallel。在 这里可以了解更多信息。你也可以 例如将 KV 缓存量化到 4 位 以减少 VRAM / RAM 的移动,这也可以加快生成过程。下一节 将讨论 KV 缓存量化。
📐 如何适配长上下文
要适配更长的上下文,你可以使用 KV 缓存量化 将 K 和 V 缓存量化到更低位数。这也可以由于减少 RAM / VRAM 数据移动而提高生成速度。K 量化的允许选项(默认是 f16)包括以下内容。
--cache-type-k f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1
你应该使用 _1 变体以获得略高的准确性,尽管它会稍微慢一些。例如 q4_1, q5_1 所以尝试 --cache-type-k q4_1
你也可以量化 V 缓存,但你需要 使用 Flash Attention 编译 llama.cpp 支持,方法是 -DGGML_CUDA_FA_ALL_QUANTS=ON,并使用 --flash-attn 来启用它。安装 Flash Attention 之后,你就可以使用 --cache-type-v q4_1
🦥 使用 Unsloth 对 Qwen3-2507 进行微调
Unsloth 使得 Qwen3 并使 Qwen3-2507 的微调速度提高 2 倍,显存使用减少 70%,并支持 8 倍更长的上下文长度。由于 Qwen3-2507 仅以 30B 变体发布,这意味着使用 QLoRA(4 位)微调模型时,你需要大约 40GB 的 A100 GPU。
对于笔记本,由于模型无法装入 Colab 的免费 16GB GPU,你需要使用 40GB 的 A100。你可以使用我们的对话笔记本,但将数据集替换为你自己的任意数据集。这次你不需要在数据集中合并推理,因为该模型没有推理能力。
如果你有旧版本的 Unsloth 和/或在本地进行微调,请安装最新版本的 Unsloth:
Qwen3-2507 MOE 模型微调
微调支持包括 MOE 模型:30B-A3B 和 235B-A22B。Qwen3-30B-A3B 在 Unsloth 下可在 30GB 显存上运行。对于微调 MoE——微调路由器层可能不是一个好主意,因此我们默认将其禁用。
Qwen3-2507-4B 的笔记本用于: 思考(Thinking) 和 指令(Instruct)
30B-A3B 可在 30GB 显存中运行,但你可能缺乏 RAM 或磁盘空间,因为必须下载完整的 16 位模型并在运行时将其转换为 4 位以用于 QLoRA 微调。这是由于无法直接导入 4 位 BnB MOE 模型的问题。此问题仅影响 MOE 模型。
如果你正在微调 MOE 模型,请使用 FastModel 而不是 FastLanguageModel

最后更新于
这有帮助吗?

