💜Qwen3.6 - 如何本地运行

在本地运行新的 Qwen3.6-27B 和 35B-A3B 模型!

Qwen3.6 是阿里巴巴全新的多模态混合推理模型家族,其中包括 Qwen3.6-35B-A3B。它在同等规模下提供顶级性能,支持跨 201 种语言的 256K 上下文,并提供思考与非思考两种模式。它在 agentic 编码、视觉和聊天任务上表现出色。 35B-A3B GGUF 可在配备 22GB 内存的 Mac 上运行。

运行 Qwen3.6 教程

上传使用 Unsloth 动态 2.0 用于 SOTA 量化性能——因此量化会在真实使用场景数据集上进行校准,并且重要层会被上采样。感谢 Qwen 为 Unsloth 提供了首日访问权限。

⚙️ 使用指南

表:推理硬件需求 (单位 = 总内存:RAM + VRAM,或统一内存)

Qwen3.6
3 位
4 位
6 位
8 位
BF16

17 GB

23 GB

30 GB

38 GB

70 GB

推荐设置

  • 最大上下文窗口: 262,144 (可通过 YaRN 扩展到 1M)

  • presence_penalty = 0.0 到 2.0 默认情况下此项关闭,但为了减少重复,你可以使用它;不过使用更高的值可能会导致 性能略有下降

  • 足够的输出长度: 32,768 适用于大多数查询的 tokens

如果你得到的是乱码,可能是上下文长度设置得太低。或者尝试使用 --cache-type-k bf16 --cache-type-v bf16 这可能会有所帮助。

由于 Qwen3.6 采用混合推理,思考和非思考模式的设置不同:

思考模式:

通用任务
精确编码任务(例如 WebDev)

temperature = 1.0

temperature = 0.6

top_p = 0.95

top_p = 0.95

top_k = 20

top_k = 20

min_p = 0.0

min_p = 0.0

presence_penalty = 1.5

presence_penalty = 0.0

repeat penalty = 禁用 或 1.0

repeat penalty = 禁用 或 1.0

用于通用任务的思考模式:

用于精确编码任务的思考模式:

Instruct(非思考)模式设置:

通用任务
推理任务

temperature = 0.7

temperature = 1.0

top_p = 0.8

top_p = 0.95

top_k = 20

top_k = 20

min_p = 0.0

min_p = 0.0

presence_penalty = 1.5

presence_penalty = 1.5

repeat penalty = 禁用 或 1.0

repeat penalty = 禁用 或 1.0

用于通用任务的 Instruct(非思考)模式:

用于推理任务的 Instruct(非思考)模式:

Qwen3.6 推理教程:

我们将使用动态 4 位 UD_Q4_K_XL 用于推理工作负载的 GGUF 变体。点击下方可跳转到指定模型说明:

在 Unsloth Studio 中运行在 llama.cpp 中运行

🦥 Unsloth Studio 指南

Qwen3.6 可以在以下环境中运行和微调: Unsloth Studio,我们新的本地 AI 开源网页界面。Unsloth Studio 让你可以在以下系统本地运行模型: MacOS、Windows、Linux,以及:

1

安装 Unsloth

在终端中运行:

MacOS、Linux、WSL:

Windows PowerShell:

2

启动 Unsloth

MacOS、Linux、WSL 和 Windows:

然后打开 http://localhost:8888 (或你的特定 URL)在浏览器中。

3

搜索并下载 Qwen3.6

首次启动时,你需要创建一个密码来保护你的账户,并在稍后重新登录。随后你会看到一个简短的引导向导,用于选择模型、数据集和基本设置。你可以随时跳过它。

然后前往 Studio Chat 标签页,在搜索栏中搜索 Qwen3.6,并下载你想要的模型和量化版本。

4

运行 Qwen3.6

在使用 Unsloth Studio 时,推理参数应会自动设置,不过你仍然可以手动更改。你也可以编辑上下文长度、聊天模板和其他设置。

更多信息可查看我们的 Unsloth Studio 推理指南.

🦙 Llama.cpp 指南

Qwen3.6-35B-A3B

在本指南中,我们将使用动态 4 位,它在 24GB RAM / Mac 设备上运行得非常好,适合快速推理。由于该模型在完整 F16 精度下大小只有约 72GB,我们不必太担心性能。GGUF: Qwen3.6-35B-A3B-GGUF

对于这些教程,我们将使用 llama.cpp 用于快速本地推理,尤其是如果你有 CPU。

🦙 Llama-server 服务与 OpenAI 的 completion 库

要将 Qwen3.6 部署到生产环境,我们使用 llama-server 在一个新的终端中,例如通过 tmux,使用以下命令部署模型:

然后在一个新的终端中,在执行以下命令后: pip install openai,执行:

💡 如何启用或禁用思考

Unsloth Studio 默认会为思考模型自动提供一个“Think”切换开关。

在 llama.cpp 中,你可以按照以下命令启用或禁用思考。将 'true' 和 'false' 互换使用。

下面查看在以下环境中启用 / 禁用思考的代码示例: llama-server:

Unsloth Studio 默认带有 Think 切换开关
llama-server 操作系统:
启用思考
禁用思考

Linux、MacOS、WSL:

Windows / Powershell:

例如,对于 Qwen3.6-35B-A3B,要禁用思考(默认启用):

然后在 Python 中:

👨‍💻 OpenAI Codex 与 Claude Code

要通过本地编码 agentic 工作负载运行该模型,你可以 按照我们的指南。只需将模型名称改为你的 “Qwen3.6” 变体,并确保遵循正确的 Qwen3.6 参数和使用说明。使用我们刚刚设置好的 llama-server

例如,按照 Claude Code 的说明后,你会看到:

然后我们可以提问,例如 创建一个 Python 国际象棋游戏 :

📊 基准测试

Unsloth GGUF 基准测试

Qwen3.6-35-A3B GGUF 的 KL 散度基准将更新于此。以下是我们之前针对 Qwen3.5 的结果:

35B-A3B - KLD 基准(越低越好)

由于 Qwen3.6 与 Qwen3.5 具有相同的架构,你可以参考我们之前的 Qwen3.5 基准测试:

Qwen3.5 GGUF 基准测试

官方 Qwen 基准测试

Qwen3.6-35B-A3B

最后更新于

这有帮助吗?