> For the complete documentation index, see [llms.txt](https://unsloth.ai/docs/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://unsloth.ai/docs/zh/xin/changelog.md).

# Unsloth 更新

要使用最新更改， [请更新 Unsloth](/docs/zh/xin/studio/install.md#update-unsloth-studio).

{% updates format="full" %}
{% update date="2026-06-18" tags="new-releases,v0.1.47-beta" %}

## GLM 5.2 + Hub + 3 倍更长上下文

[GLM-5.2](/docs/zh/mo-xing/glm-5.2.md) 现已在 Unsloth Studio 中支持！支持所有推理等级。 **3 倍更长的上下文长度** 现在借助我们带有 MTP 的新自动适配算法可以实现，这样可以支持更长的聊天。绕过权限模式、可分叉聊天、可排队聊天、用于模型发现的新 Hub、并行模块 + HTTPS Cloudflare 支持等更多功能！使用 `unsloth studio --secure` 即可安全地通过 HTTPS 全局访问！

<div data-with-frame="true"><img src="https://github.com/user-attachments/assets/93c18616-415f-48ea-957d-9e0fa97a45dd" alt="" width="563"></div>

#### 更好的上下文长度算法

根据 [PR 1](https://github.com/unslothai/unsloth/pull/6312) 和 [PR 2](https://github.com/unslothai/unsloth/pull/6447)，我们大幅改进了 Unsloth Studio 对内存使用和上下文长度的判断，使整体上下文可达 3 倍更长：

| 场景                     | KV    | 之前      | 之后      |
| ---------------------- | ----- | ------- | ------- |
| 1x 32GB 管线（约 31 GB 可用） | f16   | 23,040  | 64,000  |
|                        | q8\_0 | 43,520  | 114,944 |
|                        | q4\_0 | 82,432  | 199,680 |
| 2x 32GB 管线             | 任意    | 262,144 | 262,144 |
| 2x 24GB 张量（约 23 GB 可用） | f16   | 134,049 | 262,144 |
|                        | q8\_0 | 252,329 | 262,144 |

#### 聊天画布、分叉与排队

* 就地编辑助手消息，并从线程中的任意点重新运行。
* 分叉线程，以在不丢失原始对话的情况下分支出新的对话。
* 临时（隐身）聊天，不留任何痕迹。
* 当生成仍在运行时即可排队新提示，而不是等待。
* 聊天“产物”现在是 **画布**，并内嵌 **HTML 画布卡片** ，可自动渲染，带有代码视图，而 DiffusionGemma 会让其原始代码以内嵌方式保持可见，而不是折叠。
* 聊天搜索现在涵盖每一条消息，并优先显示你自己的消息。

#### Hub（重新设计）

* 全页 Hub，带有热门动态流、搜索功能和自定义模型路径支持。
* 在分栏视图信息流中预览 README，因此你可以在下载前先阅读。
* 下载默认使用更快的 **Xet** 传输，如果传输停滞则自动回退到 HTTP。
* 新增“在选择时加载”开关，可在模型加载前设置加载选项。
* DiffusionGemma 和未来的 Gemma 衍生模型会显示 Google 标志。

#### 模型与推理

* DeepSeek-OCR 和更多视觉模型现在可以无错误地加载和运行。
* 修复了最新 vLLM（0.22+）上的快速推理，使加速功能再次可用。
* 张量并行更可靠了：如果更快的 MTP 路径失败，现在会自动恢复，而不是崩溃。
* DiffusionGemma 现在会在去噪时实时显示图像生成过程，并提供准确的速度统计。

#### 安全与 Cloudflare 加密 Studio

* 新增 `--secure` 仅限 Cloudflare 模式，用于端到端加密的 Studio，同时服务端工具仍在 `--secure`下保持启用。使用 `unsloth studio --secure`!
* 绕过权限模式以跳过确认，并在你需要时禁用工具沙箱。
* 自动检测 Hugging Face 病毒扫描 + 仓库中的危险文件。

#### 日志与 API

* 新增 **API 服务器监视器** 在 Studio 中。
* 更快的 API 调用与更低延迟
* 日志大幅精简——现在包含吞吐量和延迟，并移除了大量冗余日志。

#### 硬件与后端

* 更好地支持 Blackwell RTX 50X 和 60X GPU
* 修复静默降级为 CPU 而不是 GPU
* torchao 版本现在根据已安装的 torch 自动选择。
* 安装器现在会自动修复损坏或仅 CPU 的 PyTorch 安装，并在 NVIDIA + AMD 的 Win/Linux/Mac/WSL 上警告静默回退到 CPU。
* 训练开始时释放聊天模型的 VRAM，但仅在 GPU 实际紧张时才会这样做（否则不会进行不必要的重新加载）。
* 如果 llama-server 在启动时严重崩溃，Studio 现在会沿着恢复流程逐步处理，而不只是失败。

#### 训练与常规修复与并行模块

* MLX 训练更新。
* 提升了带 vLLM 的 GRPO 训练可靠性。
* 训练启动更加可靠，并为无效的 VLM 批次提供了更清晰的错误信息。
* Studio 现在在崩溃、重启或中断关机后，会更可靠地清理残留的后端进程。
* 导出、聊天、训练、配方现在都彼此独立/分隔！这意味着你现在可以同时进行这 4 项！你可以在等待训练运行或导出时进行聊天/推理！

要更新 Unsloth 或安装新的 Unsloth Studio，你必须使用：

**macOS、Linux、WSL：**

```bash
curl -fsSL https://unsloth.ai/install.sh | sh
```

**Windows：**

```powershell
irm https://unsloth.ai/install.ps1 | iex
```

{% endupdate %}

{% update date="2026-06-12" tags="new-releases,v0.1464-beta" %}

## DiffusionGemma + Gemma 4 MTP

请确保安装最新的 [`v0.1.464-beta`](https://github.com/unslothai/unsloth/tree/v0.1.462-beta) 或 `2026.6.7`. [DiffusionGemma](https://unsloth.ai/docs/models/diffusiongemma), [Gemma 4 MTP](https://unsloth.ai/docs/models/mtp) 和 [**MiniMax-M3**](https://unsloth.ai/docs/models/minimax-m3) 现已全部支持。

* 运行和训练 [DiffusionGemma](https://unsloth.ai/docs/models/diffusiongemma) 通过 [Unsloth Studio](https://unsloth.ai/docs/new/studio).
* [Gemma 4 MTP](https://unsloth.ai/docs/models/mtp) 现已上线！运行 [Gemma 4](https://unsloth.ai/docs/models/gemma-4) 借助 MTP 速度约快 2 倍。
* Gemma 4 现已支持音频聊天（`wav`, `mp3`, `m4a`, `flac`, `webm`).
* Gemma 4 新增 Preserve Think。

<figure><img src="/files/1bbdb052f36c70a05af0a94756a76e8ee3fc3288" alt="" width="375"><figcaption></figcaption></figure>

#### Hub + 下载管理器（实验性）

* 新增了一个新的 **Hub** 页面，用于浏览、下载和管理 Hugging Face 模型与数据集。
* Unsloth 现在可以检测你机器上已存在的模型和数据集，并将它们与已下载资源一起显示。
* 已下载 [GGUF 模型](https://unsloth.ai/docs/basics/inference-and-deployment/saving-to-gguf) 现在有直接的 **运行 / 新聊天** 操作。

#### RAG / 文件聊天（实验性）

* 新增了 [**文件聊天**](https://unsloth.ai/docs/new/studio/chat) 到 Studio 中，让你能够针对自己的文档和知识库提问。
* 支持混合搜索、引用、PDF 预览、按线程文档，以及内置的 `search_knowledge_base` 工具。

#### 新的更新按钮 + 硬件支持

* Unsloth 现在始终使用最新的、持续更新的 [llama.cpp 预编译版本](https://unsloth.ai/docs/new/changelog) ，覆盖 CUDA、ROCm、Windows、Linux 和 macOS。
* 新增了应用内的 **更新 llama.cpp** 按钮，因此用户无需重新安装 Studio 即可更新本地后端。
* 改进了 Windows / WSL AMD 支持， [Strix Halo ROCm 支持](https://unsloth.ai/docs/get-started/install/amd), [Blackwell CUDA 选择](https://unsloth.ai/docs/blog/fine-tuning-llms-with-blackwell-rtx-50-series-and-unsloth)，以及更清晰的安装器信息。

#### 本地聊天、工具与 API 兼容性

* 本地 [工具调用](https://unsloth.ai/docs/basics/tool-calling-guide-for-local-llms) 更加可靠，工具卡片排序更好，重复工具循环更少，并支持在 GGUF 视觉模型中使用工具。
* 改进了 [OpenAI 兼容 API](https://unsloth.ai/docs/basics/inference-and-deployment/llama-server-and-openai-endpoint) 以及 Anthropic 兼容 API 在本地 Studio 服务器上的行为，包括更好的错误信息、令牌使用量、停止原因，以及 [Claude Code 兼容性](https://unsloth.ai/docs/basics/claude-code).

#### 训练与修复

* 改进了 [MLX 支持](https://unsloth.ai/docs/new/studio/install) ，带有更好的模型标签、生成速度统计，以及对 [VLM 训练](https://unsloth.ai/docs/basics/vision-fine-tuning).
* 修复了若干 [训练](https://unsloth.ai/docs/get-started/fine-tuning-llms-guide) 和 [数据集](https://unsloth.ai/docs/get-started/fine-tuning-llms-guide/datasets-guide) 边缘情况，包括不可写的 Hugging Face 缓存和自定义数据集映射。
* 在聊天、菜单、模型选择器、深色模式、导入/导出和设置方面加入了许多 UI 美化修复。

要更新 Unsloth 或安装新的 Unsloth Studio，你必须使用：

**macOS、Linux、WSL：**

```bash
curl -fsSL https://unsloth.ai/install.sh | sh
```

**Windows：**

```powershell
irm https://unsloth.ai/install.ps1 | iex
```

{% endupdate %}

{% update date="2026-06-03" tags="new-releases,v0.1.44-beta" %}

## Gemma 4 12B、新 UI、MCP、项目

本次更新主要聚焦于 Gemma 4 12B、MCP、项目、画布、CUDA 13.3 以及新的聊天 UI。下周我们会有更大的更新。

<div data-with-frame="true"><figure><img src="/files/ab4797a53a7e650b5bd6e31277a097bd31086b51" alt="" width="375"><figcaption></figcaption></figure></div>

#### Gemma 4 12B

Google 发布 [Gemma 4 12B](https://unsloth.ai/docs/models/gemma-4)，一个可在 8GB RAM 上本地运行的新模型。 [GGUF](https://huggingface.co/unsloth/gemma-4-12b-it-GGUF) / [指南](https://unsloth.ai/docs/models/gemma-4)

Gemma 4 12B Unified 支持图像、音频和 256K 上下文。可通过 Unsloth Studio 运行和训练该模型。

#### MCP

* 远程 `MCP` 服务器支持，包括自定义请求头和 OAuth
* 本地基于命令的 `MCP` 服务器支持
* `MCP` 现在可以从聊天编辑器中开启
* 常见 `MCP` 服务器的内置预设

#### 新的聊天 UI

* 项目、画布、 `MCP`、RAG 和对比控制现在都在加号菜单中
* 搜索和代码控制更容易从编辑器中访问
* Studio 中的菜单、覆盖层、图标和可点击控件更加一致

#### 项目

* 将相关聊天整理到专用的项目工作区中
* 将现有聊天移动到项目中
* 直接从侧边栏创建和管理项目

#### 实验性画布 / 产物

* 在 Unsloth Studio 中的专用画布面板里打开生成的 HTML
* 支持交互式输出，包括基于浏览器的可视化和通过 CDN 加载的包
* 可在渲染预览和源代码之间切换

#### 安装、运行时与硬件

* Windows 预编译安装现在不再需要早期的 `CUDA Toolkit` 检查
* Linux `llama.cpp` 预编译版本现在与检测到的运行时匹配 `cudart` 主版本
* `ROCm` gfx 检测会传递到预编译版本选择中
* `Blackwell`, `B300` 和 `ARM64` Linux 支持更新

要更新 Unsloth 或安装新的 Unsloth Studio，你必须使用：

**macOS、Linux、WSL：**

```bash
curl -fsSL https://unsloth.ai/install.sh | sh
```

**Windows：**

```powershell
irm https://unsloth.ai/install.ps1 | iex
```

{% hint style="warning" %}
**不要使用 `unsloth studio 更新` 了，因为打包版本将无法获得最新更新！**
{% endhint %}
{% endupdate %}

{% update date="2026-05-31" tags="new-releases,v0.1.43-beta" %}

## CUDA 13.3、Windows、Mac

**要更新 Unsloth 或安装新的 Unsloth Studio，你必须使用：**

**macOS、Linux、WSL：**

```bash
curl -fsSL https://unsloth.ai/install.sh | sh
```

**Windows：**

```powershell
irm https://unsloth.ai/install.ps1 | iex
```

{% hint style="warning" %}
**不要使用 `unsloth studio 更新` 了，因为打包版本将无法获得最新更新！**
{% endhint %}

#### Mac 更新

* 重新启用 `llama.cpp` Apple Silicon（M1-M4）的预编译二进制文件 - Mac OS 14 / 15 / 26（Tahoe）
* Apple Silicon Mac OS 13（Ventura）为源码构建
* Mac OS 13.3 / 14 / 15 / 26（Tahoe）的 Intel（x86\_64）使用 `llama.cpp` 预编译二进制文件
* Mac OS 13.0 - 13.2 的 Intel 为源码构建

#### Windows 更新

* CUDA 13.3 `llama.cpp` 预编译二进制文件现在可用于 Windows
* 对于 CUDA 13.2、CUDA 13.1 及以下版本，Windows 设备将使用 CUDA 12.4 回退——我们很快会为 CUDA 13.1 二进制文件做准备。

#### CUDA 13.3 更新

* CUDA 13.3 的非 Linux 二进制文件可用。我们暂时仍将使用 CUDA 13.1
* CUDA 13.3 解决了 CUDA 13.2 的乱码问题——见 <https://github.com/unslothai/unsloth/issues/4849>

#### Blackwell GPU 更新

* 目前 Blackwell 的 `llama.cpp` 预编译二进制文件发布会延后，因为 CUDA 12.4 不可用——我们正在尽快解决这个问题。
  {% endupdate %}

{% update date="2026-05-26" tags="new-releases,v0.1.42-beta" %}

## 重构前的更新。

嘿，大家，在即将到来的一次重大重构之前，我们还会再做一次接近最后的更新，这很可能会在本周或下周到来。我们的重构会改变很多东西，尤其是新的重大功能和大量设计变更。

{% embed url="<https://github.com/user-attachments/assets/70456395-e016-4273-8256-35adb206267e>" %}

* 新： [**API 调用支持**](https://unsloth.ai/docs/integrations/connections) 现在支持图像生成 + 编辑、真正的网页搜索、代码执行、自动提示缓存。连接 [OpenAI](https://unsloth.ai/docs/integrations/connections/openai), [Anthropic](https://unsloth.ai/docs/integrations/connections/anthropic-claude) 以及更多。
* 对 **非英语语言** 的完整支持，例如日语、中文、印度语等。

你们很多人可能错过了我们之前只持续一天的发布。我们引入了：

* 连接到外部推理后端： [vLLM](https://unsloth.ai/docs/integrations/connections/vllm), [Ollama](https://unsloth.ai/docs/integrations/connections/ollama), [llama-server](https://unsloth.ai/docs/integrations/connections/connect-llama.cpp-to-unsloth-run-ggufs-with-llama-server)
* **安全改进**
* **自动 MTP 推测解码** 适用于 MTP GGUF；为你的硬件获取最佳设置。

#### API 提供商调用与外部连接

* 你现在可以将 Unsloth 连接到任何 API 云提供商（OpenAI、Anthropic、OpenRouter 等）
* **内置网页搜索** 适用于 OpenAI、Anthropic、OpenRouter 和 Kimi
* **内置代码执行** 适用于 OpenAI 和 Anthropic（Anthropic 容器会持久化并在不同轮次中复用）
* OpenAI 和 Anthropic 模型已启用提示缓存，可节省 50% 到 90% 的成本。
* 图像生成 + 编辑
* 本地提供商（llama.cpp / vLLM / Ollama）的 API 密钥现在可选
* 在添加云提供商时自动加载模型

#### 其他 Unsloth Studio 更新

* OpenDocument 聊天附件
* o3 推理摘要负载
* 发送/提示非英语语言（例如日语、中文）现在可以正常工作
* IME 编辑器加固，RTL `dir="auto"`，长日志行截断修复
* 在 UI 中渲染工具推理轨迹
* 完全离线支持：缓存的 GGUF 发现以及针对推理和训练的离线 DNS 自动检测

#### Unsloth Studio 安全改进

* 身份验证限流，支持代理感知，因此反向代理不会绕过它
* 受沙箱保护的 worker，收紧了黑名单（bash、 `hf upload`, `NOFILE`)
* 路径封闭，确保 worker 无法逃离其运行中的临时目录
* 跨 Studio API 的严格 schema 验证
* 收紧的 CSP / 安全头（仅允许合法的 favicon 主机）
* 移除了 `torch.load` 在 `training_args.bin` 上的回退，因此不受信任的 pickle 在模型加载时永远无法执行
* 加固了 Tauri 桌面版发布流程
* 前端认证：单飞式令牌刷新、修改时输入当前密码、可用的登出、共享的 422 辅助函数
* 取消清理现在严格限定在运行中的临时目录中，因此绝不会删除用户状态
  {% endupdate %}

{% update date="2026-05-19" tags="new-releases,v0.1.41-beta" %}

## MTP + Unsloth 修复

Studio 有很多错误修复、UI 和 UX 修复！要获取最新更新，请执行：

**macOS、Linux、WSL：**

```bash
curl -fsSL https://unsloth.ai/install.sh | sh
```

**Windows：**

```powershell
irm https://unsloth.ai/install.ps1 | iex
```

#### 修复

1. 修复 `unsloth studio 更新` 表现不佳
2. 修复卡在 `重置密码` 页面上
3. 更多离线模式支持
4. 改进 MTP 在 Mac、CPU 和 GPU 上不够快的问题——现在好多了！
5. 修复桌面快捷方式在更新后无法工作
6. 大量 UI/UX 错误修复
   {% endupdate %}

{% update date="2026-05-18" tags="new-releases,model-release,v0.1.405-beta" %}

## Qwen3.6 MTP + API 连接

我们为 Unsloth 带来了很多新更新 `v0.1.41-beta`:

* **GGUF 推理速度约快 2 倍** 并自动启用 [MTP](/docs/zh/mo-xing/qwen3.6.md#mtp-guide)
* [**API 调用支持**](/docs/zh/ji-cheng/connections.md) 用于 [OpenAI](/docs/zh/ji-cheng/connections/openai.md), [Anthropic](/docs/zh/ji-cheng/connections/anthropic-claude.md) 等，自动提示缓存、网页搜索、代码执行
* 连接到外部推理后端： [vLLM](/docs/zh/ji-cheng/connections/vllm.md), [Ollama](/docs/zh/ji-cheng/connections/ollama.md), [llama-server](/docs/zh/ji-cheng/connections/jiang-llama.cpp-lian-jie-dao-unsloth-shi-yong-llamaserver-yun-xing-gguf.md)
* 实验性 **MLX 推理**
* 对 **非英语语言**
* **安全** 改进

<a href="/pages/213bd08e4302b621f4392f7ee38decb275ffab02#qwen3.6-inference-tutorials" class="button primary">运行 Qwen3.6 教程</a><a href="/pages/213bd08e4302b621f4392f7ee38decb275ffab02#mtp-guide" class="button primary">MTP 指南</a>

<div data-with-frame="true"><figure><img src="/files/31ab8e22459d009a889ab0da5455340326388734" alt="" width="375"><figcaption></figcaption></figure></div>

#### 支持 MTP 推测解码，推理速度提升 1.4 到 2 倍！

* **自动 MTP 推测解码** 适用于 MTP GGUF；当捆绑的 llama.cpp 预编译版本过旧或不支持 MTP 时发出警告
* 新增支持 MTP 的 llama.cpp 预编译二进制文件！

#### API 提供商调用与外部连接

* 你现在可以将 Unsloth 连接到任何 API 云提供商（OpenAI、Anthropic、OpenRouter 等）
* **内置网页搜索** 适用于 OpenAI、Anthropic、OpenRouter 和 Kimi
* **内置代码执行** 适用于 OpenAI 和 Anthropic（Anthropic 容器会持久化并在不同轮次中复用）
* OpenAI 和 Anthropic 模型已启用提示缓存，可节省 50% 到 90% 的成本。
* 本地提供商（llama.cpp / vLLM / Ollama）的 API 密钥现在可选
* 在添加云提供商时自动加载模型

#### MLX 推理（实验性）

* MLX 量化与模型现在可以在你的 Mac 机器上本地运行了！
* 我们很快还会加入思考、工具和网页搜索！

#### 其他 Unsloth Studio 更新

* 发送/提示非英语语言（例如日语、中文）现在可以正常工作
* OpenDocument 聊天附件
* o3 推理摘要负载
* IME 编辑器加固，RTL `dir="auto"`，长日志行截断修复
* 在 UI 中渲染工具推理轨迹
* 完全离线支持：缓存的 GGUF 发现以及针对推理和训练的离线 DNS 自动检测
* 大量 UI/UX 打磨：深色主题重构、右侧边栏重新设计、时间段睡衣松鼠吉祥物、可关闭且可复制的提示、加大的聊天编辑器、代码执行配置打磨、编辑器操作胶囊样式、更窄的 Discord 按钮

#### 训练更新

* Gemma 注意力掩码修复
* 多图像 GRPO
* GRPO 隐藏状态返回实验
* 将新的持续预训练（CPT）训练方法作为一等选项
* 已注册用于修复的 Gemma-4 MoE LoRA 提取器 `grouped_mm` 收缩崩溃
* 可选融合 `lm_head`  + 交叉熵前向计算，在以下条件下使用单次矩阵乘法路径 `UNSLOTH_RETURN_LOGITS=1`
* 为评估传递批量大小
* 评估/训练路径现在遵循 `HF_DATASETS_OFFLINE` 以及 `HF_HUB_OFFLINE`

#### Unsloth Studio 安全改进

* 身份验证限流，支持代理感知，因此反向代理不会绕过它
* 受沙箱保护的 worker，收紧了黑名单（bash、 `hf upload`, `NOFILE`)
* 路径封闭，确保 worker 无法逃离其运行中的临时目录
* 跨 Studio API 的严格 schema 验证
* 收紧的 CSP / 安全头（仅允许合法的 favicon 主机）
* 移除了 `torch.load` 在 `training_args.bin` 上的回退，因此不受信任的 pickle 在模型加载时永远无法执行
* 加固了 Tauri 桌面版发布流程
* 前端认证：单飞式令牌刷新、修改时输入当前密码、可用的登出、共享的 422 辅助函数
* 取消清理现在严格限定在运行中的临时目录中，因此绝不会删除用户状态
  {% endupdate %}

{% update date="2026-05-05" tags="new-releases,v0.1.39-beta,v0.1.38-beta" %}

## Unsloth API 端点

#### ***v0.1.39-beta 错误修复*** **2026年5月5日**

修复了聊天历史不显示的问题（现有聊天历史不会丢失）以及附件未正确附加的问题。该 bug 仅影响渲染——请使用 `2026.5.2` 或直接调用 `curl -fsSL https://unsloth.ai/install.sh | sh`  来更新

你可以将本地 LLM 与以下工具一起使用： [Claude Code](https://unsloth.ai/docs/basics/claude-code) 和 [Codex](https://unsloth.ai/docs/basics/codex) ，只需将它们连接到 Unsloth 的 API 端点。这让你可以本地运行诸如 [Qwen](https://unsloth.ai/docs/models/qwen3.6) 和 [Gemma](https://unsloth.ai/docs/models/gemma-4) 之类的模型，并拥有自我修复工具调用、代码执行和网页搜索等额外功能。

将 Unsloth 作为 API 推理端点不仅因为设置简单、速度快而有益，还因为 Unsloth 提供：

* [自我修复工具调用](https://unsloth.ai/docs/new/studio/chat#auto-healing-tool-calling)，可帮助将损坏或格式错误的工具调用减少 50%
* [代码执行](https://unsloth.ai/docs/new/studio/chat#code-execution) 支持，可执行 Bash 和 Python，以获得更准确的代码输出。
* 高级 [网页搜索](https://unsloth.ai/docs/new/studio/chat#advanced-web-search) ，会访问并实际阅读网页以收集深入信息。
* [自动推理设置](https://unsloth.ai/docs/new/studio/chat#auto-parameter-tuning) 适用于 GGUF 模型（temp、top-k 等）

<div data-with-frame="true"><figure><img src="/files/c633f6e5a61522d2d7fa76b1c6c3376b956d223d" alt="" width="375"><figcaption></figcaption></figure></div>

#### 新模型

我们还新增了几款可运行的模型，包括 NVIDIA [Nemotron 3 Nano Omni](/docs/zh/mo-xing/nemotron-3-nano-omni.md)、IBM [Granite 4.1](/docs/zh/mo-xing/ibm-granite-4.1.md) 和 [Mistral 3.5](/docs/zh/mo-xing/mistral-3.5.md) Medium。我们帮助 Mistral 解决了 transformers 和 GGUF 实现中的一些问题。

#### Unsloth 更新

* 已停止的 Studio 训练任务现在可以从检查点恢复。
* 聊天线程现在会自动保存并且更可靠地持久化。
* 修复了多进程设置中的 DPO 训练卡住问题。
* 通过 MROPE 更新改进了 VLM GRPO 支持。
* Studio 的停止按钮现在能正确停止生成。
* 修复浏览器刷新后聊天模板消失的问题。
  {% endupdate %}

{% update date="2026-04-23" tags="new-releases,v0.1.37-beta" %}

## 全新 UI 重新设计

大家好，我们重做了整个 Unsloth Studio 的 UI 和 UX 体验，重点强化聊天和训练：

* 根据社区反馈新增了可折叠侧边栏

<div data-with-frame="true"><figure><img src="/files/16cd5c624d215906fa9d68a69a32e3e5c28d1730" alt="" width="375"><figcaption></figcaption></figure></div>

* 现在可以删除聊天并搜索过往对话

<div><figure><img src="/files/7edd3f0c4d396a97d88f556990e9f773733f217f" alt=""><figcaption></figcaption></figure> <figure><img src="/files/9396bda0dcb1e0b931b2323c8c6b05f16867a68d" alt=""><figcaption></figcaption></figure></div>

* 为支持该功能的模型新增“保留思考”切换项，例如 Qwen3.6
* 更简洁、更一致的设计，导航更轻松
* 扩展的设置页面，可更改头像、名称等更多内容

<div data-with-frame="true"><figure><img src="/files/bd51c25b8a1cd8fdf88fb54d9e00ae0f551e3ee1" alt="" width="375"><figcaption></figcaption></figure></div>

* 不再需要输入两次 Hugging Face token
* gpt-oss 现在有低、中、高思考切换项。
* 现在使用最新的 llama.cpp 预编译版本，即使在 Linux CUDA 上也是如此
* 大量 bug、一致性和稳定性修复
* Kimi-K2.6 现在可以运行了！
* 我们还添加了实验性 API 支持。指南、公告等将在下周发布。

Qwen3.6 之前也已在 Unsloth Studio 中支持运行和训练。你现在就可以训练和运行 Qwen3.6-27B！
{% endupdate %}

{% update date="2026-04-22" tags="model-release,new-releases" %}

## **Qwen3.6-27B + Kimi K2.6**

[**Qwen3.6-27B**](/docs/zh/mo-xing/qwen3.6.md) 现在可以在 Unsloth Studio 中运行（18GB RAM）并进行微调。Kimi K2.6 也可以在 Unsloth 中运行（350GB RAM）。

Unsloth Studio 收到了许多新更新，请更新。详细信息和说明将在接下来的几天发布。
{% endupdate %}

{% update date="2026-04-16" tags="model-release,new-releases" %}

## **Qwen3.6**

[**Qwen3.6**](/docs/zh/mo-xing/qwen3.6.md) 现在可以在 Unsloth Studio 中运行并进行微调。该模型占用 23GB RAM，并且在几乎所有基准上都是最强的中型 LLM。
{% endupdate %}

{% update date="2026-04-11" tags="model-release" %}

## **Gemma 4 更新 + MiniMax-M2.7**

[Gemma 4 GGUF](https://huggingface.co/collections/unsloth/gemma-4) 现已更新为 Google 官方聊天模板修复（修复/改进了工具调用），并包含最新的 llama.cpp 修复。更新到最新的 llama.cpp，重新下载量化文件，你就不应该再看到 `未使用的 token` 问题了。\
\
[MiniMax-M2.7](/docs/zh/mo-xing/tutorials/minimax-m27.md) 现已发布！你可以在 128GB RAM / 统一内存上，使用我们的 4-bit 量化 GGUF 本地运行该模型。 [**MiniMax-M2.7 GGUF**](https://huggingface.co/unsloth/MiniMax-M2.7-GGUF)
{% endupdate %}

{% update date="2026-04-08" tags="new-releases,v0.1.36-beta" %}

## **Gemma 4 修复**

我们已更新 Gemma 4 [并修复了许多问题](/docs/zh/mo-xing/gemma-4/train.md)。这些 bug 是通用的，影响了所有训练包和实现，并且 **并非源自 Unsloth**。我们识别了这些 bug，修复了它们，现在 Gemma 4 训练在 Unsloth 中可正常工作。

你只需要 **8GB VRAM** 即可训练 **Gemma-4-E2B** 在本地。Unsloth 训练 Gemma 4 **速度快约 1.5 倍，同时使用约 60% 更少的 VRAM** 相比 FA2 方案。关于 Gemma 4 训练的完整指南和 notebooks， [请查看我们的博客](/docs/zh/mo-xing/gemma-4/train.md).

#### Gemma 4 训练修复

1. **梯度累积** 不再导致 loss 爆炸。之前，loss 可能飙升到 **300–400**；预期 loss 大约是 **10–15**.
2. 已修复 **IndexError** 影响 **26B** 和 **31B** 在 `transformers`.
3. 修复了 **E2B/E4B** 在 `use_cache=False`时输出乱码的问题。见 [issue #45242](https://github.com/huggingface/transformers/issues/45242).
4. 已修复 **float16 音频** 从 `-1e9` 数值溢出的问题。

如果你看到超过 **13–15 的 loss，** 例如 **100** 或 **300** - 这很可能是梯度累积处理不正确。这在以下版本中都已修复： **Unsloth** 和 **Unsloth Studio**.

#### Gemma 4 量化重新上传

我们也更新了 Gemma 4 GGUF，因此你需要重新下载。同样，这些量化问题 **与 Unsloth 无关，也不是由 Unsloth 引起的**:

1. CUDA：融合前检查缓冲区重叠 - 针对 `<unused24>` tokens - [PR #21566](https://github.com/ggml-org/llama.cpp/pull/21566)
2. `kv-cache`：支持异构 iSWA 的注意力旋转 - [PR #21513](https://github.com/ggml-org/llama.cpp/pull/21513)
3. `词表`：为 Gemma 4 的 BPE 反分词器添加字节 token 处理 - [PR #21488](https://github.com/ggml-org/llama.cpp/pull/21488)
4. `转换`：设置 `"add bos" == True` 适用于 Gemma 4 - [PR #21500](https://github.com/ggml-org/llama.cpp/pull/21500)
5. `common`：添加 Gemma 4 专用解析器 - [PR #21418](https://github.com/ggml-org/llama.cpp/pull/21418)
6. `llama-model`：读取 `final_logit_softcapping` 适用于 Gemma 4 - [PR #21390](https://github.com/ggml-org/llama.cpp/pull/21390)
7. `llama`：为 Gemma 4 添加自定义换行符拆分 - [PR #21406](https://github.com/ggml-org/llama.cpp/pull/21406)

#### Unsloth Studio 更新

* 添加 **推测解码** 支持（ngram-mod，默认开启）
* llama.cpp 已更新为使用包含所有 Gemma 4 修复的最新版本
* 修复 Qwen3.5 和 Gemma 4 训练问题
* 启用 Gemma 4 模型的导出和保存
* 加强终端和 Python 工具的沙盒安全性
* 让配方使用 Chat 中加载的模型
* 修复导航时（以及切换标签页时）的空聊天线程，并稳定新聊天流程
* 允许非 LLM 配方运行，并在执行中将 Data 选项卡移到最前面
* 复用 HF 缓存仓库的大小写以防止重复下载
  {% endupdate %}

{% update date="2026-04-03" tags="new-releases,v0.1.36-beta" %}

## **Google - Gemma 4**

* 你现在可以运行和训练 [Gemma 4](/docs/zh/mo-xing/gemma-4.md) Unsloth 中的模型。
* Intel Mac 现在可用
* llama.cpp 的预编译二进制文件，包含 2 个 Gemma-4 修复：
  * vocab：修复 Gemma4 tokenizer（[#21343](https://github.com/ggml-org/llama.cpp/pull/21343))
  * 修复：gemma 4 模板（[#21326](https://github.com/ggml-org/llama.cpp/pull/21326))
* 较小模型的工具调用现在更稳定，不会再被截断
* 适用于 Windows、Linux、Mac、WSL 设备的预编译二进制文件 - CPU 和 GPU
* 为非视觉模型添加了推测解码（遗憾的是 Gemma-4 和 Qwen3.5 是视觉模型）
* 上下文长度现在会被正确应用。
* 网页搜索现在 वास्तव上会获取网页内容，而不只是摘要
* HF API 调用减少 90% - 限流更少
  {% endupdate %}

{% update date="2026-03-31" tags="new-releases,improvements" %}

## **+50% 工具调用准确率 + 更多支持**

* 所有模型的工具调用现在 **准确率提高了 +30% 到 +80%。**
* 网页搜索现在 वास्तव上会获取网页内容，而不只是摘要
* 允许的工具调用次数从 10 次提高到 25 次
* 工具调用现在终止得更好，因此循环/重复将减少
* 更多 **工具调用修复** 和去重逻辑，以防止工具调用泄漏 XML
* 测试于 `unsloth/Qwen3.5-4B-GGUF` (`UD-Q4_K_XL`）、网页搜索 + 代码执行 + 思考已启用。

| 指标          | 之前     | 之后       |
| ----------- | ------ | -------- |
| 响应中的 XML 泄漏 | 10/10  | 0/10     |
| 使用的 URL 获取  | 0      | 4/10 次运行 |
| 正确歌曲名称的运行次数 | 0/10   | 2/10     |
| 平均工具调用次数    | 5.5    | 3.8      |
| 平均响应时间      | 12.3 秒 | 9.8 秒    |

#### 新功能

* 新增了 **自定义文件夹** 因此你可以在任意文件夹中使用任何 GGUF——目前可在 Chat 的高级设置和自定义文件夹中访问
* **更新按钮** 现在可见
* 安装脚本样式全部更新！
* 初步 **推理和训练的自动多 GPU 支持** ——适用于无法装入 1 块 GPU 的大模型——Studio 会自动分配 GPU 资源
* Intel Mac 应该开箱即用

### 更加流畅且更快的 Studio

* **修复了大模型下载超时** ——不再出现超时。
* **修复了 Hugging Face 限流 - HF API 调用减少 90%**
* 修复了 Windows 上的 bun 并加快安装速度
  {% endupdate %}

{% update date="2026-03-27" tags="new-releases,fixes,improvements" %}

## **新的重要更新**

距离上次发布才过去 2 天，但我们有更重要的更新：

* **推理速度现在快了 20–30%。** 之前，工具调用和重复惩罚可能会让推理速度降到正常速度以下。现在推理 tokens/s 应该与 `llama-server` / `llama.cpp`.
* **现在会自动检测旧模型或已存在的模型** 下载自 **LM Studio、Hugging Face、** 以及类似来源。
* **推理 tokens/s 速度现在计算正确。** 之前，tokens/s 包含了启动时间，这让显示速度看起来比实际更慢。现在它应该能反映“真实”的推理速度。
* **CPU 使用率不再飙升。** 之前，内联查询器标识在每次渲染时都会变化，导致 `useLiveQuery` 持续重新订阅。
* **Unsloth Studio 现在有关闭 x 按钮，并且可以正确关闭。** 之前，从桌面图标打开后再关闭不会正确退出。现在，从快捷方式启动也会打开终端，关闭该终端会完全退出 Unsloth Studio。如果你仍然在上一次会话中保持打开，可以重启电脑或运行 `lsof -i :8888` 然后 `kill -9 <PID>`.
* **更好的工具调用和网页搜索** 并减少错误。
* 更新了文档，加入了关于以下内容的大量新信息： [删除模型、卸载](/docs/zh/xin/studio/install.md#uninstall) 等。
* **Windows 和 Linux 上更清晰、更智能的安装与设置日志。** 输出现在更易读，格式更一致，默认更安静以提供更流畅的体验，并支持更丰富的 `--verbose` 诊断信息，当你需要完整技术细节时可使用。
* 你现在可以查看你的训练历史了！
  {% endupdate %}

{% update date="2026-03-25" tags="new-releases,fixes,improvements" %}

## Unsloth Studio 后的首个发布

大家好，这是我们推出 Unsloth Studio 之后的第一次发布。新增了很多功能和修复：

* **你现在可以更新 Unsloth Studio 了！** 请使用相同的安装命令进行更新。
* **Windows** CPU 或 GPU 现在都能无缝工作。请重新安装！
* **应用快捷方式**。安装后，你现在可以通过开始 / 启动菜单和桌面上的快捷方式图标在 Windows、MacOS 和 Linux 上启动。
* **预编译 `llama.cpp` 二进制文件** 和 `mamba_ssm` ——安装速度快 6 倍！二进制文件大小也小于 300MB。
* **安装体积减少 50%** （节省 7GB 或更多），安装速度快 2 倍，解析更快。pypi 体积减少 50%。
* **工具调用已改进。** 更好的 llama.cpp 解析，聊天中不再有原始工具标记，更快的推理，一个新的 Tool Outputs 面板，以及计时器。
* MacOS 和 CPU 现在具有 [数据配方](/docs/zh/xin/studio/data-recipe.md) 已启用多文件上传。
* **Linux 上 AMD 支持初步** 仅限机器 - 自动检测。
* **设置侧边栏重新设计。** 设置现在被分组为 **模型、采样、工具和偏好设置**
* **上下文长度** 现在可调。请记住，这其实并不需要，因为 llama.cpp 会通过 `--fit on`
* **多文件上传。** 数据配方现在支持对 PDF、DOCX、TXT 和 MD 进行多文件拖放上传，包含后端提取、已保存上传以及改进的预览。
* **Colab** 在 Unsloth Studio 中使用免费 T4 GPU 现在已修复！ [在这里试试](https://colab.research.google.com/github/unslothai/unsloth/blob/main/studio/Unsloth_Studio_Colab.ipynb)。由于预编译二进制文件，它的速度也快了 20 倍！
* **更好的聊天可观测性。** Studio 现在显示 `llama-server` 计时和用量、上下文窗口使用条，以及更丰富的来源悬浮卡片。
* **整体 UX 更好** ——可点击链接、更好的 LaTeX 解析、默认卡片的工具 / 代码 / 网页工具提示，以及更多功能！
* **LiteLLM -** Unsloth Studio 和 Unsloth **未** 受到最近 LiteLLM 泄露事件的影响。Nemo Data Designer 仅在 `1.80`之前使用 LiteLLM， `1.82.7` 或 `1.82.8`而不是受影响的版本，并且此后已将其完全移除。
* 我们现在有一个新的单行安装命令，只需运行：&#x20;

  <pre class="language-bash" data-overflow="wrap" data-expandable="true"><code class="lang-bash">curl -fsSL https://unsloth.ai/install.sh | sh
  </code></pre>

#### **修复：**

* **Windows/安装改进。** 修复了 Windows 静默退出、Anaconda/conda-forge 启动崩溃、非 NVIDIA Windows 安装损坏，以及缺少早期 CUDA/旧虚拟环境设置检查的问题。
* **系统提示词已修复。** 它们现在在非 GGUF 文本和视觉推理中可以再次工作。
* **持久化系统提示词和预设。** 自定义系统提示词和聊天预设现在会在重载和页面切换后持续保留。
* **GGUF 导出扩展。** 现在不仅 LoRA/PEFT，完整微调也可以导出为 GGUF。基础模型解析更可靠，且在 UI 中会禁用不受支持的导出选项。
* **聊天滚动/布局修复。** 修复了生成期间的滚动位置问题、思考面板布局偏移，以及折叠推理面板时的视口跳动。
* **更智能的端口冲突检测。** Studio 现在可以检测回环冲突，在可能时识别阻塞进程，并提供更清晰的备用端口提示。
  {% endupdate %}

{% update date="2026-03-17" tags="fixes,improvements" %}

## 新的工具调用 + Windows 稳定性

* Claude Artifacts 可用，因此 HTML 可以像聊天里的贪吃蛇游戏一样被执行
* +30% 更准确的工具调用，尤其适用于小模型 + 工具调用计时器
* 工具 + 网页搜索输出可保存 + 可切换自动修复工具的开/关
* 大量错误修复 - Windows CPU 可用，Mac 更流畅，安装更快且更小
  {% endupdate %}
  {% endupdates %}


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/zh/xin/changelog.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
