# Unsloth 更新

要使用最新更改， [请更新 Unsloth](/docs/zh/xin/studio/install.md#update-unsloth-studio).

{% updates format="full" %}
{% update date="2026-05-05" tags="new-releases,v0.1.39-beta,v0.1.38-beta" %}

## Unsloth API 端点

#### ***v0.1.39-beta bug 修复*** **2026年5月5日**

修复了聊天历史不显示（现有聊天历史不会丢失）以及附件未正确附加的问题。该 bug 仅影响渲染——请使用 `2026.5.2` 或直接调用 `curl -fsSL https://unsloth.ai/install.sh | sh` 或 `unsloth studio update` 来更新

你可以将本地 LLM 与如下工具一起使用： [Claude Code](https://unsloth.ai/docs/basics/claude-code) 和 [Codex](https://unsloth.ai/docs/basics/codex) ，方法是将它们连接到 Unsloth 的 API 端点。这使你能够在本地运行如下模型： [Qwen](https://unsloth.ai/docs/models/qwen3.6) 和 [Gemma](https://unsloth.ai/docs/models/gemma-4) ，并额外获得自我修复工具调用、代码执行和网页搜索等功能。

将 Unsloth 作为 API 推理端点不仅因为它易于设置且速度快而有益，也因为 Unsloth 提供：

* [自我修复工具调用](https://unsloth.ai/docs/new/studio/chat#auto-healing-tool-calling)，可帮助将损坏或格式错误的工具调用减少 50%
* [代码执行](https://unsloth.ai/docs/new/studio/chat#code-execution) 支持，允许执行 Bash 和 Python，以获得更准确的代码输出。
* 高级 [网页搜索](https://unsloth.ai/docs/new/studio/chat#advanced-web-search) ，会访问并真正读取网页以收集深入信息。
* [自动推理设置](https://unsloth.ai/docs/new/studio/chat#auto-parameter-tuning) 适用于 GGUF 模型（temp、top-k 等）

<div data-with-frame="true"><figure><img src="/files/c633f6e5a61522d2d7fa76b1c6c3376b956d223d" alt="" width="375"><figcaption></figcaption></figure></div>

#### 新模型

我们还加入了一些可运行的新模型，包括 NVIDIA [Nemotron 3 Nano Omni](/docs/zh/mo-xing/nemotron-3-nano-omni.md)、IBM [Granite 4.1](/docs/zh/mo-xing/ibm-granite-4.1.md) 和 [Mistral 3.5](/docs/zh/mo-xing/mistral-3.5.md) Medium。我们帮助 Mistral 解决了 transformers 和 GGUF 实现中的一些问题。

#### Unsloth 更新

* 已停止的 Studio 训练任务现在可以从检查点恢复。
* 聊天线程现在会更可靠地自动保存并保持持久。
* 已修复 DPO 训练在多进程设置中的卡住问题。
* 通过 MROPE 更新改进了 VLM GRPO 支持。
* Studio 的停止按钮现在可以正确停止生成。
* 修复浏览器刷新后聊天模板消失的问题。
  {% endupdate %}

{% update date="2026-04-23" tags="new-releases,v0.1.37-beta" %}

## 全新 UI 重新设计

大家好，我们全面重做了 Unsloth Studio 的 UI 和 UX 体验，重点强化聊天和训练：

* 根据社区反馈添加了可折叠侧边栏

<div data-with-frame="true"><figure><img src="/files/16cd5c624d215906fa9d68a69a32e3e5c28d1730" alt="" width="375"><figcaption></figcaption></figure></div>

* 你现在可以删除聊天并搜索过往对话

<div><figure><img src="/files/7edd3f0c4d396a97d88f556990e9f773733f217f" alt=""><figcaption></figcaption></figure> <figure><img src="/files/9396bda0dcb1e0b931b2323c8c6b05f16867a68d" alt=""><figcaption></figcaption></figure></div>

* 为支持该功能的模型新增“保留思考”开关，例如 Qwen3.6
* 更简洁、更一致的设计，导航更轻松
* 扩展了设置页面，可更改头像、名称等更多内容

<div data-with-frame="true"><figure><img src="/files/bd51c25b8a1cd8fdf88fb54d9e00ae0f551e3ee1" alt="" width="375"><figcaption></figcaption></figure></div>

* 不再需要两次输入 Hugging Face 令牌
* gpt-oss 现在有低、中、高思考切换。
* 现在使用最新的 llama.cpp 预编译版本，即使在 Linux CUDA 上也是如此
* 大量 bug、一致性和稳定性修复
* Kimi-K2.6 现在可以运行了！
* 我们还添加了实验性的 API 支持。指南、公告等内容将于下周发布。

Qwen3.6 之前也已在 Unsloth Studio 中支持运行和训练。你现在就可以训练和运行 Qwen3.6-27B！
{% endupdate %}

{% update date="2026-04-22" tags="model-release,new-releases" %}

## **Qwen3.6-27B + Kimi K2.6**

[**Qwen3.6-27B**](/docs/zh/mo-xing/qwen3.6.md) 现在可以运行（18GB 内存）并在 Unsloth Studio 中进行微调。Kimi K2.6 也可以在 Unsloth 中运行（350GB 内存）。

Unsloth Studio 收到了许多新更新，请务必更新。详情和说明将在接下来的几天发布。
{% endupdate %}

{% update date="2026-04-16" tags="model-release,new-releases" %}

## **Qwen3.6**

[**Qwen3.6**](/docs/zh/mo-xing/qwen3.6.md) 现在可以在 Unsloth Studio 中运行并进行微调。该模型运行于 23GB 内存，是几乎所有基准测试中最强的中型 LLM。
{% endupdate %}

{% update date="2026-04-11" tags="model-release" %}

## **Gemma 4 更新 + MiniMax-M2.7**

[Gemma 4 GGUF](https://huggingface.co/collections/unsloth/gemma-4) 现已更新为 Google 官方聊天模板修复（这修复/改进了工具调用），并包含最新的 llama.cpp 修复。更新到最新的 llama.cpp，重新下载量化文件后，你不应再看到 `未使用的 token` 问题。\
\
[MiniMax-M2.7](/docs/zh/mo-xing/tutorials/minimax-m27.md) 现已发布！你可以在本地使用我们的 GGUF 以 4 位量化在 128GB 内存 / 统一内存上运行该模型。 [**MiniMax-M2.7 GGUF**](https://huggingface.co/unsloth/MiniMax-M2.7-GGUF)
{% endupdate %}

{% update date="2026-04-08" tags="new-releases,v0.1.36-beta" %}

## **Gemma 4 修复**

我们已经更新了 Gemma 4 [并修复了许多问题](/docs/zh/mo-xing/gemma-4/train.md)。这些 bug 是通用的，影响了所有训练包和实现，而且 **并非源自 Unsloth**。我们识别并修复了这些 bug，现在 Gemma 4 训练在 Unsloth 中可以正常工作。

你只需要 **8GB 显存** 即可在本地训练 **Gemma-4-E2B** 。Unsloth 训练 Gemma 4 **速度快约 1.5 倍，同时使用的显存少约 60%** 相比 FA2 设置。关于 Gemma 4 训练的完整指南和笔记本， [请参阅我们的博客](/docs/zh/mo-xing/gemma-4/train.md).

#### Gemma 4 训练修复

1. **梯度累积** 不再会导致 loss 爆炸。此前，loss 可能飙升到 **300–400**；预期 loss 约为 **10–15**.
2. 已修复 **IndexError** 影响 **26B** 和 **31B** 在 `transformers`.
3. 中进行推理时出现的乱码输出 **E2B/E4B** 当 `use_cache=False`时。参见 [issue #45242](https://github.com/huggingface/transformers/issues/45242).
4. 已修复 **float16 音频** 溢出，源自 `-1e9` 值。

如果你看到 loss 高于 **13–15，** 例如 **100** 或 **300** - 那么梯度累积很可能被错误处理。此问题已在 **Unsloth** 和 **Unsloth Studio**.

#### Gemma 4 量化文件重新上传

我们也更新了 Gemma 4 GGUF，因此你需要重新下载。再次说明，这些量化问题 **与 Unsloth 无关，也不是由 Unsloth 引起的**:

1. CUDA：在融合前检查缓冲区重叠 - 关键修复，适用于 `<unused24>` tokens - [PR #21566](https://github.com/ggml-org/llama.cpp/pull/21566)
2. `kv-cache`：支持异构 iSWA 的注意力旋转 - [PR #21513](https://github.com/ggml-org/llama.cpp/pull/21513)
3. `vocab`：为 Gemma 4 的 BPE 反分词器添加字节 token 处理 - [PR #21488](https://github.com/ggml-org/llama.cpp/pull/21488)
4. `convert`：设置 `“add bos”为 True` 用于 Gemma 4 - [PR #21500](https://github.com/ggml-org/llama.cpp/pull/21500)
5. `common`：添加 Gemma 4 专用解析器 - [PR #21418](https://github.com/ggml-org/llama.cpp/pull/21418)
6. `llama-model`：读取 `final_logit_softcapping` 用于 Gemma 4 - [PR #21390](https://github.com/ggml-org/llama.cpp/pull/21390)
7. `llama`：为 Gemma 4 添加自定义换行分割 - [PR #21406](https://github.com/ggml-org/llama.cpp/pull/21406)

#### Unsloth Studio 更新

* 添加 **推测解码** 支持（ngram-mod，默认开启）
* Llama.cpp 已更新到最新版本，并包含所有 Gemma 4 修复
* 修复 Qwen3.5 和 Gemma 4 的训练问题
* 启用 Gemma 4 模型的导出和保存
* 加强终端和 Python 工具的沙箱安全性
* 让 recipe 使用 Chat 中加载的模型
* 修复导航时（以及切换标签页时）空聊天线程问题，并稳定新建聊天流程
* 允许非 LLM recipe 运行，并在执行中将 Data 标签页移到最前
* 复用 HF 缓存仓库的大小写，防止重复下载
  {% endupdate %}

{% update date="2026-04-03" tags="new-releases,v0.1.36-beta" %}

## **Google - Gemma 4**

* 你现在可以运行和训练 [Gemma 4](/docs/zh/mo-xing/gemma-4.md) 模型于 Unsloth 中。
* Intel Mac 现在可正常工作
* 用于 2 个 Gemma-4 修复的 llama.cpp 预编译二进制：
  * vocab：修复 Gemma4 tokenizer（[#21343](https://github.com/ggml-org/llama.cpp/pull/21343))
  * 修复：gemma 4 模板（[#21326](https://github.com/ggml-org/llama.cpp/pull/21326))
* 较小模型的工具调用现在更稳定，不再会被截断
* 适用于 Windows、Linux、Mac、WSL 设备的预编译二进制 - CPU 和 GPU
* 已为非视觉模型添加推测解码（可惜 Gemma-4 是视觉模型，Qwen3.5 也是）
* 上下文长度现在会被正确应用。
* 网页搜索现在 वास्तव上会获取网页内容，而不仅仅是摘要
* HF API 调用减少 90% - 限流更少
  {% endupdate %}

{% update date="2026-03-31" tags="new-releases,improvements" %}

## **工具调用准确率 +50% + 更多支持**

* 所有模型的工具调用现在都 **准确率提高了 +30% 到 +80%。**
* 网页搜索现在 वास्तव上会获取网页内容，而不仅仅是摘要
* 允许的工具调用次数已从 10 次增加到 25 次
* 工具调用现在能更好地结束，因此循环 / 重复会减少
* 更多 **工具调用修复** 以及去重逻辑，也可防止工具调用泄漏 XML
* 已使用以下模型测试： `unsloth/Qwen3.5-4B-GGUF` (`UD-Q4_K_XL`），启用了网页搜索 + 代码执行 + 思考。

| 指标          | 之前    | 之后       |
| ----------- | ----- | -------- |
| 响应中的 XML 泄漏 | 10/10 | 0/10     |
| 使用的 URL 抓取  | 0     | 4/10 次运行 |
| 正确歌曲名称的运行次数 | 0/10  | 2/10     |
| 平均工具调用数     | 5.5   | 3.8      |
| 平均响应时间      | 12.3秒 | 9.8秒     |

#### 新功能

* 添加了 **自定义文件夹** 因此你可以在任意文件夹中使用任何 GGUF——目前可在 Chat 的高级设置和自定义文件夹中访问
* **更新按钮** 现在可见
* 安装脚本样式全部更新！
* 初步 **推理和训练的自动多 GPU 支持** - 适用于放不进 1 张 GPU 的大模型 - Studio 会自动分配 GPU 资源
* Intel Mac 应该开箱即用

### Studio 更流畅、更快速

* **修复大模型下载超时** - 不再看到超时。
* **修复 Hugging Face 限流 - HF API 调用减少 90%**
* 修复 Windows 上的 bun 问题并加快安装速度
  {% endupdate %}

{% update date="2026-03-27" tags="new-releases,fixes,improvements" %}

## **新的重要更新**

距离我们上次发布才 2 天，但我们有更重要的更新：

* **推理现在快了 20–30%。** 此前，工具调用和重复惩罚可能会把推理速度拖到低于正常水平。现在每秒 token 的推理表现应与 `llama-server` / `llama.cpp`.
* **现在可自动检测较旧或已存在的模型** 下载自 **LM Studio、Hugging Face，** 以及类似来源。
* **推理 token/s 速度现在计算正确。** 此前，tokens/s 包含启动时间，这会让显示的速度看起来比实际更慢。现在它应能反映“真实”的推理速度。
* **CPU 使用率不再飙升。** 此前，内联查询器身份在每次渲染时都会改变，导致 `useLiveQuery` 持续重新订阅。
* **Unsloth Studio 现在有关闭 x 按钮，并且能正确关闭。** 此前，通过桌面图标打开后再关闭并不会正确退出。现在，从快捷方式启动也会打开终端，关闭该终端即可完全退出 Unsloth Studio。如果你仍然保留着上一次会话打开的窗口，可以重启电脑或运行 `lsof -i :8888` 然后 `kill -9 <PID>`.
* **更好的工具调用和网页搜索** 并减少错误。
* 文档已更新，新增了大量关于 [删除模型、卸载](/docs/zh/xin/studio/install.md#uninstall) 等内容。
* **Windows 和 Linux 上的安装与设置日志更简洁、更智能。** 输出现在更容易阅读，格式更一致，默认更安静以获得更流畅的体验，并支持更丰富的 `--verbose` 诊断信息，供你在需要完整技术细节时使用。
* 你现在可以查看你的训练历史了！
  {% endupdate %}

{% update date="2026-03-25" tags="new-releases,fixes,improvements" %}

## Unsloth Studio 发布后的首个版本

大家好，这是我们推出 Unsloth Studio 后的首个版本。包含大量新功能和修复：

* **你现在可以更新 Unsloth Studio 了！** 请通过以下方式更新： `unsloth studio update`
* **Windows** CPU 或 GPU 现在都能无缝工作。请重新安装！
* **应用快捷方式**。安装后，你现在可以在 Windows、MacOS 和 Linux 上通过开始菜单 / 启动和桌面上的快捷方式图标启动。
* **预编译 `llama.cpp` 二进制文件** 和 `mamba_ssm` - 安装速度快 6 倍！二进制文件大小也小于 300MB。
* **安装体积减少 50%** （节省 7GB 或更多）、安装速度提升 2 倍、解析更快。pypi 体积缩小 50%。
* **工具调用改进。** 更好的 llama.cpp 解析、聊天中不再出现原始工具标记、更快的推理、新的工具输出面板、计时器。
* MacOS 和 CPU 现在具有 [数据 recipe](/docs/zh/xin/studio/data-recipe.md) 并支持多文件上传。
* **Linux 上 AMD 支持初步** 仅适用于机器 - 会自动检测。
* **设置侧边栏重新设计。** 设置现在按以下类别分组： **模型、采样、工具和偏好**
* **上下文长度** 现在可调。请注意，这其实不需要，因为 llama.cpp 会通过 `--fit on`
* **多文件上传。** 数据 recipe 现在支持对 PDF、DOCX、TXT 和 MD 进行多文件拖放上传，具备后端提取、保存上传和改进的预览。
* **Colab** 中的免费 T4 GPU 现在可在 Unsloth Studio 中正常使用！ [在这里试试](https://colab.research.google.com/github/unslothai/unsloth/blob/main/studio/Unsloth_Studio_Colab.ipynb)。由于使用预编译二进制文件，它也快了 20 倍！
* **更好的聊天可观测性。** Studio 现在显示 `llama-server` 计时与用量、上下文窗口使用条，以及更丰富的来源悬停卡片。
* **整体 UX 更好** - 可点击链接、更好的 LaTeX 解析、默认卡片的工具 / 代码 / 网页提示等等！
* **LiteLLM -** Unsloth Studio 和 Unsloth **未** 受到近期 LiteLLM 泄露事件影响。Nemo Data Designer 仅使用 LiteLLM 到 `1.80`，并非受影响的 `1.82.7` 或 `1.82.8`，之后已将其完全移除。
* 我们现在有了新的单行安装命令，只需运行：&#x20;

  <pre class="language-bash" data-overflow="wrap" data-expandable="true"><code class="lang-bash">curl -fsSL https://unsloth.ai/install.sh | sh
  </code></pre>

#### **修复：**

* **Windows/设置改进。** 修复了 Windows 静默退出、Anaconda/conda-forge 启动崩溃、非 NVIDIA Windows 安装损坏，以及缺少早期 CUDA/旧虚拟环境设置检查的问题。
* **系统提示已修复。** 它们现在再次适用于非 GGUF 文本和视觉推理。
* **持久系统提示和预设。** 自定义系统提示和聊天预设现在会在重新加载和页面切换后保持。
* **GGUF 导出扩展。** 现在不仅 LoRA/PEFT，完整微调也可以导出为 GGUF。基础模型解析更可靠，UI 中不受支持的导出选项已被禁用。
* **聊天滚动/布局修复。** 修复了生成期间的滚动位置问题、思考面板布局偏移，以及折叠推理面板时的视口跳动。
* **更智能的端口冲突检测。** Studio 现在可检测回环冲突，在可能时识别阻塞进程，并给出更清晰的备用端口消息。
  {% endupdate %}

{% update date="2026-03-17" tags="fixes,improvements" %}

## 新的工具调用 + Windows 稳定性

* Claude Artifacts 可用，因此 HTML 可以像聊天内的贪吃蛇游戏一样执行
* 工具调用准确率提高 30%，尤其对小模型更明显 + 工具调用计时器
* 工具 + 网页搜索输出可保存 + 可切换工具自动修复的开/关
* 大量 bug 修复 - Windows CPU 可用，Mac 更流畅，安装更快且更小
  {% endupdate %}
  {% endupdates %}


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/zh/xin/changelog.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.