# Unsloth 更新

要使用最新更改， [请更新 Unsloth](https://unsloth.ai/docs/zh/studio/install#update-unsloth-studio).

{% updates format="full" %}
{% update date="2026-04-16" tags="model-release,new-releases,v0.1.37-beta" %}

## **Qwen3.6**

[Gemma 4 GGUF](https://huggingface.co/collections/unsloth/gemma-4) 现已更新为包含 Google 官方聊天模板修复（修复/改进了工具调用），以及最新的 llama.cpp 修复。更新到最新的 llama.cpp，重新下载量化文件后，你不应该再看到 `未使用的 token` 问题。\
\
[MiniMax-M2.7](https://unsloth.ai/docs/zh/mo-xing/minimax-m27) 现已发布！你可以使用我们的 GGUF，在 128GB 内存 / 统一内存上以 4 位量化在本地运行该模型。 [**MiniMax-M2.7 GGUF**](https://huggingface.co/unsloth/MiniMax-M2.7-GGUF)
{% endupdate %}

{% update date="2026-04-11" tags="model-release" %}

## **Gemma 4 更新 + MiniMax-M2.7**

[Gemma 4 GGUF](https://huggingface.co/collections/unsloth/gemma-4) 现已更新为包含 Google 官方聊天模板修复（修复/改进了工具调用），以及最新的 llama.cpp 修复。更新到最新的 llama.cpp，重新下载量化文件后，你不应该再看到 `未使用的 token` 问题。\
\
[MiniMax-M2.7](https://unsloth.ai/docs/zh/mo-xing/minimax-m27) 现已发布！你可以使用我们的 GGUF，在 128GB 内存 / 统一内存上以 4 位量化在本地运行该模型。 [**MiniMax-M2.7 GGUF**](https://huggingface.co/unsloth/MiniMax-M2.7-GGUF)
{% endupdate %}

{% update date="2026-04-08" tags="new-releases,v0.1.36-beta" %}

## **Gemma 4 修复**

我们已更新 Gemma 4 [并带来许多修复](https://unsloth.ai/docs/zh/mo-xing/gemma-4/train)。这些 bug 是普遍性的，影响了所有训练包和实现，并且 **并非源自 Unsloth**。我们找到了这些 bug，已将其修复，Gemma 4 训练现在在 Unsloth 中可以正常工作。

你只需要 **8GB 显存** 即可训练 **Gemma-4-E2B** ，可在本地运行。Unsloth 训练 Gemma 4 **速度约快 1.5 倍，同时显存使用约少 60%** 相比 FA2 配置。关于 Gemma 4 训练的完整指南和 notebooks， [请查看我们的博客](https://unsloth.ai/docs/zh/mo-xing/gemma-4/train).

#### Gemma 4 训练修复

1. **梯度累积** 不再会导致 loss 爆炸。此前，loss 可能飙升到 **300–400**；预期 loss 大约为 **10–15**.
2. 修复了 **IndexError** ，影响 **26B** 和 **31B** 在 `transformers`.
3. 中的推理输出出现乱码的问题，修复了 **E2B/E4B** 在 `use_cache=False`时输出乱码的问题。见 [issue #45242](https://github.com/huggingface/transformers/issues/45242).
4. 修复了 **float16 音频** 从 `-1e9` 数值溢出的问题。

如果你看到 loss 高于 **13–15，** 例如 **100** 或 **300** - 那么梯度累积很可能被错误处理了。该问题已在 **Unsloth** 和 **Unsloth Studio**.

#### Gemma 4 量化文件重新上传

我们也更新了 Gemma 4 GGUF，因此你需要重新下载。再次说明，这些量化问题 **与 Unsloth 无关，也不是由 Unsloth 引起的**:

1. CUDA：在融合前检查缓冲区重叠 - 针对 `<unused24>` tokens 的关键修复 - [PR #21566](https://github.com/ggml-org/llama.cpp/pull/21566)
2. `kv-cache`：支持异构 iSWA 的注意力旋转 - [PR #21513](https://github.com/ggml-org/llama.cpp/pull/21513)
3. `vocab`：为 Gemma 4 的 BPE 反分词器添加字节 token 处理 - [PR #21488](https://github.com/ggml-org/llama.cpp/pull/21488)
4. `convert`：将 `“add bos” == True` 设置为 Gemma 4 - [PR #21500](https://github.com/ggml-org/llama.cpp/pull/21500)
5. `common`：添加 Gemma 4 专用解析器 - [PR #21418](https://github.com/ggml-org/llama.cpp/pull/21418)
6. `llama-model`：读取 `final_logit_softcapping` 设置为 Gemma 4 - [PR #21390](https://github.com/ggml-org/llama.cpp/pull/21390)
7. `llama`：为 Gemma 4 添加自定义换行分割 - [PR #21406](https://github.com/ggml-org/llama.cpp/pull/21406)

#### Unsloth Studio 更新

* 添加 **推测解码** 支持（ngram-mod，默认开启）
* Llama.cpp 已更新为包含所有 Gemma 4 修复的最新版本
* 修复 Qwen3.5 和 Gemma 4 训练问题
* 支持导出和保存 Gemma 4 模型
* 加强终端和 Python 工具的沙箱安全性
* 允许 recipes 使用在 Chat 中加载的模型
* 修复导航时的空聊天线程问题（以及切换标签页时），并稳定新建聊天流程
* 允许非 LLM recipes 运行，并在执行中将 Data 标签页移到最前
* 重用 HF 缓存的仓库大小写以防止重复下载
  {% endupdate %}

{% update date="2026-04-03" tags="new-releases,v0.1.36-beta" %}

## **Google - Gemma 4**

* 你现在可以在 Unsloth 中运行和训练 [Gemma 4](https://unsloth.ai/docs/zh/mo-xing/gemma-4) 模型。
* Intel Mac 现在可正常工作
* 针对 2 个 Gemma-4 修复的 llama.cpp 预编译二进制文件：
  * vocab：修复 Gemma4 分词器（[#21343](https://github.com/ggml-org/llama.cpp/pull/21343))
  * 修复：gemma 4 模板（[#21326](https://github.com/ggml-org/llama.cpp/pull/21326))
* 较小模型的工具调用现在更稳定，不再中途截断
* 适用于 Windows、Linux、Mac、WSL 设备的预编译二进制文件 - CPU 和 GPU
* 为非视觉模型添加了推测解码（遗憾的是 Gemma-4 是视觉模型，以及 Qwen3.5）
* 上下文长度现在已正确应用。
* 网页搜索现在真正获取网页内容，而不只是摘要
* HF API 调用减少了 90% - 限流更少
  {% endupdate %}

{% update date="2026-03-31" tags="new-releases,improvements" %}

## **工具调用准确率提升 50% + 更多支持**

* 所有模型的工具调用现在 **准确度提升了 30% 到 80%。**
* 网页搜索现在真正获取网页内容，而不只是摘要
* 允许的工具调用次数已从 10 次增加到 25 次
* 工具调用现在更容易正确结束，因此循环 / 重复会减少
* 更多 **工具调用修复** 以及去重逻辑，也防止工具调用泄露 XML
* 已使用以下模型测试 `unsloth/Qwen3.5-4B-GGUF` (`UD-Q4_K_XL`），已启用网页搜索 + 代码执行 + 思考。

| 指标          | 之前     | 之后           |
| ----------- | ------ | ------------ |
| 响应中的 XML 泄露 | 10/10  | 0/10         |
| 使用的 URL 抓取  | 0      | 10 次运行中有 4 次 |
| 歌曲名称正确的运行次数 | 0/10   | 2/10         |
| 平均工具调用次数    | 5.5    | 3.8          |
| 平均响应时间      | 12.3 秒 | 9.8 秒        |

#### 新功能

* 添加了 **自定义文件夹** 因此你可以在任意文件夹中使用任意 GGUF——目前可在 Chat 和 Custom Folders 的高级设置中访问
* **更新按钮** 现已可见
* 安装脚本样式全部更新！
* 初步 **自动多 GPU 推理和训练支持** - 对于无法放入 1 张 GPU 的大模型很有用 - Studio 会自动分配 GPU 资源
* Intel Mac 应该开箱即用

### 更流畅、更快速的 Studio

* **修复大型模型下载超时** - 不再出现超时。
* **修复 Hugging Face 限流 - HF API 调用减少 90%**
* 修复 Windows 上的 bun，并加快安装速度
  {% endupdate %}

{% update date="2026-03-27" tags="new-releases,fixes,improvements" %}

## **新的重要更新**

距离上一个版本才过去 2 天，但我们带来了更重要的更新：

* **推理现在快了 20–30%。** 此前，工具调用和重复惩罚可能会让推理速度低于正常水平。现在推理 tokens/s 应该与 `llama-server` / `llama.cpp`.
* **现在会自动检测较旧或已存在的模型** ，这些模型是从 **LM Studio、Hugging Face** 以及类似来源下载的。
* **推理 token/s 速度现在计算正确。** 此前，tokens/s 包含启动时间，这会让显示的速度看起来比实际更慢。现在它应该能反映“真实”的推理速度。
* **CPU 使用率不再飙升。** 此前，内联查询器身份在每次渲染时都会变化，导致 `useLiveQuery` 持续重新订阅。
* **Unsloth Studio 现在有关闭 x 按钮，并且可以正确关闭。** 此前，从桌面图标打开后关闭它并不会正确退出。现在，从快捷方式启动也会打开终端，关闭该终端即可完全退出 Unsloth Studio。如果你仍然有上一次会话打开着，可以重启电脑或运行 `lsof -i :8888` 然后 `kill -9 <PID>`.
* **工具调用和网页搜索更好了** 并减少了错误。
* 更新了文档，加入了关于 [删除模型、卸载](https://unsloth.ai/docs/zh/studio/install#uninstall) 等方面的大量新信息。
* **在 Windows 和 Linux 上，安装与设置日志更干净、更智能。** 输出现在更易读，格式更统一，默认更安静，体验更流畅，并支持更丰富的 `--verbose` 诊断信息，当你需要完整技术细节时可使用。
* 你现在可以查看你的训练历史了！
  {% endupdate %}

{% update date="2026-03-25" tags="new-releases,fixes,improvements" %}

## Unsloth Studio 发布后的首次版本

大家好，这是我们自推出 Unsloth Studio 以来的首次发布。新增了很多功能和修复：

* **你现在可以更新 Unsloth Studio 了！** 请通过以下方式更新： `unsloth studio update`
* **Windows** 现在 CPU 或 GPU 都能无缝运行。请重新安装！
* **应用快捷方式**。安装后，你现在可以通过开始菜单 / 启动器和桌面上的快捷方式图标，在 Windows、MacOS 和 Linux 上启动。
* **预编译的 `llama.cpp` 二进制文件** 和 `mamba_ssm` - 安装速度快 6 倍！二进制文件大小也小于 300MB。
* **安装体积减少 50%** （节省 7GB 或更多）、安装速度提升 2 倍，解析更快。pypi 体积缩小 50%。
* **工具调用已改进。** 更好的 llama.cpp 解析，聊天中不再显示原始工具标记，更快的推理，一个新的工具输出面板，计时器。
* MacOS 和 CPU 现在具有 [数据配方](https://unsloth.ai/docs/zh/xin-zeng/studio/data-recipe) 功能，并支持多文件上传。
* **AMD 在 Linux 上的支持初步** 仅限机器 - 自动检测。
* **设置侧边栏重新设计。** 设置现在已分组为 **模型、采样、工具和偏好**
* **上下文长度** 现在可调整。请注意这并非必须，因为 llama.cpp 会通过 `--fit on`
* **多文件上传。** 数据配方现在支持 PDF、DOCX、TXT 和 MD 的多文件拖放上传，支持后端提取、保存上传和改进的预览。
* **Colab** 现已修复，支持 Unsloth Studio 和免费 T4 GPU！ [在这里试试](https://colab.research.google.com/github/unslothai/unsloth/blob/main/studio/Unsloth_Studio_Colab.ipynb)。由于使用了预编译二进制文件，它也快了 20 倍！
* **更好的聊天可观察性。** Studio 现在显示 `llama-server` 计时和使用情况、上下文窗口使用条，以及更丰富的来源悬停卡片。
* **整体 UX 更好** - 可点击链接、更好的 LaTeX 解析、默认卡片的工具 / 代码 / 网页提示，以及更多！
* **LiteLLM -** Unsloth Studio 和 Unsloth **未** 受到最近 LiteLLM 泄露事件的影响。Nemo Data Designer 仅使用 LiteLLM 到 `1.80`，而不是受影响的 `1.82.7` 或 `1.82.8`，之后已经将其完全移除。
* 我们现在有了一个新的单行安装命令，只需运行：&#x20;

  <pre class="language-bash" data-overflow="wrap" data-expandable="true"><code class="lang-bash">curl -fsSL https://unsloth.ai/install.sh | sh
  </code></pre>

#### **修复：**

* **Windows/安装改进。** 修复了 Windows 静默退出、Anaconda/conda-forge 启动崩溃、损坏的非 NVIDIA Windows 安装，以及缺失的早期 CUDA/旧 venv 设置检查。
* **系统提示已修复。** 它们现在可再次用于非 GGUF 文本和视觉推理。
* **持久化系统提示和预设。** 自定义系统提示和聊天预设现在会在重载和页面切换后继续保留。
* **GGUF 导出扩展。** 完整微调（不只是 LoRA/PEFT）现在也可以导出为 GGUF。基础模型解析更可靠，UI 中不支持的导出选项已被禁用。
* **聊天滚动/布局修复。** 修复了生成过程中的滚动位置问题、思考面板布局偏移，以及折叠推理面板时的视口跳动。
* **更智能的端口冲突检测。** Studio 现在可以检测环回冲突，在可能的情况下识别阻塞进程，并给出更清晰的备用端口消息。
  {% endupdate %}

{% update date="2026-03-17" tags="fixes,improvements" %}

## 新的工具调用 + Windows 稳定性

* Claude Artifacts 可用，因此 HTML 可以像贪吃蛇游戏一样在聊天中执行
* 工具调用准确率提升 30%，尤其对小模型 + 工具调用计时器
* 工具 + 网页搜索输出可保存 + 可切换自动修复工具开/关
* 许多 bug 修复 - Windows CPU 可用，Mac 更流畅，安装更快且体积更小
  {% endupdate %}
  {% endupdates %}
