For the complete documentation index, see llms.txt. This page is also available as Markdown.

Unsloth 更新

Unsloth 更新日志,包含我们最新发布、改进和修复。

要使用最新更改, 请更新 Unsloth.

Unsloth API 端点

v0.1.39-beta bug 修复 2026年5月5日

修复了聊天历史不显示(现有聊天历史不会丢失)以及附件未正确附加的问题。该 bug 仅影响渲染——请使用 2026.5.2 或直接调用 curl -fsSL https://unsloth.ai/install.sh | shunsloth studio update 来更新

你可以将本地 LLM 与如下工具一起使用: Claude CodeCodex ,方法是将它们连接到 Unsloth 的 API 端点。这使你能够在本地运行如下模型: QwenGemma ,并额外获得自我修复工具调用、代码执行和网页搜索等功能。

将 Unsloth 作为 API 推理端点不仅因为它易于设置且速度快而有益,也因为 Unsloth 提供:

新模型

我们还加入了一些可运行的新模型,包括 NVIDIA Nemotron 3 Nano Omni、IBM Granite 4.1Mistral 3.5 Medium。我们帮助 Mistral 解决了 transformers 和 GGUF 实现中的一些问题。

Unsloth 更新

  • 已停止的 Studio 训练任务现在可以从检查点恢复。

  • 聊天线程现在会更可靠地自动保存并保持持久。

  • 已修复 DPO 训练在多进程设置中的卡住问题。

  • 通过 MROPE 更新改进了 VLM GRPO 支持。

  • Studio 的停止按钮现在可以正确停止生成。

  • 修复浏览器刷新后聊天模板消失的问题。

全新 UI 重新设计

大家好,我们全面重做了 Unsloth Studio 的 UI 和 UX 体验,重点强化聊天和训练:

  • 根据社区反馈添加了可折叠侧边栏

  • 你现在可以删除聊天并搜索过往对话

  • 为支持该功能的模型新增“保留思考”开关,例如 Qwen3.6

  • 更简洁、更一致的设计,导航更轻松

  • 扩展了设置页面,可更改头像、名称等更多内容

  • 不再需要两次输入 Hugging Face 令牌

  • gpt-oss 现在有低、中、高思考切换。

  • 现在使用最新的 llama.cpp 预编译版本,即使在 Linux CUDA 上也是如此

  • 大量 bug、一致性和稳定性修复

  • Kimi-K2.6 现在可以运行了!

  • 我们还添加了实验性的 API 支持。指南、公告等内容将于下周发布。

Qwen3.6 之前也已在 Unsloth Studio 中支持运行和训练。你现在就可以训练和运行 Qwen3.6-27B!

Qwen3.6-27B + Kimi K2.6

Qwen3.6-27B 现在可以运行(18GB 内存)并在 Unsloth Studio 中进行微调。Kimi K2.6 也可以在 Unsloth 中运行(350GB 内存)。

Unsloth Studio 收到了许多新更新,请务必更新。详情和说明将在接下来的几天发布。

Qwen3.6

Qwen3.6 现在可以在 Unsloth Studio 中运行并进行微调。该模型运行于 23GB 内存,是几乎所有基准测试中最强的中型 LLM。

Gemma 4 更新 + MiniMax-M2.7

Gemma 4 GGUF 现已更新为 Google 官方聊天模板修复(这修复/改进了工具调用),并包含最新的 llama.cpp 修复。更新到最新的 llama.cpp,重新下载量化文件后,你不应再看到 未使用的 token 问题。 MiniMax-M2.7 现已发布!你可以在本地使用我们的 GGUF 以 4 位量化在 128GB 内存 / 统一内存上运行该模型。 MiniMax-M2.7 GGUF

Gemma 4 修复

我们已经更新了 Gemma 4 并修复了许多问题。这些 bug 是通用的,影响了所有训练包和实现,而且 并非源自 Unsloth。我们识别并修复了这些 bug,现在 Gemma 4 训练在 Unsloth 中可以正常工作。

你只需要 8GB 显存 即可在本地训练 Gemma-4-E2B 。Unsloth 训练 Gemma 4 速度快约 1.5 倍,同时使用的显存少约 60% 相比 FA2 设置。关于 Gemma 4 训练的完整指南和笔记本, 请参阅我们的博客.

Gemma 4 训练修复

  1. 梯度累积 不再会导致 loss 爆炸。此前,loss 可能飙升到 300–400;预期 loss 约为 10–15.

  2. 已修复 IndexError 影响 26B31Btransformers.

  3. 中进行推理时出现的乱码输出 E2B/E4Buse_cache=False时。参见 issue #45242.

  4. 已修复 float16 音频 溢出,源自 -1e9 值。

如果你看到 loss 高于 13–15, 例如 100300 - 那么梯度累积很可能被错误处理。此问题已在 UnslothUnsloth Studio.

Gemma 4 量化文件重新上传

我们也更新了 Gemma 4 GGUF,因此你需要重新下载。再次说明,这些量化问题 与 Unsloth 无关,也不是由 Unsloth 引起的:

  1. CUDA:在融合前检查缓冲区重叠 - 关键修复,适用于 <unused24> tokens - PR #21566

  2. kv-cache:支持异构 iSWA 的注意力旋转 - PR #21513

  3. vocab:为 Gemma 4 的 BPE 反分词器添加字节 token 处理 - PR #21488

  4. convert:设置 “add bos”为 True 用于 Gemma 4 - PR #21500

  5. common:添加 Gemma 4 专用解析器 - PR #21418

  6. llama-model:读取 final_logit_softcapping 用于 Gemma 4 - PR #21390

  7. llama:为 Gemma 4 添加自定义换行分割 - PR #21406

Unsloth Studio 更新

  • 添加 推测解码 支持(ngram-mod,默认开启)

  • Llama.cpp 已更新到最新版本,并包含所有 Gemma 4 修复

  • 修复 Qwen3.5 和 Gemma 4 的训练问题

  • 启用 Gemma 4 模型的导出和保存

  • 加强终端和 Python 工具的沙箱安全性

  • 让 recipe 使用 Chat 中加载的模型

  • 修复导航时(以及切换标签页时)空聊天线程问题,并稳定新建聊天流程

  • 允许非 LLM recipe 运行,并在执行中将 Data 标签页移到最前

  • 复用 HF 缓存仓库的大小写,防止重复下载

Google - Gemma 4

  • 你现在可以运行和训练 Gemma 4 模型于 Unsloth 中。

  • Intel Mac 现在可正常工作

  • 用于 2 个 Gemma-4 修复的 llama.cpp 预编译二进制:

    • vocab:修复 Gemma4 tokenizer(#21343)

    • 修复:gemma 4 模板(#21326)

  • 较小模型的工具调用现在更稳定,不再会被截断

  • 适用于 Windows、Linux、Mac、WSL 设备的预编译二进制 - CPU 和 GPU

  • 已为非视觉模型添加推测解码(可惜 Gemma-4 是视觉模型,Qwen3.5 也是)

  • 上下文长度现在会被正确应用。

  • 网页搜索现在 वास्तव上会获取网页内容,而不仅仅是摘要

  • HF API 调用减少 90% - 限流更少

工具调用准确率 +50% + 更多支持

  • 所有模型的工具调用现在都 准确率提高了 +30% 到 +80%。

  • 网页搜索现在 वास्तव上会获取网页内容,而不仅仅是摘要

  • 允许的工具调用次数已从 10 次增加到 25 次

  • 工具调用现在能更好地结束,因此循环 / 重复会减少

  • 更多 工具调用修复 以及去重逻辑,也可防止工具调用泄漏 XML

  • 已使用以下模型测试: unsloth/Qwen3.5-4B-GGUF (UD-Q4_K_XL),启用了网页搜索 + 代码执行 + 思考。

指标
之前
之后

响应中的 XML 泄漏

10/10

0/10

使用的 URL 抓取

0

4/10 次运行

正确歌曲名称的运行次数

0/10

2/10

平均工具调用数

5.5

3.8

平均响应时间

12.3秒

9.8秒

新功能

  • 添加了 自定义文件夹 因此你可以在任意文件夹中使用任何 GGUF——目前可在 Chat 的高级设置和自定义文件夹中访问

  • 更新按钮 现在可见

  • 安装脚本样式全部更新!

  • 初步 推理和训练的自动多 GPU 支持 - 适用于放不进 1 张 GPU 的大模型 - Studio 会自动分配 GPU 资源

  • Intel Mac 应该开箱即用

Studio 更流畅、更快速

  • 修复大模型下载超时 - 不再看到超时。

  • 修复 Hugging Face 限流 - HF API 调用减少 90%

  • 修复 Windows 上的 bun 问题并加快安装速度

新的重要更新

距离我们上次发布才 2 天,但我们有更重要的更新:

  • 推理现在快了 20–30%。 此前,工具调用和重复惩罚可能会把推理速度拖到低于正常水平。现在每秒 token 的推理表现应与 llama-server / llama.cpp.

  • 现在可自动检测较旧或已存在的模型 下载自 LM Studio、Hugging Face, 以及类似来源。

  • 推理 token/s 速度现在计算正确。 此前,tokens/s 包含启动时间,这会让显示的速度看起来比实际更慢。现在它应能反映“真实”的推理速度。

  • CPU 使用率不再飙升。 此前,内联查询器身份在每次渲染时都会改变,导致 useLiveQuery 持续重新订阅。

  • Unsloth Studio 现在有关闭 x 按钮,并且能正确关闭。 此前,通过桌面图标打开后再关闭并不会正确退出。现在,从快捷方式启动也会打开终端,关闭该终端即可完全退出 Unsloth Studio。如果你仍然保留着上一次会话打开的窗口,可以重启电脑或运行 lsof -i :8888 然后 kill -9 <PID>.

  • 更好的工具调用和网页搜索 并减少错误。

  • 文档已更新,新增了大量关于 删除模型、卸载 等内容。

  • Windows 和 Linux 上的安装与设置日志更简洁、更智能。 输出现在更容易阅读,格式更一致,默认更安静以获得更流畅的体验,并支持更丰富的 --verbose 诊断信息,供你在需要完整技术细节时使用。

  • 你现在可以查看你的训练历史了!

Unsloth Studio 发布后的首个版本

大家好,这是我们推出 Unsloth Studio 后的首个版本。包含大量新功能和修复:

  • 你现在可以更新 Unsloth Studio 了! 请通过以下方式更新: unsloth studio update

  • Windows CPU 或 GPU 现在都能无缝工作。请重新安装!

  • 应用快捷方式。安装后,你现在可以在 Windows、MacOS 和 Linux 上通过开始菜单 / 启动和桌面上的快捷方式图标启动。

  • 预编译 llama.cpp 二进制文件mamba_ssm - 安装速度快 6 倍!二进制文件大小也小于 300MB。

  • 安装体积减少 50% (节省 7GB 或更多)、安装速度提升 2 倍、解析更快。pypi 体积缩小 50%。

  • 工具调用改进。 更好的 llama.cpp 解析、聊天中不再出现原始工具标记、更快的推理、新的工具输出面板、计时器。

  • MacOS 和 CPU 现在具有 数据 recipe 并支持多文件上传。

  • Linux 上 AMD 支持初步 仅适用于机器 - 会自动检测。

  • 设置侧边栏重新设计。 设置现在按以下类别分组: 模型、采样、工具和偏好

  • 上下文长度 现在可调。请注意,这其实不需要,因为 llama.cpp 会通过 --fit on

  • 多文件上传。 数据 recipe 现在支持对 PDF、DOCX、TXT 和 MD 进行多文件拖放上传,具备后端提取、保存上传和改进的预览。

  • Colab 中的免费 T4 GPU 现在可在 Unsloth Studio 中正常使用! 在这里试试。由于使用预编译二进制文件,它也快了 20 倍!

  • 更好的聊天可观测性。 Studio 现在显示 llama-server 计时与用量、上下文窗口使用条,以及更丰富的来源悬停卡片。

  • 整体 UX 更好 - 可点击链接、更好的 LaTeX 解析、默认卡片的工具 / 代码 / 网页提示等等!

  • LiteLLM - Unsloth Studio 和 Unsloth 受到近期 LiteLLM 泄露事件影响。Nemo Data Designer 仅使用 LiteLLM 到 1.80,并非受影响的 1.82.71.82.8,之后已将其完全移除。

  • 我们现在有了新的单行安装命令,只需运行:

修复:

  • Windows/设置改进。 修复了 Windows 静默退出、Anaconda/conda-forge 启动崩溃、非 NVIDIA Windows 安装损坏,以及缺少早期 CUDA/旧虚拟环境设置检查的问题。

  • 系统提示已修复。 它们现在再次适用于非 GGUF 文本和视觉推理。

  • 持久系统提示和预设。 自定义系统提示和聊天预设现在会在重新加载和页面切换后保持。

  • GGUF 导出扩展。 现在不仅 LoRA/PEFT,完整微调也可以导出为 GGUF。基础模型解析更可靠,UI 中不受支持的导出选项已被禁用。

  • 聊天滚动/布局修复。 修复了生成期间的滚动位置问题、思考面板布局偏移,以及折叠推理面板时的视口跳动。

  • 更智能的端口冲突检测。 Studio 现在可检测回环冲突,在可能时识别阻塞进程,并给出更清晰的备用端口消息。

新的工具调用 + Windows 稳定性

  • Claude Artifacts 可用,因此 HTML 可以像聊天内的贪吃蛇游戏一样执行

  • 工具调用准确率提高 30%,尤其对小模型更明显 + 工具调用计时器

  • 工具 + 网页搜索输出可保存 + 可切换工具自动修复的开/关

  • 大量 bug 修复 - Windows CPU 可用,Mac 更流畅,安装更快且更小

最后更新于

这有帮助吗?