Unsloth 更新
Unsloth 更新日志,包含我们最新发布、改进和修复。
要使用最新更改, 请更新 Unsloth.
Unsloth API 端点
v0.1.39-beta bug 修复 2026年5月5日
修复了聊天历史不显示(现有聊天历史不会丢失)以及附件未正确附加的问题。该 bug 仅影响渲染——请使用 2026.5.2 或直接调用 curl -fsSL https://unsloth.ai/install.sh | sh 或 unsloth studio update 来更新
你可以将本地 LLM 与如下工具一起使用: Claude Code 和 Codex ,方法是将它们连接到 Unsloth 的 API 端点。这使你能够在本地运行如下模型: Qwen 和 Gemma ,并额外获得自我修复工具调用、代码执行和网页搜索等功能。
将 Unsloth 作为 API 推理端点不仅因为它易于设置且速度快而有益,也因为 Unsloth 提供:
自我修复工具调用,可帮助将损坏或格式错误的工具调用减少 50%
代码执行 支持,允许执行 Bash 和 Python,以获得更准确的代码输出。
高级 网页搜索 ,会访问并真正读取网页以收集深入信息。
自动推理设置 适用于 GGUF 模型(temp、top-k 等)

新模型
我们还加入了一些可运行的新模型,包括 NVIDIA Nemotron 3 Nano Omni、IBM Granite 4.1 和 Mistral 3.5 Medium。我们帮助 Mistral 解决了 transformers 和 GGUF 实现中的一些问题。
Unsloth 更新
已停止的 Studio 训练任务现在可以从检查点恢复。
聊天线程现在会更可靠地自动保存并保持持久。
已修复 DPO 训练在多进程设置中的卡住问题。
通过 MROPE 更新改进了 VLM GRPO 支持。
Studio 的停止按钮现在可以正确停止生成。
修复浏览器刷新后聊天模板消失的问题。
全新 UI 重新设计
大家好,我们全面重做了 Unsloth Studio 的 UI 和 UX 体验,重点强化聊天和训练:
根据社区反馈添加了可折叠侧边栏

你现在可以删除聊天并搜索过往对话


为支持该功能的模型新增“保留思考”开关,例如 Qwen3.6
更简洁、更一致的设计,导航更轻松
扩展了设置页面,可更改头像、名称等更多内容

不再需要两次输入 Hugging Face 令牌
gpt-oss 现在有低、中、高思考切换。
现在使用最新的 llama.cpp 预编译版本,即使在 Linux CUDA 上也是如此
大量 bug、一致性和稳定性修复
Kimi-K2.6 现在可以运行了!
我们还添加了实验性的 API 支持。指南、公告等内容将于下周发布。
Qwen3.6 之前也已在 Unsloth Studio 中支持运行和训练。你现在就可以训练和运行 Qwen3.6-27B!
Qwen3.6-27B + Kimi K2.6
Qwen3.6-27B 现在可以运行(18GB 内存)并在 Unsloth Studio 中进行微调。Kimi K2.6 也可以在 Unsloth 中运行(350GB 内存)。
Unsloth Studio 收到了许多新更新,请务必更新。详情和说明将在接下来的几天发布。
Qwen3.6
Qwen3.6 现在可以在 Unsloth Studio 中运行并进行微调。该模型运行于 23GB 内存,是几乎所有基准测试中最强的中型 LLM。
Gemma 4 更新 + MiniMax-M2.7
Gemma 4 GGUF 现已更新为 Google 官方聊天模板修复(这修复/改进了工具调用),并包含最新的 llama.cpp 修复。更新到最新的 llama.cpp,重新下载量化文件后,你不应再看到 未使用的 token 问题。
MiniMax-M2.7 现已发布!你可以在本地使用我们的 GGUF 以 4 位量化在 128GB 内存 / 统一内存上运行该模型。 MiniMax-M2.7 GGUF
Gemma 4 修复
我们已经更新了 Gemma 4 并修复了许多问题。这些 bug 是通用的,影响了所有训练包和实现,而且 并非源自 Unsloth。我们识别并修复了这些 bug,现在 Gemma 4 训练在 Unsloth 中可以正常工作。
你只需要 8GB 显存 即可在本地训练 Gemma-4-E2B 。Unsloth 训练 Gemma 4 速度快约 1.5 倍,同时使用的显存少约 60% 相比 FA2 设置。关于 Gemma 4 训练的完整指南和笔记本, 请参阅我们的博客.
Gemma 4 训练修复
梯度累积 不再会导致 loss 爆炸。此前,loss 可能飙升到 300–400;预期 loss 约为 10–15.
已修复 IndexError 影响 26B 和 31B 在
transformers.中进行推理时出现的乱码输出 E2B/E4B 当
use_cache=False时。参见 issue #45242.已修复 float16 音频 溢出,源自
-1e9值。
如果你看到 loss 高于 13–15, 例如 100 或 300 - 那么梯度累积很可能被错误处理。此问题已在 Unsloth 和 Unsloth Studio.
Gemma 4 量化文件重新上传
我们也更新了 Gemma 4 GGUF,因此你需要重新下载。再次说明,这些量化问题 与 Unsloth 无关,也不是由 Unsloth 引起的:
CUDA:在融合前检查缓冲区重叠 - 关键修复,适用于
<unused24>tokens - PR #21566kv-cache:支持异构 iSWA 的注意力旋转 - PR #21513vocab:为 Gemma 4 的 BPE 反分词器添加字节 token 处理 - PR #21488convert:设置“add bos”为 True用于 Gemma 4 - PR #21500common:添加 Gemma 4 专用解析器 - PR #21418llama-model:读取final_logit_softcapping用于 Gemma 4 - PR #21390llama:为 Gemma 4 添加自定义换行分割 - PR #21406
Unsloth Studio 更新
添加 推测解码 支持(ngram-mod,默认开启)
Llama.cpp 已更新到最新版本,并包含所有 Gemma 4 修复
修复 Qwen3.5 和 Gemma 4 的训练问题
启用 Gemma 4 模型的导出和保存
加强终端和 Python 工具的沙箱安全性
让 recipe 使用 Chat 中加载的模型
修复导航时(以及切换标签页时)空聊天线程问题,并稳定新建聊天流程
允许非 LLM recipe 运行,并在执行中将 Data 标签页移到最前
复用 HF 缓存仓库的大小写,防止重复下载
Google - Gemma 4
你现在可以运行和训练 Gemma 4 模型于 Unsloth 中。
Intel Mac 现在可正常工作
较小模型的工具调用现在更稳定,不再会被截断
适用于 Windows、Linux、Mac、WSL 设备的预编译二进制 - CPU 和 GPU
已为非视觉模型添加推测解码(可惜 Gemma-4 是视觉模型,Qwen3.5 也是)
上下文长度现在会被正确应用。
网页搜索现在 वास्तव上会获取网页内容,而不仅仅是摘要
HF API 调用减少 90% - 限流更少
工具调用准确率 +50% + 更多支持
所有模型的工具调用现在都 准确率提高了 +30% 到 +80%。
网页搜索现在 वास्तव上会获取网页内容,而不仅仅是摘要
允许的工具调用次数已从 10 次增加到 25 次
工具调用现在能更好地结束,因此循环 / 重复会减少
更多 工具调用修复 以及去重逻辑,也可防止工具调用泄漏 XML
已使用以下模型测试:
unsloth/Qwen3.5-4B-GGUF(UD-Q4_K_XL),启用了网页搜索 + 代码执行 + 思考。
响应中的 XML 泄漏
10/10
0/10
使用的 URL 抓取
0
4/10 次运行
正确歌曲名称的运行次数
0/10
2/10
平均工具调用数
5.5
3.8
平均响应时间
12.3秒
9.8秒
新功能
添加了 自定义文件夹 因此你可以在任意文件夹中使用任何 GGUF——目前可在 Chat 的高级设置和自定义文件夹中访问
更新按钮 现在可见
安装脚本样式全部更新!
初步 推理和训练的自动多 GPU 支持 - 适用于放不进 1 张 GPU 的大模型 - Studio 会自动分配 GPU 资源
Intel Mac 应该开箱即用
Studio 更流畅、更快速
修复大模型下载超时 - 不再看到超时。
修复 Hugging Face 限流 - HF API 调用减少 90%
修复 Windows 上的 bun 问题并加快安装速度
新的重要更新
距离我们上次发布才 2 天,但我们有更重要的更新:
推理现在快了 20–30%。 此前,工具调用和重复惩罚可能会把推理速度拖到低于正常水平。现在每秒 token 的推理表现应与
llama-server/llama.cpp.现在可自动检测较旧或已存在的模型 下载自 LM Studio、Hugging Face, 以及类似来源。
推理 token/s 速度现在计算正确。 此前,tokens/s 包含启动时间,这会让显示的速度看起来比实际更慢。现在它应能反映“真实”的推理速度。
CPU 使用率不再飙升。 此前,内联查询器身份在每次渲染时都会改变,导致
useLiveQuery持续重新订阅。Unsloth Studio 现在有关闭 x 按钮,并且能正确关闭。 此前,通过桌面图标打开后再关闭并不会正确退出。现在,从快捷方式启动也会打开终端,关闭该终端即可完全退出 Unsloth Studio。如果你仍然保留着上一次会话打开的窗口,可以重启电脑或运行
lsof -i :8888然后kill -9 <PID>.更好的工具调用和网页搜索 并减少错误。
文档已更新,新增了大量关于 删除模型、卸载 等内容。
Windows 和 Linux 上的安装与设置日志更简洁、更智能。 输出现在更容易阅读,格式更一致,默认更安静以获得更流畅的体验,并支持更丰富的
--verbose诊断信息,供你在需要完整技术细节时使用。你现在可以查看你的训练历史了!
Unsloth Studio 发布后的首个版本
大家好,这是我们推出 Unsloth Studio 后的首个版本。包含大量新功能和修复:
你现在可以更新 Unsloth Studio 了! 请通过以下方式更新:
unsloth studio updateWindows CPU 或 GPU 现在都能无缝工作。请重新安装!
应用快捷方式。安装后,你现在可以在 Windows、MacOS 和 Linux 上通过开始菜单 / 启动和桌面上的快捷方式图标启动。
预编译
llama.cpp二进制文件 和mamba_ssm- 安装速度快 6 倍!二进制文件大小也小于 300MB。安装体积减少 50% (节省 7GB 或更多)、安装速度提升 2 倍、解析更快。pypi 体积缩小 50%。
工具调用改进。 更好的 llama.cpp 解析、聊天中不再出现原始工具标记、更快的推理、新的工具输出面板、计时器。
MacOS 和 CPU 现在具有 数据 recipe 并支持多文件上传。
Linux 上 AMD 支持初步 仅适用于机器 - 会自动检测。
设置侧边栏重新设计。 设置现在按以下类别分组: 模型、采样、工具和偏好
上下文长度 现在可调。请注意,这其实不需要,因为 llama.cpp 会通过
--fit on多文件上传。 数据 recipe 现在支持对 PDF、DOCX、TXT 和 MD 进行多文件拖放上传,具备后端提取、保存上传和改进的预览。
Colab 中的免费 T4 GPU 现在可在 Unsloth Studio 中正常使用! 在这里试试。由于使用预编译二进制文件,它也快了 20 倍!
更好的聊天可观测性。 Studio 现在显示
llama-server计时与用量、上下文窗口使用条,以及更丰富的来源悬停卡片。整体 UX 更好 - 可点击链接、更好的 LaTeX 解析、默认卡片的工具 / 代码 / 网页提示等等!
LiteLLM - Unsloth Studio 和 Unsloth 未 受到近期 LiteLLM 泄露事件影响。Nemo Data Designer 仅使用 LiteLLM 到
1.80,并非受影响的1.82.7或1.82.8,之后已将其完全移除。我们现在有了新的单行安装命令,只需运行:
修复:
Windows/设置改进。 修复了 Windows 静默退出、Anaconda/conda-forge 启动崩溃、非 NVIDIA Windows 安装损坏,以及缺少早期 CUDA/旧虚拟环境设置检查的问题。
系统提示已修复。 它们现在再次适用于非 GGUF 文本和视觉推理。
持久系统提示和预设。 自定义系统提示和聊天预设现在会在重新加载和页面切换后保持。
GGUF 导出扩展。 现在不仅 LoRA/PEFT,完整微调也可以导出为 GGUF。基础模型解析更可靠,UI 中不受支持的导出选项已被禁用。
聊天滚动/布局修复。 修复了生成期间的滚动位置问题、思考面板布局偏移,以及折叠推理面板时的视口跳动。
更智能的端口冲突检测。 Studio 现在可检测回环冲突,在可能时识别阻塞进程,并给出更清晰的备用端口消息。
最后更新于
这有帮助吗?

