Unslothの更新情報

最新リリース、改善、修正に関するUnslothの変更履歴。

最新の変更を使うには、 Unsloth を更新してください.

Unsloth API エンドポイント

v0.1.39-beta のバグ修正 2026年5月5日

チャット履歴が表示されない問題(既存のチャット履歴は失われません)と、添付ファイルが正しく添付されない問題を修正しました。これは表示のみのバグでした - 2026.5.2 または直接次を呼び出してください curl -fsSL https://unsloth.ai/install.sh | sh または unsloth studio update を使って更新してください

次のようなツールを使ってローカルLLMを利用できます: Claude CodeCodex をUnslothのAPIエンドポイントに接続することで。これにより、次のようなモデルをローカルで実行できます: QwenGemma さらに、自己修復型のツール呼び出し、コード実行、Web検索などの追加機能も利用できます。

UnslothをAPI推論エンドポイントとして使う利点は、セットアップが簡単で高速なだけでなく、Unslothが次の機能を提供することにもあります:

  • 自己修復型ツール呼び出し。これにより、壊れた、または不正なツール呼び出しを50%削減できます

  • コード実行 サポート。BashとPythonの実行が可能になり、より正確なコード出力を得られます。

  • 高度な Web検索 で、ページを訪問して実際に読み取り、詳細な情報を収集します。

  • 自動推論設定 GGUFモデル用(temp、top-k など)

新しいモデル

NVIDIA の Nemotron 3 Nano Omni、IBM の Granite 4.1Mistral 3.5 Medium など、実行できる新しいモデルもいくつか追加しました。transformers と GGUF 実装に関するいくつかの問題解決を Mistral と一緒に支援しました。

Unsloth の更新

  • 停止した Studio の学習実行をチェックポイントから再開できるようになりました。

  • チャットスレッドがより確実に自動保存・保持されるようになりました。

  • マルチプロセス環境での DPO 学習のハングを修正しました。

  • MROPE の更新により、VLM GRPO サポートが改善されました。

  • Studio の停止ボタンが、正しく生成を停止するようになりました。

  • ブラウザ更新後にチャットテンプレートが消える問題を修正しました。

まったく新しい UI の再設計

みなさん、チャットと学習を重視するために、Unsloth Studio の UI と UX 全体を刷新しました:

  • コミュニティのフィードバックに基づく折りたたみ可能なサイドバーを追加

  • チャットの削除と過去の会話の検索ができるようになりました

  • Qwen3.6 のような対応モデル向けの新しい「思考を保持」トグルを追加

  • よりすっきりして一貫性のあるデザインで、ナビゲーションも簡単に

  • プロフィール画像、名前などを変更できるオプションを備えた設定ページを拡張

  • Hugging Face トークンを2回入力する必要がなくなりました

  • gpt-oss に低・中・高の思考トグルが追加されました。

  • Linux CUDA 上でも、最新の llama.cpp の事前ビルドを使用するようになりました

  • 多数のバグ修正、一貫性改善、安定性向上

  • Kimi-K2.6 を実行できるようになりました!

  • 実験的なAPIサポートも追加しました。ガイドや告知などは来週公開します。

Qwen3.6 は、以前から Unsloth Studio での実行と学習に対応していました。今すぐ Qwen3.6-27B を学習・実行できます!

Qwen3.6-27B + Kimi K2.6

Qwen3.6-27B は、今では Unsloth Studio で実行(18GB RAM)および微調整が可能です。Kimi K2.6 も Unsloth 上で実行できます(350GB RAM)。

Unsloth Studio に多くの新しい更新が入ったので、更新してください。詳細と解説は数日以内に公開します。

Qwen3.6

Qwen3.6 は、今では Unsloth Studio で実行および微調整が可能です。このモデルは 23GB RAM で動作し、ほぼすべてのベンチマークで最強の中規模 LLM です。

Gemma 4 アップデート + MiniMax-M2.7

Gemma 4 GGUF は、Google 公式のチャットテンプレート修正(ツール呼び出しの修正・改善)と最新の llama.cpp 修正を反映して更新されました。最新の llama.cpp に更新し、量子化ファイルを再ダウンロードすれば、 未使用トークン の問題はもう表示されないはずです。 MiniMax-M2.7 が公開されました! 128GB RAM / ユニファイドメモリ上で、4ビット量子化の GGUF を使ってローカル実行できます。 MiniMax-M2.7 GGUF

Gemma 4 の修正

Gemma 4 を 多くの修正で更新しました。これらのバグは普遍的なもので、すべての学習パッケージと実装に影響し、 Unsloth から発生したものではありません。私たちがバグを特定して修正し、現在は Unsloth で Gemma 4 の学習が正しく動作します。

必要なのは 8GB の VRAM だけで、 Gemma-4-E2B をローカルで学習できます。Unsloth は Gemma 4 を 約1.5倍高速に、かつ約60%少ないVRAMで FA2 構成より学習します。Gemma 4 学習の完全ガイドとノートブックは、 ブログをご覧ください.

Gemma 4 学習の修正

  1. 勾配蓄積 は、もはや損失爆発を引き起こしませんでした。以前は損失が 300〜400まで急上昇することがありました。期待される損失は約 10〜15.

  2. を修正しました IndexError に影響していた 26B31B 推論の transformers.

  3. での文字化け出力を修正しました E2B/E4Buse_cache=Falseの場合。参照: issue #45242.

  4. 修正しました float16 の音声-1e9 の値でオーバーフローする問題。

損失が 13〜15 を超えている場合、 100 または 300 - 勾配蓄積が正しく処理されていない可能性があります。これは両方で修正済みです UnslothUnsloth Studio.

Gemma 4 の量子化ファイル再アップロード

Gemma 4 GGUF も更新したため、再ダウンロードが必要です。繰り返しますが、これらの量子化の問題は Unsloth とは関係なく、また Unsloth が原因でもありません:

  1. CUDA: 連結前にバッファの重なりをチェック - <unused24> トークン向けの重大な修正 - PR #21566

  2. kv-cache: 異種 iSWA 向けの attention rotation をサポート - PR #21513

  3. vocab: Gemma 4 用 BPE デトークナイザにバイトトークン処理を追加 - PR #21488

  4. convert: "add bos" == True を Gemma 4 用に設定 - PR #21500

  5. common: Gemma 4 専用パーサーを追加 - PR #21418

  6. llama-model: 読み取り final_logit_softcapping を Gemma 4 用に設定 - PR #21390

  7. llama: Gemma 4 用のカスタム改行分割を追加 - PR #21406

Unsloth Studio の更新

  • 追加 speculative decoding サポート(ngram-mod、デフォルトで有効)

  • llama.cpp を最新バージョンに更新し、すべての Gemma 4 の修正を反映

  • Qwen3.5 と Gemma 4 の学習問題を修正

  • Gemma 4 モデルのエクスポートと保存を有効化

  • ターミナルと Python ツールのサンドボックスセキュリティを強化

  • レシピが Chat で読み込まれたモデルを使えるようにする

  • 移動時に空のチャットスレッドができる問題(タブ切り替え時も)を修正し、新規チャットの流れを安定化

  • 非LLMレシピの実行を許可し、実行時に Data タブを先頭に移動

  • HF のキャッシュ済みリポジトリの大文字小文字を再利用して重複ダウンロードを防止

Google - Gemma 4

  • 現在、 Gemma 4 モデルを Unsloth で実行・学習できます。

  • Intel Mac が使えるようになりました

  • llama.cpp 用の事前コンパイル済みバイナリに、Gemma-4 の2つの修正:

    • vocab: Gemma4 トークナイザを修正(#21343)

    • fix: gemma 4 テンプレート(#21326)

  • 小規模モデルのツール呼び出しがより安定し、途中で切れなくなりました

  • Windows、Linux、Mac、WSL デバイス向けの事前コンパイル済みバイナリ - CPU と GPU

  • 非 vision モデル向けに speculative decoding を追加(Gemma-4 は残念ながら vision、Qwen3.5 も)

  • コンテキスト長が正しく適用されるようになりました。

  • Web検索は、要約だけでなく実際のWebコンテンツを取得するようになりました

  • HF API 呼び出しを90%削減 - レート制限が緩和

ツール呼び出し精度 +50% + サポート拡大

  • すべてのモデルのツール呼び出しが +30%〜+80% ほどより正確になりました。

  • Web検索は、要約だけでなく実際のWebコンテンツを取得するようになりました

  • 許可されるツール呼び出し数を 10 から 25 に増加

  • ツール呼び出しの終了が大幅に改善され、ループや繰り返しが減少します

  • さらに多くの ツール呼び出しの修復 と重複排除ロジックにより、ツール呼び出しが XML を漏らす問題も防止

  • 次でテスト済み unsloth/Qwen3.5-4B-GGUF (UD-Q4_K_XL)、Web検索 + コード実行 + 思考を有効化。

指標

応答内の XML 漏れ

10/10

0/10

使用された URL フェッチ

0

10回中4回

正しい曲名で実行できた回数

0/10

2/10

平均ツール呼び出し回数

5.5

3.8

平均応答時間

12.3秒

9.8秒

新機能

  • 追加 カスタムフォルダ を追加したので、任意のフォルダ内の GGUF を使えるようになりました - 現在は Chat と Custom Folders の Advanced Settings からアクセスできます

  • 更新ボタンが 表示されるようになりました

  • インストールスクリプトのスタイルを全面更新!

  • 初期 推論と学習のための自動マルチGPUサポート - 1枚のGPUに収まらない大規模モデルに便利 - Studio auto がGPUリソースを割り当てます

  • Intel Mac はそのままで動作するはずです

さらに滑らかで高速な Studio

  • 大きなモデルのダウンロードタイムアウトを修正 - タイムアウトはもう発生しません。

  • Hugging Face のレート制限を修正 - HF API 呼び出しを90%削減

  • Windows 上の bun を修正し、インストールを高速化

新しい重要な更新

前回のリリースからまだ2日しか経っていませんが、より重要な更新があります:

  • 推論が20〜30%高速になりました。 以前は、ツール呼び出しと繰り返しペナルティが推論速度を通常より遅くすることがありました。推論 tokens/s は今や llama-server / llama.cpp.

  • を同じようにしたものとして動作するはずです。古い、または既存のモデルを自動検出するようになりました からダウンロードされたもの LM Studio、Hugging Face、 および同様のソース。

  • 推論の tokens/s 速度が正しく計算されるようになりました。 以前は tokens/s に起動時間が含まれていたため、表示速度が実際より遅く見えていました。今後は「真の」推論速度を反映するはずです。

  • CPU 使用率が急上昇しなくなりました。 以前は、インラインクエリの ID が描画のたびに変わっていたため、 useLiveQuery が継続的に再サブスクライブしていました。

  • Unsloth Studio に終了用の x ボタンが追加され、正しく終了するようになりました。 以前は、デスクトップアイコンから起動した後に閉じても、正しく終了しませんでした。今では、ショートカットから起動するとターミナルも開き、そのターミナルを閉じると Unsloth Studio が完全に終了します。前回のセッションからまだ開いている場合は、PC を再起動するか、次を実行してください lsof -i :8888 その後 kill -9 <PID>.

  • さらに優れたツール呼び出しとWeb検索 エラーを減らして。

  • 多くの新情報を含む更新済みドキュメント: モデルの削除、アンインストール など。

  • Windows と Linux 全体で、よりすっきりして賢いインストールおよびセットアップのログ。 出力は一貫した書式で読みやすくなり、デフォルトでは静かでより滑らかな体験になり、より豊富な --verbose 診断を、詳細な技術情報が必要なときに利用できます。

  • 学習履歴を表示できるようになりました!

Unsloth Studio 後の最初のリリース

みなさん、これは Unsloth Studio を公開してから最初のリリースです。新機能と修正がたくさんあります:

  • Unsloth Studio を更新できるようになりました! 次の方法で更新してください: unsloth studio update

  • Windows CPU または GPU がシームレスに動作するようになりました。再インストールしてください!

  • アプリのショートカット。インストール後は、Windows、MacOS、Linux で Start / Launch と Desktop のショートカットアイコンから起動できるようになりました。

  • 事前コンパイル済み llama.cpp バイナリmamba_ssm - インストールが6倍高速に! バイナリサイズも300MB未満です。

  • インストールサイズを50%削減 (-7GB以上節約)、インストールは2倍高速になり、解決も高速化。pypi サイズも50%小さくなりました。

  • ツール呼び出しが改善されました。 llama.cpp の解析が改善され、チャットに生のツールマークアップが表示されず、推論が高速化し、新しい Tool Outputs パネルやタイマーも追加されました。

  • MacOS と CPU では現在、 Data Recipes が複数ファイルのアップロード付きで有効になっています。

  • Linux 向け AMD サポートは初期対応 のみのマシン - 自動検出します。

  • 設定サイドバーを再設計しました。 設定は現在、次の項目にグループ化されています: Model、Sampling、Tools、Preferences

  • コンテキスト長 は現在調整可能です。なお、llama.cpp は --fit on

  • を使って必要な正確なコンテキストを賢く利用するため、これは必須ではありません。 複数ファイルのアップロード。

  • Colab の無料 T4 GPU で Unsloth Studio が使えるように修正されました! こちらで試してください。事前コンパイル済みバイナリのおかげで、20倍高速でもあります!

  • チャットの可観測性が改善されました。 Studio で llama-server タイミングと使用状況、コンテキストウィンドウ使用バー、よりリッチなソースのホバーカードが表示されるようになりました。

  • 全体的に UX が改善 - クリック可能なリンク、より良い LaTeX 解析、デフォルトカード向けのツール / コード / Web のツールチップなど、さらに多数!

  • LiteLLM - Unsloth Studio と Unsloth は 影響を受けていません 最近の LiteLLM の侵害による。Nemo Data Designer は LiteLLM を 1.80までしか使っておらず、影響を受けた 1.82.7 または 1.82.8ものではありません。その後、完全に削除しました。

  • 新しい1行インストールコマンドができました。次を実行するだけです:

修正点:

  • Windows/セットアップの改善。 Windows のサイレント終了、Anaconda/conda-forge の起動クラッシュ、NVIDIA 以外の Windows インストールの不具合、初期 CUDA や古い venv のセットアップ確認漏れを修正しました。

  • システムプロンプトを修正しました。 非 GGUF のテキストおよび vision 推論で再び動作します。

  • 永続的なシステムプロンプトとプリセット。 カスタムシステムプロンプトとチャットプリセットが、再読み込みやページ変更後も保持されるようになりました。

  • GGUF エクスポートを拡張。 LoRA/PEFT だけでなく、フルファインチューニングも GGUF にエクスポートできるようになりました。ベースモデルの解決がより信頼性の高いものになり、未対応のエクスポートオプションはUIで無効化されています。

  • チャットのスクロール/レイアウト修正。 生成中のスクロール位置の問題、思考パネルのレイアウトずれ、推論パネルを折りたたんだときのビューポートのジャンプを修正しました。

  • より賢いポート競合検出。 Studio がループバック競合を検出するようになり、可能な場合はブロックしているプロセスを特定し、よりわかりやすいフォールバックポートメッセージを表示します。

新しいツール呼び出し + Windows の安定性

  • Claude Artifacts が動作するので、チャット内で HTML をヘビゲームのように実行できます

  • 小規模モデル向けに特に、ツール呼び出し精度が30%向上 + ツール呼び出し用タイマーを追加

  • Tool + Web Search の出力を保存可能に + 自動修復ツールのオン/オフ切り替え

  • 多くのバグ修正 - Windows の CPU が動作、Mac がよりシームレスに、インストールがより高速かつ小型に

最終更新

役に立ちましたか?