Unsloth Studioでモデルを実行する方法

Unsloth Studioを使ってAIモデル、LLM、GGUFをローカルで実行します。

Unsloth Studio これにより、AIモデルをコンピュータ上で100%オフライン実行できます。Hugging Faceまたはローカルファイルから、GGUFやsafetensorsなどのモデル形式を実行できます。

Unsloth Studio Chatの使用

コード実行

Unsloth Studioでは、LLMがJavaScriptだけでなくBashやPythonも実行できます。さらにClaude Artifactsのようにプログラムをサンドボックス化し、モデルがコードをテストし、ファイルを生成し、実際の計算で回答を検証できるようにします。

これにより、モデルの回答はより信頼性が高く正確になります。

自己修復するツール呼び出し

Unsloth Studioは ツール呼び出しを許可するだけでなく、形式が崩れたツール呼び出しや壊れたツール呼び出しを50%自動修正します。

つまり、常に推論出力を得られます 壊れたツール呼び出しなしで

例: Qwen3.5-4Bは20以上のWebサイトを検索し、ソースを引用しました。Web検索は思考トレース内で行われました。

高度なWeb検索

UnslothのWeb検索は、実際にページへ直接アクセスして関連情報やデータを収集し、サイト要約をただ走査するだけではありません。これにより、より正確で詳細な情報とコンテキストを含む出力が得られます。

UnslothをAPIエンドポイントとして使用する

現在、次のようなツールを通じてローカルLLMを使用できます Claude CodeCodex UnslothのAPIエンドポイントに接続することで。これにより、自己修復するツール呼び出し、Web検索などを含むUnslothの推論を使って、これらのツール内でQwenやGemmaモデルを直接実行できるようになります。

モデルを検索して実行する

Hugging Face経由で任意のモデルを検索・ダウンロードするか、ローカルファイルを使用できます。

Studioは幅広い種類のモデルに対応しています。例えば GGUF、視覚言語モデル、音声合成モデルなどです。最新のモデルを実行できます。例えば Qwen3.5 やNVIDIAの Nemotron 3.

画像、音声、PDF、コード、DOCXなどのファイルをアップロードしてチャットできます。

推論設定の自動化

次のような推論パラメータは temperature, top-p, top-k Qwen3.5のような新しいモデル向けに自動で事前設定されるため、設定を気にせず最適な出力を得られます。パラメータを手動で調整したり、システムプロンプトを編集したりすることもできます。

llama.cppのスマート自動コンテキストにより、必要なコンテキストだけを使用し、余計なものを読み込まないため、コンテキスト長の調整はもう必要ありません。

チャットワークスペース

プロンプトを入力し、追加のコンテキストとして任意のドキュメント、画像(webp、png)、コードファイル、txt、音声を添付し、モデルの応答をリアルタイムで確認できます。

オン/オフ切り替え: 思考 + Web検索。

+50% ツール呼び出し精度

Unslothには、ツール呼び出しを改善するいくつかの独自機能があります。例えば:

  • Unslothのすべてのモデルでのツール呼び出しは 30%〜80%高精度.

  • Web検索は要約だけでなく実際のWebコンテンツを取得します。

  • 許可されるツール呼び出しの最大数は 25を超えます。

  • ツール呼び出しの終了信頼性が向上し、ループや繰り返し呼び出しが減少します。

  • 改善されたツール呼び出し修復と重複排除ロジックにより、XMLが出力に漏れるのを防ぎます。

テスト結果を見る unsloth/Qwen3.5-4B-GGUF (UD-Q4_K_XL) Web検索、コード実行、思考を有効にした場合:

指標
通常のツール呼び出し
Unslothのツール呼び出し

応答内のXML漏れ

10/10

0/10

使用されたURL取得

0

10回中4回

正しい曲名になった回数

0/10

2/10

平均ツール呼び出し回数

5.5

3.8

平均応答時間

12.3秒

9.8秒

モデルアリーナ

Studio Chatでは、同じプロンプトを使って任意の2つのモデルを並べて比較できます。例: ベースモデルとLoRAアダプターを比較できます。推論ではまず1つ目のモデルを読み込み、次に2つ目を読み込みます(並列推論は現在対応中です)。

学習後は、同じプロンプトでベースモデルとファインチューニング済みモデルを並べて比較し、何が変わったか、結果が改善したかを確認できます。

このワークフローにより、ファインチューニングによってモデルの応答がどう変化し、自分の用途で結果が改善したかを簡単に確認できます。

古い / 既存のGGUFモデルの使用

4月1日更新: 既存のフォルダを選択して、Unslothに検出させられるようになりました。

3月27日更新: Unsloth Studioは現在 古い / 既存のモデルを自動検出します Hugging Face、LM Studioなどからダウンロードされたもの

手動手順: Unsloth Studioは、Hugging Face Hubのキャッシュにダウンロードされたモデルを検出します (C:\Users{your_username}.cache\huggingface\hub)。LM Studio経由でダウンロードしたGGUFモデルは、次の場所に保存されます C:\Users\{your_username}.cache\lm-studio\models または C:\Users{your_username}\lm-studio\models であり、デフォルトではllama.cppからは見えません。Unsloth Studioで読み込めるようにするには、これらの.ggufファイルをHugging Face Hubのキャッシュディレクトリ(またはllama.cppがアクセス可能な別のパス)へ移動またはコピーする必要があります。

Studioでモデルやアダプターをファインチューニングした後、GGUFにエクスポートして、Studio Chat内で llama.cpp を使ってローカル推論を直接実行できます。Unsloth Studioはllama.cppとHugging Faceによって動作しています。

ファイルをコンテキストとして追加する

Studio Chatは会話内でマルチモーダル入力を直接サポートします。ドキュメント、画像、音声をプロンプトの追加コンテキストとして添付できます。

これにより、PDF、スクリーンショット、参考資料などの実世界の入力をモデルがどう扱うかを簡単にテストできます。ファイルはローカルで処理され、モデルのコンテキストとして含まれます。

モデルファイルの削除

モデル検索のゴミ箱アイコンから、またはデフォルトのHugging Faceキャッシュディレクトリから該当するキャッシュ済みモデルフォルダを削除することで、古いモデルファイルを削除できます。デフォルトでは、Hugging Faceは ~/.cache/huggingface/hub/ をmacOS/Linux/WSLで使用し、 C:\Users\<username>\.cache\huggingface\hub\ をWindowsで使用します。

  • MacOS、Linux、WSL: ~/.cache/huggingface/hub/

  • Windows: %USERPROFILE%\.cache\huggingface\hub\

もし HF_HUB_CACHE または HF_HOME が設定されている場合は、そちらの場所を使用してください。LinuxとWSLでは XDG_CACHE_HOME でデフォルトのキャッシュルートを変更することもできます。

UnslothがGPUを検出または使用しない

モデルが特にDockerでGPUを使用していない場合は、次を試してください:

最新のイメージを手動で取得:

  • GPUアクセス付きでコンテナを起動:

    • docker run: --gpus all

    • Docker Compose: capabilities: [gpu]

  • Linuxでは、NVIDIA Container Toolkitがインストールされていることを確認してください。

  • Windowsでは:

最終更新

役に立ちましたか?