Unsloth Studioでモデルを実行する方法
Unsloth Studioを使ってAIモデル、LLM、GGUFをローカルで実行します。
Unsloth Studio これにより、AIモデルをコンピュータ上で100%オフライン実行できます。Hugging Faceまたはローカルファイルから、GGUFやsafetensorsなどのモデル形式を実行できます。
すべてのMacOS、CPU、Windows、Linux、WSL環境で動作します!GPUは不要です
自己修復するツール呼び出し, 高度な Web検索, コード実行
UnslothをOpenAI互換の推論として使用する APIエンドポイント
検索 + ダウンロード + 実行 + 比較 GGUF、LoRAアダプター、safetensorsなど、あらゆるモデル
推論パラメータの自動 調整(temp、top-pなど)とチャットテンプレートの編集
画像、音声、PDF、コード、DOCXなどのファイルをアップロードしてチャットできます。

Unsloth Studio Chatの使用
Unsloth Studio Chatは自動的に マルチGPU構成 で推論できます。

自己修復するツール呼び出し
Unsloth Studioは ツール呼び出しを許可するだけでなく、形式が崩れたツール呼び出しや壊れたツール呼び出しを50%自動修正します。
つまり、常に推論出力を得られます 壊れたツール呼び出しなしで 。
例: Qwen3.5-4Bは20以上のWebサイトを検索し、ソースを引用しました。Web検索は思考トレース内で行われました。


UnslothをAPIエンドポイントとして使用する
現在、次のようなツールを通じてローカルLLMを使用できます Claude Code と Codex UnslothのAPIエンドポイントに接続することで。これにより、自己修復するツール呼び出し、Web検索などを含むUnslothの推論を使って、これらのツール内でQwenやGemmaモデルを直接実行できるようになります。

モデルを検索して実行する
Hugging Face経由で任意のモデルを検索・ダウンロードするか、ローカルファイルを使用できます。
Studioは幅広い種類のモデルに対応しています。例えば GGUF、視覚言語モデル、音声合成モデルなどです。最新のモデルを実行できます。例えば Qwen3.5 やNVIDIAの Nemotron 3.
画像、音声、PDF、コード、DOCXなどのファイルをアップロードしてチャットできます。



+50% ツール呼び出し精度
Unslothには、ツール呼び出しを改善するいくつかの独自機能があります。例えば:
Unslothのすべてのモデルでのツール呼び出しは 30%〜80%高精度.
Web検索は要約だけでなく実際のWebコンテンツを取得します。
許可されるツール呼び出しの最大数は 25を超えます。
ツール呼び出しの終了信頼性が向上し、ループや繰り返し呼び出しが減少します。
改善されたツール呼び出し修復と重複排除ロジックにより、XMLが出力に漏れるのを防ぎます。
テスト結果を見る unsloth/Qwen3.5-4B-GGUF (UD-Q4_K_XL) Web検索、コード実行、思考を有効にした場合:
応答内のXML漏れ
10/10
0/10
使用されたURL取得
0
10回中4回
正しい曲名になった回数
0/10
2/10
平均ツール呼び出し回数
5.5
3.8
平均応答時間
12.3秒
9.8秒
モデルアリーナ
Studio Chatでは、同じプロンプトを使って任意の2つのモデルを並べて比較できます。例: ベースモデルとLoRAアダプターを比較できます。推論ではまず1つ目のモデルを読み込み、次に2つ目を読み込みます(並列推論は現在対応中です)。

学習後は、同じプロンプトでベースモデルとファインチューニング済みモデルを並べて比較し、何が変わったか、結果が改善したかを確認できます。
このワークフローにより、ファインチューニングによってモデルの応答がどう変化し、自分の用途で結果が改善したかを簡単に確認できます。

Unsloth Studio Chatは自動的に マルチGPU構成 で推論できます。
古い / 既存のGGUFモデルの使用
4月1日更新: 既存のフォルダを選択して、Unslothに検出させられるようになりました。
3月27日更新: Unsloth Studioは現在 古い / 既存のモデルを自動検出します Hugging Face、LM Studioなどからダウンロードされたもの

手動手順: Unsloth Studioは、Hugging Face Hubのキャッシュにダウンロードされたモデルを検出します (C:\Users{your_username}.cache\huggingface\hub)。LM Studio経由でダウンロードしたGGUFモデルは、次の場所に保存されます C:\Users\{your_username}.cache\lm-studio\models または C:\Users{your_username}\lm-studio\models であり、デフォルトではllama.cppからは見えません。Unsloth Studioで読み込めるようにするには、これらの.ggufファイルをHugging Face Hubのキャッシュディレクトリ(またはllama.cppがアクセス可能な別のパス)へ移動またはコピーする必要があります。
Studioでモデルやアダプターをファインチューニングした後、GGUFにエクスポートして、Studio Chat内で llama.cpp を使ってローカル推論を直接実行できます。Unsloth Studioはllama.cppとHugging Faceによって動作しています。
ファイルをコンテキストとして追加する
Studio Chatは会話内でマルチモーダル入力を直接サポートします。ドキュメント、画像、音声をプロンプトの追加コンテキストとして添付できます。

これにより、PDF、スクリーンショット、参考資料などの実世界の入力をモデルがどう扱うかを簡単にテストできます。ファイルはローカルで処理され、モデルのコンテキストとして含まれます。
モデルファイルの削除
モデル検索のゴミ箱アイコンから、またはデフォルトのHugging Faceキャッシュディレクトリから該当するキャッシュ済みモデルフォルダを削除することで、古いモデルファイルを削除できます。デフォルトでは、Hugging Faceは ~/.cache/huggingface/hub/ をmacOS/Linux/WSLで使用し、 C:\Users\<username>\.cache\huggingface\hub\ をWindowsで使用します。
MacOS、Linux、WSL:
~/.cache/huggingface/hub/Windows:
%USERPROFILE%\.cache\huggingface\hub\
もし HF_HUB_CACHE または HF_HOME が設定されている場合は、そちらの場所を使用してください。LinuxとWSLでは XDG_CACHE_HOME でデフォルトのキャッシュルートを変更することもできます。
UnslothがGPUを検出または使用しない
モデルが特にDockerでGPUを使用していない場合は、次を試してください:
最新のイメージを手動で取得:
GPUアクセス付きでコンテナを起動:
docker run:--gpus allDocker Compose:
capabilities: [gpu]
Linuxでは、NVIDIA Container Toolkitがインストールされていることを確認してください。
Windowsでは:
次を確認してください
nvcc --versionがnvidia-smiに表示されるCUDAバージョンと一致していること。 次を参照: https://docs.docker.com/desktop/features/gpu/
最終更新
役に立ちましたか?

