# Unsloth Studioでモデルを実行する方法 [Unsloth Studio](/docs/jp/xin-zhe/studio.md) これにより、AIモデルをコンピュータ上で100%オフライン実行できます。Hugging Faceまたはローカルファイルから、GGUFやsafetensorsなどのモデル形式を実行できます。 * **すべてのMacOS、CPU、Windows、Linux、WSL環境で動作します！GPUは不要です** * [**自己修復するツール呼び出し**](#auto-healing-tool-calling)**,** 高度な [**Web検索**](#advanced-web-search), [**コード実行**](#code-execution) * UnslothをOpenAI互換の推論として使用する [**APIエンドポイント**](/docs/jp/ji-ben/api.md) * 検索 + ダウンロード + 実行 + [比較](#model-arena) GGUF、LoRAアダプター、safetensorsなど、あらゆるモデル * [**推論パラメータの自動**](#auto-parameter-tuning) 調整（temp、top-pなど）とチャットテンプレートの編集 * 画像、音声、PDF、コード、DOCXなどのファイルをアップロードしてチャットできます。

### Unsloth Studio Chatの使用 {% hint style="success" %} Unsloth Studio Chatは自動的に **マルチGPU構成** で推論できます。 {% endhint %} {% columns %} {% column %} #### コード実行 Unsloth Studioでは、LLMがJavaScriptだけでなくBashやPythonも実行できます。さらにClaude Artifactsのようにプログラムをサンドボックス化し、モデルがコードをテストし、ファイルを生成し、実際の計算で回答を検証できるようにします。これにより、モデルの回答はより信頼性が高く正確になります。 {% endcolumn %} {% column %}

{% endcolumn %} {% endcolumns %} {% columns %} {% column %} #### 自己修復するツール呼び出し Unsloth Studioは [ツール呼び出し](#id-50-tool-calling-accuracy)を許可するだけでなく、形式が崩れたツール呼び出しや壊れたツール呼び出しを50%自動修正します。つまり、常に推論出力を得られます **壊れたツール呼び出しなしで** 。例: Qwen3.5-4Bは20以上のWebサイトを検索し、ソースを引用しました。Web検索は思考トレース内で行われました。 {% endcolumn %} {% column %}

{% endcolumn %} {% endcolumns %} {% columns %} {% column %} #### 高度なWeb検索 UnslothのWeb検索は、実際にページへ直接アクセスして関連情報やデータを収集し、サイト要約をただ走査するだけではありません。これにより、より正確で詳細な情報とコンテキストを含む出力が得られます。 {% endcolumn %} {% column %}

{% endcolumn %} {% endcolumns %} {% columns %} {% column %} #### UnslothをAPIエンドポイントとして使用する現在、次のようなツールを通じてローカルLLMを使用できます [Claude Code](/docs/jp/ji-ben/claude-code.md) と [Codex](/docs/jp/ji-ben/codex.md) UnslothのAPIエンドポイントに接続することで。これにより、自己修復するツール呼び出し、Web検索などを含むUnslothの推論を使って、これらのツール内でQwenやGemmaモデルを直接実行できるようになります。 {% endcolumn %} {% column %}

{% endcolumn %} {% endcolumns %} {% columns %} {% column %} #### モデルを検索して実行する Hugging Face経由で任意のモデルを検索・ダウンロードするか、ローカルファイルを使用できます。 Studioは幅広い種類のモデルに対応しています。例えば **GGUF**、視覚言語モデル、音声合成モデルなどです。最新のモデルを実行できます。例えば [Qwen3.5](/docs/jp/moderu/qwen3.5.md) やNVIDIAの [Nemotron 3](/docs/jp/moderu/nemotron-3.md). 画像、音声、PDF、コード、DOCXなどのファイルをアップロードしてチャットできます。 {% endcolumn %} {% column %}

{% endcolumn %} {% endcolumns %} {% columns %} {% column %} #### 推論設定の自動化次のような推論パラメータは **temperature**, **top-p**, **top-k** Qwen3.5のような新しいモデル向けに自動で事前設定されるため、設定を気にせず最適な出力を得られます。パラメータを手動で調整したり、システムプロンプトを編集したりすることもできます。 llama.cppのスマート自動コンテキストにより、必要なコンテキストだけを使用し、余計なものを読み込まないため、コンテキスト長の調整はもう必要ありません。 {% endcolumn %} {% column %}

{% endcolumn %} {% endcolumns %} {% columns %} {% column %} #### チャットワークスペースプロンプトを入力し、追加のコンテキストとして任意のドキュメント、画像（webp、png）、コードファイル、txt、音声を添付し、モデルの応答をリアルタイムで確認できます。オン/オフ切り替え: 思考 + Web検索。 {% endcolumn %} {% column %}

{% endcolumn %} {% endcolumns %} ### **+50% ツール呼び出し精度** Unslothには、ツール呼び出しを改善するいくつかの独自機能があります。例えば: * Unslothのすべてのモデルでのツール呼び出しは **30%〜80%高精度**. * Web検索は要約だけでなく実際のWebコンテンツを取得します。 * 許可されるツール呼び出しの最大数は **25を超えます。** * ツール呼び出しの終了信頼性が向上し、ループや繰り返し呼び出しが減少します。 * 改善されたツール呼び出し修復と重複排除ロジックにより、XMLが出力に漏れるのを防ぎます。テスト結果を見る `unsloth/Qwen3.5-4B-GGUF (UD-Q4_K_XL)` Web検索、コード実行、思考を有効にした場合: | 指標 | 通常のツール呼び出し | Unslothのツール呼び出し | | ----------- | ---------- | --------------- | | 応答内のXML漏れ | 10/10 | 0/10 | | 使用されたURL取得 | 0 | 10回中4回 | | 正しい曲名になった回数 | 0/10 | 2/10 | | 平均ツール呼び出し回数 | 5.5 | 3.8 | | 平均応答時間 | 12.3秒 | 9.8秒 | ### モデルアリーナ Studio Chatでは、同じプロンプトを使って任意の2つのモデルを並べて比較できます。例: ベースモデルとLoRAアダプターを比較できます。推論ではまず1つ目のモデルを読み込み、次に2つ目を読み込みます（並列推論は現在対応中です）。

{% columns %} {% column %} 学習後は、同じプロンプトでベースモデルとファインチューニング済みモデルを並べて比較し、何が変わったか、結果が改善したかを確認できます。このワークフローにより、ファインチューニングによってモデルの応答がどう変化し、自分の用途で結果が改善したかを簡単に確認できます。 {% endcolumn %} {% column %}

{% endcolumn %} {% endcolumns %} {% hint style="success" %} Unsloth Studio Chatは自動的に **マルチGPU構成** で推論できます。 {% endhint %} ### 古い / 既存のGGUFモデルの使用 {% columns %} {% column %} **4月1日更新:** 既存のフォルダを選択して、Unslothに検出させられるようになりました。 **3月27日更新:** Unsloth Studioは現在 **古い / 既存のモデルを自動検出します** Hugging Face、LM Studioなどからダウンロードされたもの {% endcolumn %} {% column %}

{% endcolumn %} {% endcolumns %} **手動手順:** Unsloth Studioは、Hugging Face Hubのキャッシュにダウンロードされたモデルを検出します `(C:\Users{your_username}.cache\huggingface\hub)`。LM Studio経由でダウンロードしたGGUFモデルは、次の場所に保存されます `C:\Users\{your_username}.cache\lm-studio\models` ***または*** `C:\Users{your_username}\lm-studio\models` であり、デフォルトではllama.cppからは見えません。Unsloth Studioで読み込めるようにするには、これらの.ggufファイルをHugging Face Hubのキャッシュディレクトリ（またはllama.cppがアクセス可能な別のパス）へ移動またはコピーする必要があります。 Studioでモデルやアダプターをファインチューニングした後、GGUFにエクスポートして、Studio Chat内で **llama.cpp** を使ってローカル推論を直接実行できます。Unsloth Studioはllama.cppとHugging Faceによって動作しています。 ### ファイルをコンテキストとして追加する Studio Chatは会話内でマルチモーダル入力を直接サポートします。ドキュメント、画像、音声をプロンプトの追加コンテキストとして添付できます。

これにより、PDF、スクリーンショット、参考資料などの実世界の入力をモデルがどう扱うかを簡単にテストできます。ファイルはローカルで処理され、モデルのコンテキストとして含まれます。 ### **モデルファイルの削除** モデル検索のゴミ箱アイコンから、またはデフォルトのHugging Faceキャッシュディレクトリから該当するキャッシュ済みモデルフォルダを削除することで、古いモデルファイルを削除できます。デフォルトでは、Hugging Faceは `~/.cache/huggingface/hub/` をmacOS/Linux/WSLで使用し、 `C:\Users\\.cache\huggingface\hub\` をWindowsで使用します。 * **MacOS、Linux、WSL:** `~/.cache/huggingface/hub/` * **Windows:** `%USERPROFILE%\.cache\huggingface\hub\` もし `HF_HUB_CACHE` または `HF_HOME` が設定されている場合は、そちらの場所を使用してください。LinuxとWSLでは `XDG_CACHE_HOME` でデフォルトのキャッシュルートを変更することもできます。 ### **UnslothがGPUを検出または使用しない** モデルが特にDockerでGPUを使用していない場合は、次を試してください: 最新のイメージを手動で取得: ```bash docker pull unsloth/unsloth:latest ``` * GPUアクセス付きでコンテナを起動: * `docker run`: `--gpus all` * Docker Compose: `capabilities: [gpu]` * Linuxでは、NVIDIA Container Toolkitがインストールされていることを確認してください。 * Windowsでは: * 次を確認してください `nvcc --version` が `nvidia-smi` * に表示されるCUDAバージョンと一致していること。 [次を参照: https://docs.docker.com/desktop/features/gpu/](https://docs.docker.com/desktop/features/gpu/) --- # Agent Instructions: Querying This Documentation If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question. Perform an HTTP GET request on the current page URL with the `ask` query parameter: ``` GET https://unsloth.ai/docs/jp/xin-zhe/studio/chat.md?ask= ``` The question should be specific, self-contained, and written in natural language. The response will contain a direct answer to the question and relevant excerpts and sources from the documentation. Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.