# Unsloth Studio でモデルを実行する方法

[Unsloth Studio](https://unsloth.ai/docs/jp/xin-zhe/studio) これを使うと、AIモデルを100%オフラインでコンピューター上で実行できます。Hugging Face から、またはローカルファイルから、GGUF や safetensors などのモデル形式を実行できます。

* **MacOS、CPU、Windows、Linux、WSL のすべての環境で動作します！GPUは不要です**
* **検索 + ダウンロード + 実行** GGUF、LoRA アダプター、safetensors など、どんなモデルでも
* [**比較**](#model-arena) 2つの異なるモデル出力を横並びで
* [**自己修復ツール呼び出し**](#auto-healing-tool-calling) / Web検索、 [**コード実行**](#code-execution) そして OpenAI 互換 API を呼び出す
* [**推論パラメータの自動**](#auto-parameter-tuning) 調整（temp、top-p など）とチャットテンプレートの編集
* 画像、音声、PDF、コード、DOCX など、さまざまなファイル形式をアップロードしてチャットできます。

<div data-with-frame="true"><figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Ft1WkYzHmOVMXumiz71N0%2Ftoolcalling%20chat%20preview.png?alt=media&#x26;token=a1741a6c-bf24-4df8-9f27-ce21b868dbdf" alt="" width="563"><figcaption></figcaption></figure></div>

### Unsloth Studio Chat の使い方

{% columns %}
{% column %}

#### モデルの検索と実行

Hugging Face 経由で任意のモデルを検索・ダウンロードするか、ローカルファイルを使用できます。

Studio は、以下を含む幅広い種類のモデルをサポートしています **GGUF**、視覚言語モデル、音声合成モデルです。次のような最新モデルも実行できます [Qwen3.5](https://unsloth.ai/docs/jp/moderu/qwen3.5) または NVIDIA [Nemotron 3](https://unsloth.ai/docs/jp/moderu/nemotron-3).

画像、音声、PDF、コード、DOCX など、さまざまなファイル形式をアップロードしてチャットできます。
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FBf3UDywdNSlvCBhUuVsp%2FScreenshot%202026-03-17%20at%2012.34.23%E2%80%AFAM.png?alt=media&#x26;token=b6127cbf-76f7-48da-b869-3760ed5e9b42" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% hint style="success" %}
Unsloth Studio Chat は自動的に次でも動作します **マルチGPU構成** での推論。
{% endhint %}

{% columns %}
{% column %}

#### コード実行

Unsloth Studio では、LLM が Bash や Python を実行できます。JavaScript だけではありません。さらに、Claude Artifacts のようにプログラムをサンドボックス化するため、モデルはコードをテストし、ファイルを生成し、実際の計算で回答を検証できます。

これにより、モデルの回答はより信頼性が高く、正確になります。
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fel6jjv4rUTRCRwcRpIr7%2Flong%20code%20exec.png?alt=media&#x26;token=9d3d5930-0fdc-4d97-941c-983e5629296d" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% columns %}
{% column %}

#### 自動修復ツール呼び出し

Unsloth Studio は、ツール呼び出しや Web 検索を許可するだけでなく、発生しうるエラーも自動で修正します。

つまり、常に推論出力が **壊れたツール呼び出し** なしで得られます。&#x20;

例: Qwen3.5-4B は 20以上のWebサイトを検索し、思考トレース内で Web 検索を行いながら、出典を引用しました。
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FXPQGEEr1YoKofrTatAKK%2Ftoolcallingif.gif?alt=media&#x26;token=25d68698-fb13-4c46-99b2-d39fb025df08" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% columns %}
{% column %}

#### パラメータの自動調整

次のような推論パラメータ **temperature**, **top-p**, **top-k** は、Qwen3.5 のような新しいモデル向けに自動で事前設定されるため、設定を気にせず最適な出力を得られます。パラメータを手動で調整したり、システムプロンプトを編集したりすることもできます。

llama.cpp のスマート自動コンテキストにより、コンテキスト長の調整はもう不要です。必要な分だけのコンテキストを使い、余計なものは読み込みません。
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FAQKsjtynvCXKtadvKhq1%2FRecording%202026-03-13%20114257.gif?alt=media&#x26;token=b5bfff0c-8189-4358-9344-08d0ae17782a" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% columns %}
{% column %}

#### チャットワークスペース

プロンプトを入力し、追加のコンテキストとして任意のドキュメント、画像（webp、png）、コードファイル、txt、音声を添付して、モデルの応答をリアルタイムで確認できます。

オン／オフ切り替え: 思考 + Web検索。
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FHlOKWnSB6slhE1EXgAeZ%2Fimage.png?alt=media&#x26;token=b5bdfe4e-fe0e-4a2a-9eba-b04b15a79018" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

### モデルアリーナ

Studio Chat では、同じプロンプトを使って任意の2つのモデルを横並びで比較できます。例: ベースモデルと LoRa アダプターを比較。推論はまず1つ目のモデルを読み込み、その後2つ目を読み込みます（並列推論は開発中です）。

<div data-with-frame="true"><figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FC3xjqlunbpUr7nx6sQ4j%2Fimage.png?alt=media&#x26;token=65501d63-1346-4a1e-b055-c94294a24305" alt="" width="563"><figcaption></figcaption></figure></div>

{% columns %}
{% column %}
学習後は、同じプロンプトでベースモデルとファインチューニング済みモデルを並べて比較し、何が変わったか、結果が改善したかを確認できます。

このワークフローにより、ファインチューニングでモデルの応答がどう変わったか、そして用途に対して結果が改善したかを簡単に確認できます。
{% endcolumn %}

{% column %}

<div align="center" data-with-frame="true"><figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FVgnE7eMPQk2vaFboJ4BU%2Fmodel%20arena%20closeup.png?alt=media&#x26;token=8b0a910b-440c-4859-a846-0060e61e157b" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% hint style="success" %}
Unsloth Studio Chat は自動で次で動作します **マルチGPU構成** での推論。
{% endhint %}

### 古い / 既存の GGUF モデルの使用

{% columns %}
{% column %}
**4月1日の更新:** 既存のフォルダーを選択して、Unsloth に検出させられるようになりました。

**3月27日の更新:** Unsloth Studio は現在 **古い / 既存のモデルを自動検出します** Hugging Face、LM Studio などからダウンロードされたものを。
{% endcolumn %}

{% column %}

<figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FBn3Fs1cchFchl328wSOs%2FScreenshot%202026-04-05%20at%205.43.57%E2%80%AFAM.png?alt=media&#x26;token=cc57ec6e-653a-4824-8e8d-a6bfbcd27493" alt=""><figcaption></figcaption></figure>
{% endcolumn %}
{% endcolumns %}

**手動手順:** Unsloth Studio は、Hugging Face Hub のキャッシュにダウンロードされたモデルを検出します `(C:\Users{your_username}.cache\huggingface\hub)`. LM Studio 経由でダウンロードした GGUF モデルがある場合、それらは `C:\Users\{your_username}.cache\lm-studio\models` ***または*** `C:\Users{your_username}\lm-studio\models` に保存され、既定では llama.cpp からは見えません。Unsloth Studio で読み込むには、それらの .gguf ファイルを Hugging Face Hub のキャッシュディレクトリ（または llama.cpp がアクセス可能な別のパス）に移動またはコピーする必要があります。

Studio でモデルやアダプターをファインチューニングした後、GGUF にエクスポートして、Studio Chat で **llama.cpp** を直接使ってローカル推論を実行できます。Unsloth Studio は llama.cpp と Hugging Face によって動作しています。

### ファイルをコンテキストとして追加

Studio Chat は、会話内でマルチモーダル入力を直接サポートします。ドキュメント、画像、音声をプロンプトの追加コンテキストとして添付できます。

<div data-with-frame="true"><figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FSitddQpGkOwUvirMem5P%2Fimage.png?alt=media&#x26;token=43b7af91-ea86-4279-a787-b4b444640d82" alt="" width="563"><figcaption></figcaption></figure></div>

これにより、PDF、スクリーンショット、参考資料などの実際の入力に対してモデルがどう対応するかを簡単にテストできます。ファイルはローカルで処理され、モデルのコンテキストとして含まれます。

### **モデルファイルの削除**

古いモデルファイルは、モデル検索のゴミ箱アイコンから削除するか、既定の Hugging Face キャッシュディレクトリから該当するキャッシュ済みモデルフォルダーを削除することで消去できます。既定では、Hugging Face は `~/.cache/huggingface/hub/` macOS/Linux/WSL では `C:\Users\<username>\.cache\huggingface\hub\` Windows では

* **MacOS、Linux、WSL:** `~/.cache/huggingface/hub/`
* **Windows:** `%USERPROFILE%\.cache\huggingface\hub\`

もし `HF_HUB_CACHE` または `HF_HOME` が設定されている場合は、その場所を使用してください。Linux と WSL では、 `XDG_CACHE_HOME` で既定のキャッシュルートを変更することもできます。

### **Unsloth が GPU を検出または使用していない**

特に Docker でモデルが GPU を使用していない場合は、次を試してください:

最新イメージを手動で取得:

```bash
 docker pull unsloth/unsloth:latest
```

* GPU アクセスを有効にしてコンテナを起動:
  * `docker run`: `--gpus all`
  * Docker Compose: `capabilities: [gpu]`
* Linux では、NVIDIA Container Toolkit がインストールされていることを確認してください。
* Windows では:
  * 次を確認してください `nvcc --version` が、次に表示される CUDA バージョンと一致していることを `nvidia-smi`
  * 以下を参照: <https://docs.docker.com/desktop/features/gpu/>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/jp/xin-zhe/studio/chat.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
