comment-dotsUnsloth Studioでモデルを実行する方法

Unsloth StudioでAIモデル、LLM、GGUFをローカルで実行します。

Unsloth Studio Unsloth Studio は、コンピュータ上で 100% オフラインで AI モデルを実行できるようにします。Hugging Face のモデルやローカルファイルから、GGUF や safetensors といったモデル形式を実行できます。

  • すべての macOS、CPU、Windows、Linux、WSL 環境で動作します!GPU は不要です

  • 検索 + ダウンロード + 実行 GGUF、LoRA アダプター、safetensors など、あらゆるモデルを

  • 比較 2 つの異なるモデル出力を並べて表示

  • セルフヒーリングのツール呼び出し / ウェブ検索、 コード実行 および OpenAI 互換 API の呼び出し

  • 自動推論パラメータ チューニング(温度、top-p など)とチャットテンプレートの編集

  • 画像、音声、PDF、コード、DOCX などのファイルをアップロードしてチャットできます。

Unsloth Studio Chat の使い方

モデルの検索と実行

Hugging Face 経由で任意のモデルを検索してダウンロードするか、ローカルファイルを使用できます。

Studio は以下を含む幅広いモデルタイプをサポートしています: GGUF、ビジョン言語(Vision-Language)、および音声合成(Text-to-Speech)モデル。Qwen3.5 のような最新モデルも実行できます Qwen3.5 または NVIDIA Nemotron 3.

画像、音声、PDF、コード、DOCX などのファイルをアップロードしてチャットできます。

circle-check

コード実行

Unsloth Studio をあなた専用のアクティブアシスタントに変えましょう。Studio では LLM がサンドボックス内でコードやプログラムを実行できるため、計算、データ分析、コードのテスト、ファイル生成、実際の計算による回答の検証などが可能です。

これによりモデルの回答はより信頼性が高く、正確になります。

自動修復のツール呼び出し

Unsloth Studio はツール呼び出しやウェブ検索を可能にするだけでなく、モデルが起こす可能性のあるエラーを自動的に修正します。

これにより常に推論出力が得られます 〜なしで 壊れたツール呼び出し。

自動パラメータチューニング

温度などの推論パラメータは temperature(温度), top-p, top-k Qwen3.5 のような新しいモデル向けに自動的に事前設定されるため、設定を気にせずに最良の出力を得ることができます。

パラメータは手動で調整したり、システムプロンプトを編集してモデルの振る舞いを制御することもできます。

チャットワークスペース

プロンプトを入力し、任意のドキュメント、画像(webp、png)、コードファイル、txt、音声などを追加のコンテキストとして添付し、モデルの応答をリアルタイムで確認できます。

Thinking(思考)+ Web 検索をオンまたはオフに切り替え可能。

モデルアリーナ

Studio Chat では、同じプロンプトを使って任意の 2 モデルを並べて比較できます。例:ベースモデルと LoRA アダプターを比較。推論はまず一つのモデルをロードし、その後二つ目をロードします(並列推論は現在開発中です)。

トレーニング後、ベースモデルとファインチューニングしたモデルを同じプロンプトで並べて比較し、何が変わったか、結果が改善されたかを確認できます。

このワークフローにより、ファインチューニングがモデルの応答をどのように変えたか、特定のユースケースで結果が改善されたかを簡単に確認できます。

コンテキストとしてのファイル追加

Studio Chat は会話内でのマルチモーダル入力を直接サポートします。プロンプトの追加コンテキストとしてドキュメント、画像、音声を添付できます。

これにより、PDF、スクリーンショット、参考資料などの実際の入力でモデルがどのように扱うかを簡単にテストできます。ファイルはローカルで処理され、モデルのコンテキストとして含まれます。

llama.cpp を使用した GGUF モデルの利用

Studio でモデルやアダプターをファインチューニングした後、GGUF にエクスポートしてローカルで llama.cpp を使って Studio Chat 内で直接推論を実行できます。Unsloth Studio は llama.cpp と Hugging Face によって動作しています。

ローカル GGUF 推論

GGUF モデルは他のモデルと同様に Studio Chat で実行され、同じインターフェースと生成設定を使用します。

システムのメモリ要件に応じて、異なる量子化バリアントを選択できます。

circle-check

最終更新

役に立ちましたか?