Unsloth Studioでモデルを実行する方法
Unsloth StudioでAIモデル、LLM、GGUFをローカルで実行します。
Unsloth Studio Unsloth Studio は、コンピュータ上で 100% オフラインで AI モデルを実行できるようにします。Hugging Face のモデルやローカルファイルから、GGUF や safetensors といったモデル形式を実行できます。
すべての macOS、CPU、Windows、Linux、WSL 環境で動作します!GPU は不要です
検索 + ダウンロード + 実行 GGUF、LoRA アダプター、safetensors など、あらゆるモデルを
比較 2 つの異なるモデル出力を並べて表示
セルフヒーリングのツール呼び出し / ウェブ検索、 コード実行 および OpenAI 互換 API の呼び出し
自動推論パラメータ チューニング(温度、top-p など)とチャットテンプレートの編集
画像、音声、PDF、コード、DOCX などのファイルをアップロードしてチャットできます。

Unsloth Studio Chat の使い方
モデルの検索と実行
Hugging Face 経由で任意のモデルを検索してダウンロードするか、ローカルファイルを使用できます。
Studio は以下を含む幅広いモデルタイプをサポートしています: GGUF、ビジョン言語(Vision-Language)、および音声合成(Text-to-Speech)モデル。Qwen3.5 のような最新モデルも実行できます Qwen3.5 または NVIDIA Nemotron 3.
画像、音声、PDF、コード、DOCX などのファイルをアップロードしてチャットできます。

Unsloth Studio Chat は自動的に マルチ GPU 構成 で推論を行います。




モデルアリーナ
Studio Chat では、同じプロンプトを使って任意の 2 モデルを並べて比較できます。例:ベースモデルと LoRA アダプターを比較。推論はまず一つのモデルをロードし、その後二つ目をロードします(並列推論は現在開発中です)。

トレーニング後、ベースモデルとファインチューニングしたモデルを同じプロンプトで並べて比較し、何が変わったか、結果が改善されたかを確認できます。
このワークフローにより、ファインチューニングがモデルの応答をどのように変えたか、特定のユースケースで結果が改善されたかを簡単に確認できます。

コンテキストとしてのファイル追加
Studio Chat は会話内でのマルチモーダル入力を直接サポートします。プロンプトの追加コンテキストとしてドキュメント、画像、音声を添付できます。

これにより、PDF、スクリーンショット、参考資料などの実際の入力でモデルがどのように扱うかを簡単にテストできます。ファイルはローカルで処理され、モデルのコンテキストとして含まれます。
llama.cpp を使用した GGUF モデルの利用
Studio でモデルやアダプターをファインチューニングした後、GGUF にエクスポートしてローカルで llama.cpp を使って Studio Chat 内で直接推論を実行できます。Unsloth Studio は llama.cpp と Hugging Face によって動作しています。
最終更新
役に立ちましたか?

