Unsloth Studioでモデルを実行する方法
Unsloth Studioを使ってAIモデル、LLM、GGUFをローカルで実行します。
Unsloth Studio AIモデルをあなたのコンピュータ上で100%オフラインで実行できます。Hugging Face から、またはローカルファイルから、GGUF や safetensors のようなモデル形式を実行できます。
MacOS、CPU、Windows、Linux、WSL のすべての環境で動作します!GPU は不要です
検索 + ダウンロード + 実行 GGUF、LoRA アダプター、safetensors など、あらゆるモデル
比較 2つの異なるモデル出力を横並びで
自己修復するツール呼び出し / ウェブ検索、 コード実行 および OpenAI 互換 API の呼び出し
推論パラメータの自動 調整(temp、top-p など)とチャットテンプレートの編集
画像、音声、PDF、コード、DOCX など、さまざまなファイル形式をアップロードしてチャットできます。

Unsloth Studio Chat の使用
モデルの検索と実行
Hugging Face 経由で任意のモデルを検索・ダウンロードすることも、ローカルファイルを使うこともできます。
Studio は幅広いモデルタイプに対応しており、以下を含みます GGUF、ビジョン・ランゲージ、テキスト読み上げモデル。次のような最新モデルを実行できます Qwen3.5 または NVIDIA Nemotron 3.
画像、音声、PDF、コード、DOCX など、さまざまなファイル形式をアップロードしてチャットできます。

Unsloth Studio Chat は自動的に マルチ GPU 構成 での推論に対応します。




モデルアリーナ
Studio Chat では、同じプロンプトを使って任意の 2 つのモデルを横並びで比較できます。たとえば、ベースモデルと LoRA アダプターを比較できます。推論はまず 1 つ目のモデルで読み込まれ、その後 2 つ目のモデルで行われます(並列推論は現在対応中です)。

学習後は、同じプロンプトでベースモデルとファインチューニング済みモデルを横並びで比較し、何が変わったか、結果が改善したかを確認できます。
このワークフローにより、ファインチューニングがモデルの応答をどのように変えたか、また自分の用途で結果が改善したかを簡単に確認できます。

ファイルをコンテキストとして追加
Studio Chat は会話内でマルチモーダル入力を直接サポートします。文書、画像、音声をプロンプトの追加コンテキストとして添付できます。

これにより、PDF、スクリーンショット、参考資料などの実際の入力をモデルがどう扱うかを簡単にテストできます。ファイルはローカルで処理され、モデルのコンテキストとして含まれます。
古い / 既存の GGUF モデルの使用
はい、以前 Hugging Face などからダウンロードした既存のモデルや古いモデル、GGUF を使用できます。Unsloth Studio は、Hugging Face Hub のキャッシュに既にダウンロード済みのモデルを自動的に検出します (C:\Users{your_username}.cache\huggingface\hub)。LM Studio 経由でダウンロードした GGUF モデルがある場合、それらは C:\Users{your_username}.cache\lm-studio\models に保存されており、デフォルトでは llama.cpp からは見えません。Unsloth Studio で読み込むには、それらの .gguf ファイルを Hugging Face Hub のキャッシュディレクトリ(または llama.cpp がアクセス可能な別のパス)に移動またはコピーする必要があります。
Studio でモデルやアダプターのファインチューニング後、GGUF にエクスポートして、Studio Chat 内で llama.cpp を使ったローカル推論を直接実行できます。Unsloth Studio は llama.cpp と Hugging Face によって支えられています。
最終更新
役に立ちましたか?

