comment-dotsUnsloth Studioでモデルを実行する方法

Unsloth Studioを使ってAIモデル、LLM、GGUFをローカルで実行します。

Unsloth Studio AIモデルをあなたのコンピュータ上で100%オフラインで実行できます。Hugging Face から、またはローカルファイルから、GGUF や safetensors のようなモデル形式を実行できます。

  • MacOS、CPU、Windows、Linux、WSL のすべての環境で動作します!GPU は不要です

  • 検索 + ダウンロード + 実行 GGUF、LoRA アダプター、safetensors など、あらゆるモデル

  • 比較 2つの異なるモデル出力を横並びで

  • 自己修復するツール呼び出し / ウェブ検索、 コード実行 および OpenAI 互換 API の呼び出し

  • 推論パラメータの自動 調整(temp、top-p など)とチャットテンプレートの編集

  • 画像、音声、PDF、コード、DOCX など、さまざまなファイル形式をアップロードしてチャットできます。

Unsloth Studio Chat の使用

モデルの検索と実行

Hugging Face 経由で任意のモデルを検索・ダウンロードすることも、ローカルファイルを使うこともできます。

Studio は幅広いモデルタイプに対応しており、以下を含みます GGUF、ビジョン・ランゲージ、テキスト読み上げモデル。次のような最新モデルを実行できます Qwen3.5 または NVIDIA Nemotron 3.

画像、音声、PDF、コード、DOCX など、さまざまなファイル形式をアップロードしてチャットできます。

circle-check

コード実行

Unsloth Studio では、LLM が JavaScript だけでなく Bash と Python も実行できます。また、Claude Artifacts のようにプログラムをサンドボックス化するため、モデルはコードをテストし、ファイルを生成し、実際の計算で回答を検証できます。

これにより、モデルからの回答はより信頼性が高く、正確になります。

自動修復するツール呼び出し

Unsloth Studio はツール呼び出しやウェブ検索を許可するだけでなく、発生しうるエラーも自動で修正します。

つまり、常に推論出力を得られます ツール呼び出しが 壊れていても

たとえば、Qwen3.5-4B は 20 以上のウェブサイトを検索して出典を引用し、ウェブ検索は思考トレース内で行われました。

パラメータの自動調整

以下のような推論パラメータは temperature, top-p, top-k Qwen3.5 のような新しいモデル向けに自動で事前設定されるため、設定を気にせず最適な出力を得られます。パラメータを手動で調整したり、システムプロンプトを編集したりすることもできます。

llama.cpp のスマートな自動コンテキストにより、必要なコンテキストだけを使用し、余計なものを読み込まないため、コンテキスト長の調整はもはや不要です。

チャットワークスペース

プロンプトを入力し、文書、画像(webp、png)、コードファイル、txt、音声などを追加コンテキストとして添付し、モデルの応答をリアルタイムで確認できます。

切り替えオン/オフ: 思考 + ウェブ検索。

モデルアリーナ

Studio Chat では、同じプロンプトを使って任意の 2 つのモデルを横並びで比較できます。たとえば、ベースモデルと LoRA アダプターを比較できます。推論はまず 1 つ目のモデルで読み込まれ、その後 2 つ目のモデルで行われます(並列推論は現在対応中です)。

学習後は、同じプロンプトでベースモデルとファインチューニング済みモデルを横並びで比較し、何が変わったか、結果が改善したかを確認できます。

このワークフローにより、ファインチューニングがモデルの応答をどのように変えたか、また自分の用途で結果が改善したかを簡単に確認できます。

ファイルをコンテキストとして追加

Studio Chat は会話内でマルチモーダル入力を直接サポートします。文書、画像、音声をプロンプトの追加コンテキストとして添付できます。

これにより、PDF、スクリーンショット、参考資料などの実際の入力をモデルがどう扱うかを簡単にテストできます。ファイルはローカルで処理され、モデルのコンテキストとして含まれます。

古い / 既存の GGUF モデルの使用

はい、以前 Hugging Face などからダウンロードした既存のモデルや古いモデル、GGUF を使用できます。Unsloth Studio は、Hugging Face Hub のキャッシュに既にダウンロード済みのモデルを自動的に検出します (C:\Users{your_username}.cache\huggingface\hub)。LM Studio 経由でダウンロードした GGUF モデルがある場合、それらは C:\Users{your_username}.cache\lm-studio\models に保存されており、デフォルトでは llama.cpp からは見えません。Unsloth Studio で読み込むには、それらの .gguf ファイルを Hugging Face Hub のキャッシュディレクトリ(または llama.cpp がアクセス可能な別のパス)に移動またはコピーする必要があります。

Studio でモデルやアダプターのファインチューニング後、GGUF にエクスポートして、Studio Chat 内で llama.cpp を使ったローカル推論を直接実行できます。Unsloth Studio は llama.cpp と Hugging Face によって支えられています。

ローカル GGUF 推論

GGUF モデルは、同じインターフェースと生成設定を使って、他のモデルと同じように Studio Chat で実行されます。

システムのメモリ要件に応じて、さまざまな量子化バリアントを選択できます。

circle-check

最終更新

役に立ちましたか?