comment-dotsUnsloth Studio でモデルを実行する方法

Unsloth Studio を使って AI モデル、LLM、GGUF をローカルで実行しましょう。

Unsloth Studio これにより、AIモデルをコンピューター上で100%オフラインで実行できます。Hugging Face から、またはローカルファイルから、GGUF や safetensors などのモデル形式を実行できます。

  • MacOS、CPU、Windows、Linux、WSL のすべての環境で動作します!GPU は不要です

  • 検索 + ダウンロード + 実行 GGUF、LoRA アダプター、safetensors など、あらゆるモデル

  • 比較 2つの異なるモデル出力を並べて比較

  • 自己修復型ツール呼び出し / ウェブ検索、 コード実行 および OpenAI 互換 API の呼び出し

  • 推論パラメータの自動 調整(temp、top-p など)とチャットテンプレートの編集

  • 画像、音声、PDF、コード、DOCX など、さまざまなファイル形式をアップロードしてチャットできます。

Unsloth Studio Chat の使用

モデルの検索と実行

Hugging Face 経由で任意のモデルを検索・ダウンロードするか、ローカルファイルを使用できます。

Studio は、以下を含む幅広いモデルタイプをサポートしています。 GGUF、視覚言語モデル、テキスト読み上げモデルです。次のような最新モデルを実行できます。 Qwen3.5 または NVIDIA Nemotron 3.

画像、音声、PDF、コード、DOCX など、さまざまなファイル形式をアップロードしてチャットできます。

circle-check

コード実行

Unsloth Studio では、LLM は JavaScript だけでなく Bash と Python も実行できます。また、Claude Artifacts のようにプログラムをサンドボックス化するため、モデルはコードをテストし、ファイルを生成し、実際の計算で回答を検証できます。

これにより、モデルの回答はより信頼性が高く、正確になります。

自動修復型ツール呼び出し

Unsloth Studio はツール呼び出しやウェブ検索を可能にするだけでなく、発生する可能性のあるあらゆるエラーを自動修正します。

つまり、常に推論出力が得られます ない 壊れたツール呼び出しではなく。

例: Qwen3.5-4B は 20 以上のウェブサイトを検索して出典を引用し、思考トレースの中でウェブ検索を実行しました。

パラメータの自動調整

以下のような推論パラメータ temperature, top-p, top-k は、Qwen3.5 のような新しいモデル向けに自動的に事前設定されるため、設定を気にせず最適な出力を得られます。パラメータを手動で調整したり、システムプロンプトを編集したりすることもできます。

llama.cpp のスマートな自動コンテキストにより、必要なコンテキストだけを使用し、余計なものを読み込まないため、コンテキスト長の調整はもはや不要です。

チャットワークスペース

プロンプトを入力し、追加のコンテキストとして任意の文書、画像(webp、png)、コードファイル、txt、または音声を添付し、モデルの応答をリアルタイムで確認できます。

オン/オフ切り替え: 思考 + ウェブ検索。

モデルアリーナ

Studio Chat では、同じプロンプトを使って任意の 2 つのモデルを並べて比較できます。例: ベースモデルと LoRA アダプターを比較。推論はまず 1 つ目のモデルを読み込み、次に 2 つ目を読み込みます(並列推論は現在開発中です)。

学習後は、同じプロンプトでベースモデルと微調整済みモデルを並べて比較し、何が変わったか、結果が改善したかを確認できます。

このワークフローにより、微調整によってモデルの応答がどう変わったか、またユースケースに対して結果が改善したかを簡単に把握できます。

コンテキストとしてファイルを追加

Studio Chat は会話内でマルチモーダル入力を直接サポートしています。プロンプトの追加コンテキストとして、文書、画像、音声を添付できます。

これにより、PDF、スクリーンショット、参考資料などの実世界の入力をモデルがどう扱うかを簡単にテストできます。ファイルはローカルで処理され、モデルのコンテキストとして含まれます。

circle-check

古い / 既存の GGUF モデルの使用

3月27日更新: Unsloth Studio は現在 古い / 既存のモデルを自動検出します Hugging Face、LM Studio などからダウンロードされたものを。

手動手順: Unsloth Studio は、Hugging Face Hub のキャッシュにダウンロードされたモデルを検出します (C:\Users{your_username}.cache\huggingface\hub)。LM Studio 経由でダウンロードした GGUF モデルがある場合、これらは以下に保存されていることに注意してください。 C:\Users{your_username}.cache\lm-studio\models または C:\Users{your_username}\lm-studio\models これらはデフォルトでは llama.cpp からは見えないため、Unsloth Studio で読み込むには、その .gguf ファイルを Hugging Face Hub のキャッシュディレクトリ(または llama.cpp がアクセス可能な別のパス)へ移動またはコピーする必要があります。

Studio でモデルやアダプターを微調整した後は、それを GGUF にエクスポートし、Studio Chat 内で直接 llama.cpp を使ってローカル推論を実行できます。Unsloth Studio は llama.cpp と Hugging Face によって支えられています。

モデルファイルの削除

モデル検索のゴミ箱アイコンから、または既定の Hugging Face キャッシュディレクトリから該当するキャッシュ済みモデルフォルダを削除することで、古いモデルファイルを削除できます。既定では、Hugging Face は次を使用します。 ~/.cache/huggingface/hub/ macOS/Linux/WSL では、そして C:\Users\<username>\.cache\huggingface\hub\ Windows では。

  • MacOS、Linux、WSL: ~/.cache/huggingface/hub/

  • Windows: %USERPROFILE%\.cache\huggingface\hub\

もし HF_HUB_CACHE または HF_HOME が設定されている場合は、その場所を代わりに使用してください。Linux と WSL では、 XDG_CACHE_HOME でも既定のキャッシュルートを変更できます。

最終更新

役に立ちましたか?