LM Studio へモデルをデプロイする

モデルを GGUF に保存して LM Studio で実行・デプロイできるようにする方法

ファインチューニングしたLLMをLM Studioで直接実行およびデプロイできます。 LM Studioarrow-up-right は、の実行とデプロイを容易にします GGUF モデル(llama.cpp形式)。

次を使用できます LM Studioノートブックarrow-up-right または以下の手順に従ってください:

  1. Unslothでファインチューニングしたモデルをにエクスポートします .gguf

  2. GGUFをLM Studioにインポート/ダウンロードします

  3. チャットで読み込みます (またはOpenAI互換のローカルAPIの背後で実行します)

LM Studioでのファインチューニング前
LM Studioでのファインチューニング後

1) GGUFにエクスポート(Unslothから)

すでにをエクスポートしている場合は、にスキップしてください .ggufにスキップ LM Studioへのインポート.

circle-info

q4_k_m は通常ローカル実行のデフォルトです。

q8_0 はほぼフル精度に近い品質の最適解です。

f16 は最大/最も遅いですが、元の非量子化精度です。

2) GGUFをLM Studioにインポート

LM Studioは、というCLIを提供しています lms はローカルのをインポートできます .gguf をLM Studioのmodelsフォルダに。

GGUFファイルをインポート:

元のファイルを保持(移動ではなくコピー):

chevron-rightよりカスタマイズ可能なプライベート設定を表示hashtag

モデルをそのままにする(シンボリックリンク):

これは専用ドライブに保存された大きなモデルに便利です。

プロンプトをスキップしてターゲットネームスペースを自分で選択:

ドライラン(何が起こるかを表示):

インポート後、モデルはLM Studioの下に表示されるはずです マイモデル.

3) LM Studioで読み込み、チャットする

  1. LM Studioを開く → チャット

  2. adb push <path_to_model.pte on your computer> /data/local/tmp/llama モデルローダー

  3. インポートしたモデルを選択

  4. (オプション)読み込み設定を調整(GPUオフロード、コンテキスト長など)

  5. UIで通常通りチャットする

4) ファインチューニングしたモデルをローカルAPI(OpenAI互換)として提供する

LM Studioは読み込んだモデルをOpenAI互換APIの背後で提供できます(Open WebUI、カスタムエージェント、スクリプトなどのアプリに便利)。

  1. LM Studioでモデルを読み込む

  2. に移動 開発者(Developer) タブ

  3. ローカルサーバーを起動する

  4. 表示されているベースURLを使用(デフォルトは通常) http://localhost:1234/v1)

クイックテスト:モデルを一覧表示

Python例(OpenAI SDK):

cURL例(chat completions):

circle-info

デバッグのヒント: フォーマット/テンプレートのトラブルシューティングをしている場合、LM Studioがモデルに送っている 生の プロンプトを次のコマンドで検査できます: lms log stream

トラブルシューティング

モデルはUnslothで動作するがLM Studioの出力が意味不明/繰り返す

これはほとんどの場合、 プロンプトテンプレート/チャットテンプレートの不一致です.

LM Studioは可能な場合、GGUFメタデータからプロンプトテンプレートを 自動検出 しますが、カスタムモデルやタグ付けが誤っているモデルは手動オーバーライドが必要な場合があります。

修正:

  1. に移動します マイモデル → モデルの横にある歯車⚙️をクリック

  2. を探す プロンプトテンプレート そして、トレーニングに使ったテンプレートと一致するように設定します

  3. または、Chatサイドバーで: 有効にします プロンプトテンプレート ボックス(常に表示するように強制できます)

LM Studioが「マイモデル」に自分のモデルを表示しない

  • を優先 lms import /path/to/model.gguf

  • またはファイルが正しいフォルダ構造にあることを確認してください: ~/.lmstudio/models/publisher/model/model-file.gguf

OOM/動作が遅い

  • より小さい量子化を使用してください(例: Q4_K_M)

  • コンテキスト長を短くする

  • GPUオフロードを調整する(LM Studioの「モデルごとのデフォルト」/読み込み設定)


さらに情報

最終更新

役に立ちましたか?