UnslothをAPIエンドポイントとして使う方法
実行できます ローカルLLM 次のようなツールを使って Claude Code と Codex それらのツールをUnslothの OpenAI互換APIエンドポイントに接続することで。これにより、次のようなモデルを実行できます Qwen と Gemma ローカルでエージェント型コーディングに利用できます。Unslothには、自己修復型のような便利な機能もあります ツール呼び出し, コード実行、および Web検索.
Unslothを使えば、次の機能を提供する高速なAPI推論エンドポイントを簡単にデプロイできます:
自己修復型ツール呼び出しこれにより、壊れた、または不正な形式のツール呼び出しを50%削減できます
コード実行 のサポート。BashとPythonを実行でき、より正確なコード出力が得られます。
高度な Web検索 ページにアクセスして実際に内容を読み取り、詳細情報を収集します。
自動推論 設定 GGUFモデル用(temp、top-kなど)
Unslothに読み込まれたモデル(GGUFを含む)は、 認証済みAPI 経由で llama-serverとして公開されます。OpenAIが提供するものと同様に、セキュリティ上の理由から長いAPIキーが生成されます。
あなたの ローカルモデル は、そのままお好みのAIエージェント、SDK、またはチャットクライアントで直接使用できます。Unslothは同じポートで2つの方式を話します。どちらもストリーミング、ツール呼び出し(OpenAI ツール / Anthropic ツール)、およびビジョン入力をサポートします:

Anthropic互換
/v1/messagesClaude Code、OpenClaw、Anthropic SDK、またはMessages APIを期待する任意のクライアント向け。OpenAI互換
/v1/chat/completionsと/v1/responsesOpenAI SDK、OpenCode、Cursor、Continue、Cline、Open WebUI、SillyTavern、または任意のOpenAI互換ツール向け。
⚡ クイックスタート
インストールまたは更新 Unsloth Studio. その後、Unslothを起動します。
モデルを読み込みます。 クリック 新しいチャットを押し、モデル(GGUF)を選ぶか検索し、読み込みが完了するまで待ちます。
APIキーを作成します。 左下の Unsloth のアバターをクリック → 設定 → API →キー名を入力→ 作成。次をコピーします
sk-unsloth-…と表示される値。Unslothでは一度しか表示されません。クライアントをUnslothに向けます。 使用します
http://localhost:PORTをベースURLとして、sk-unsloth-…認証にはあなたのキーを使います。以下のツールの手順に進んでください。
🔑 APIキーの作成
サイドバーを開き、左下の Unsloth アバターをクリックします。
次へ進み 設定 → API (地球儀 🌐 アイコン)
わかりやすい名前を入力します(例:
claude-code-macbook)。有効期限を設定します(任意)クリック 作成.
キーをコピーします。 Unslothにはハッシュのみが保存され、再表示はできません。
すべてのキーは sk-unsloth- で始まります。同じページからいつでもキーを取り消せます。取り消されたキーで行ったリクエストは次のエラーで失敗します 401 Unauthorized.
APIキーはパスワードのように扱ってください。キーとUnslothインスタンスへのネットワークアクセスを持つ人は、読み込まれたモデルにリクエストを送信できます。
⏳ モデルの読み込み
Unslothの実行コマンド
Unsloth Studioをインストールまたは更新します。 以前のバージョンでは外部APIは公開されません。インストールを参照してください。
GGUFモデルを読み込みます。 runコマンドを使ってGGUFモデルを読み込みます。これにより、デフォルトポートでUIも読み込まれます。エンドポイントURLとAPIキーがコンソールに表示され、任意のクライアントですぐ使えるようになります。
CLIからモデルを読み込む
モデルを読み込み、APIキーを自動生成させることができます。 unsloth CLIツールを使います。モデルの読み込みが完了すると、エンドポイントURLとAPIキーがコンソールに表示されます。それらをお好みのクライアントにコピーすれば準備完了です。
始める前に
最新バージョンのUnsloth Studioを使用していることを確認してください。以前のバージョンでは外部APIは公開されません。 インストール.
簡単な方法
ターミナルを開いてGGUFモデルを読み込みます:
これにより、デフォルトポートでサーバーが起動し、UIが読み込まれ、エンドポイントURLとAPIキーが表示されます。
モデル名の仕組み
モデルの指定方法はいくつかあります。使いやすいものを選んでください:
実行の調整(任意)
基本的な読み込みではこれらは不要ですが、 unsloth run は、性能、メモリ使用量、コンテキスト長、生成挙動、ネットワーク、ツールアクセスをカスタマイズするための多くのllama-server実行時フラグをサポートします。
追加のフラグは基盤となる推論サーバーにそのまま渡され、指定した値がStudioのデフォルトを上書きします。
生成挙動を調整する
サンプリング設定は、生成時のモデルの創造性、集中度、決定性を制御します。
temperature値を低くすると通常は出力が安定し、top-p、top-k、min-p、repeat penalty設定でトークン選択と繰り返しをさらに制御できます。
コンテキスト長とCPUスレッド数を増やす
大規模プロジェクト、長いチャット、より多くのメモリを必要とするエージェントワークフローで役立ちます。
APIをローカルネットワークに公開する
デフォルトでは、Unslothはあなたのマシン上でローカルにのみ実行されます。次にバインドすることで、ネットワーク上の他のデバイスにAPIを公開できます 0.0.0.0.
推論挙動を制御する
推論対応モデルの中には、思考や推論の挙動を制御するための追加フラグをサポートするものがあります。
推論サポートはモデルとバックエンドの機能に依存します。
サーバー側ツールを有効化または無効化する
Web検索やコード実行のようなツールを推論サーバーに公開するかどうかを制御します。
Unslothは、コンテキストサイズ、GPUレイヤー、スレッド処理、サンプリング、ネットワーク、ツール設定など、ほとんどのllama-server実行時フラグをサポートします。
次を参照してください llama-server サポートされている実行時フラグの完全な一覧はドキュメントを参照してください。
サーバー側ツールポリシー
unsloth run サーバー側ツール(Web検索、コード実行など)を推論サーバーが公開するかどうかを制御します。デフォルトはバインドアドレスに基づきます:
127.0.0.1(localhost) — ツール 有効 がデフォルトです。サーバーに到達できるのはあなたのマシンだけです。0.0.0.0または任意の非ループバックアドレス — ツール 無効 がデフォルトです。ネットワーク公開されたサーバーでAPIキーが漏洩すると、ホスト上で任意のコード実行につながります。
フラグ:
--enable-tools/--disable-tools— 強制的に有効/無効にします。有効にすると0.0.0.0,--enable-toolsy/Nのセキュリティ確認プロンプトが表示されます。--yes/-y— プロンプトを省略します(自動化向け)。
確定したポリシーはプロセスレベルの強制上書きであり、個々のリクエストは次の方法では回避できません enable_tools=true リクエスト本文内で。

🌐 エンドポイント
Studioは、起動時のポートでこれらのエンドポイントを公開します(通常は http://localhost:8000 または http://localhost:8888):
POST /v1/messages
Anthropic Messages API
Claude Code、Anthropic SDK、OpenClaw、Anthropicに対応するあらゆるもの
POST /v1/chat/completions
OpenAI Chat Completions API
OpenAI SDK、opencode、Cursor、Continue、Cline、Open WebUI、curlなど
GET /v1/models
OpenAIモデル一覧
現在Unslothに読み込まれているモデルを一覧表示します
次で認証します Authorization: Bearer sk-unsloth-… ヘッダーを各リクエストに付けます。
2つの形式のために別々のサーバーを起動する必要はありません。Studioが同じポートで両方を処理します。
🖇️ クライアントの接続
Unslothを使えば、次を含むほとんどのフレームワーク経由でローカルLLMを実行できます Claude Code, Codex, OpenClaw, OpenCode などがあります。手順は以下の各ツールをクリックしてください:
🧰 ツール呼び出し
両方のエンドポイントは、各ネイティブ形式での関数 / ツール呼び出しに対応し、さらにStudioの内蔵ツール向けにUnsloth独自の省略記法もあります。
OpenAI形式のツール: 送信 ツール と tool_choice を /v1/chat/completions OpenAIと同様にそのまま送ります。Claude Code( /v1/messages経由)、opencode、Cursor、Continue、Clineはいずれもそのまま動作します。
Anthropic形式のツール: 送信 ツール ( input_schema)と tool_choice を /v1/messages Claudeと同じようにそのまま使えます。
Studioのサーバー側ツール: StudioはPython、Web検索、bashを実行できます サーバー側 、結果を tool_result イベントとしてストリームで返します。次の追加フィールドをいずれかのエンドポイントに追加して有効化します:
モデルは次のターンで各ツールの出力を確認します。より詳しい内容(スキーマ、ストリーミングイベント、チェーン処理)については、を参照してください。
Anthropicを使用している場合は /v1/messages エンドポイントでは、 tool_choice 次のようにきれいに対応します: Anthropic 自動 → OpenAI 自動、Anthropic 任意の → OpenAI 必須、Anthropic {type: "tool", name: "x"} → OpenAI {type: "function", function: {name: "x"}}、Anthropic なし → OpenAI なし.
❔ トラブルシューティング
401 Unauthorized : いずれかの Authorization ヘッダーがないか、キーが正しくありません。キーは次の形式で渡す必要があります Authorization: Bearer sk-unsloth-…。キーを紛失した場合は、次から新しいものを作成してください 設定 → API。 Studioでは、作成後に古いキーは表示されません。
モデルサーバーへの接続が失われました :Studioが基盤のllama.cppサーバーに接続できませんでした。通常はモデルの読み込みが完了した後にクラッシュしたか、Studio内でモデルタブが閉じられた場合です。モデルを再読み込みしてください 新しいチャット して再試行してください。
Claude CodeにローカルモデルではなくデフォルトのAnthropicモデルが表示される : 次の3つの環境変数が 同じ シェルでエクスポートされていることを確認してください。 claude:
その後、 /model をClaude Code内で実行して確認します。Windows PowerShellでは次を使います $env:ANTHROPIC_BASE_URL など。
stream: true は、SSEの代わりに単一のJSONブロブを返します : 正しいパス(/v1/messages または /v1/chat/completions)にアクセスしており、HTTPクライアントがレスポンスをバッファリングせずに実際にストリームとして処理していることを確認してください。
opencode(またはOpenClaw / その他のクライアント)に追加するモデル名が見つかりません : Studioに直接問い合わせてください。 GET /v1/models クライアントの「Model ID」欄に入力すべき正確なモデルIDを返します:
次の形式のJSONペイロードが返ってきます {"data": [{"id": "gemma-4-26B-A4B-it-GGUF", ...}]}。次をコピーします id の値です。これはopencodeの Model ID 欄(左列)とOpenClawの models[].id が期待する文字列です。右側の表示名は、ユーザーに見せたい任意の名前です。
ツール呼び出しが実行されない : モデルはクライアント側ツール用のツール呼び出しをサポートしている必要があります(ツール / tool_choice)。Studioの内蔵ツールを使う場合は、次を設定するのを忘れないでください enable_tools: true と 次を enabled_tools (例. ["python", "web_search"]).
最終更新
役に立ちましたか?




