# Claude CodeでローカルLLMを実行する方法このステップバイステップガイドでは、オープンLLMとAPIをClaude Codeに完全ローカルで接続する方法を、スクリーンショット付きで紹介します。Qwen3.6、DeepSeek、Gemmaなどの任意のオープンモデルで実行できます。このチュートリアルでは、次のオープンモデルを使用します： [Gemma 4](/docs/jp/moderu/gemma-4.md) および [Qwen3.5](/docs/jp/moderu/qwen3.5.md) これらは強力なエージェント向け・コーディング向けモデルです（24GB RAM/統合メモリデバイスで動作します）。推論には、 [Unsloth Studio](https://github.com/unslothai/unsloth) および [`llama.cpp`](https://github.com/ggml-org/llama.cpp) を使用します。macOS、Linux、WindowsでLLMを実行/提供できます。 [別のモデル](/docs/jp/moderu/tutorials.md)に差し替えても構いません。スクリプト内のモデル名を更新するだけです。 Claude Code のセットアップ 📖 ローカルモデルのセットアップチュートリアルモデルの量子化には、Unsloth [Dynamic GGUF](/docs/jp/ji-ben/unsloth-dynamic-2.0-ggufs.md) を使用して、可能な限り精度を保ちながら任意のLLMを量子化して実行します。 ## Claude Code のセットアップローカルLLMをセットアップする前に、Claude Codeをインストールする必要があります。Claude Codeはターミナルベースのコーディングエージェントで、コードベースを理解し、自然言語で複雑なGitワークフローを扱います。 {% tabs %} {% tab title="macOS、Linux、WSL" %} #### **Claude Code をインストール：** Claude Codeをインストールするために、ターミナルに貼り付けてください： ```bash curl -fsSL https://claude.ai/install.sh | bash ``` インストール後、プロジェクトフォルダに移動してください。次に `claude` を `シェル` に入力して開始します。 ```bash cd ~/projects/my-project claude ``` {% endtab %} {% tab title="Windows" %} #### **Claude Code をインストール：** 次を開いて `PowerShell` Claude Code をインストール： ```powershell irm https://claude.ai/install.ps1 | iex ``` インストール後、プロジェクトフォルダに移動してください。次に `claude` を `powershell` に入力して開始します。

cd /path/to/your/project
claude

{% endtab %} {% endtabs %} ### :detective:Claude Code で推論が90%遅くなる問題の修正 {% hint style="warning" %} Claude Code は最近、Claude Code Attributionヘッダーを先頭に付加するようになり、これは **KVキャッシュを無効化してしまい、ローカルモデルでの推論を90%遅くします**. {% endhint %} これを解決するには、 `~/.claude/settings.json` を編集して `CLAUDE_CODE_ATTRIBUTION_HEADER` を含め、 `"env"` {% hint style="info" %} を使うと `の中で0に設定します` **動作** しません！ {% endhint %} 例として、次のようにします `cat > ~/.claude/settings.json` その後、以下を追加してください（貼り付けたらEnterを押してからCtrl+Dで保存します）。既存の `~/.claude/settings.json` ファイルがある場合は、 `"CLAUDE_CODE_ATTRIBUTION_HEADER" : "0"` を "env" セクションに追加し、設定ファイルの他の部分は変更しないでください。

{
  "promptSuggestionEnabled": false,
  "env": {
    "CLAUDE_CODE_ENABLE_TELEMETRY": "0",
    "CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1",
    "CLAUDE_CODE_ATTRIBUTION_HEADER" : "0"
  },
  "attribution": {
    "commit": "",
    "pr": ""
  },
  "plansDirectory" : "./plans",
  "prefersReducedMotion" : true,
  "terminalProgressBarEnabled" : false,
  "effortLevel" : "high"
}

## 📖 クイックスタートチュートリアル {% columns %} {% column %} 始める前に、まず使用する特定のモデルのセットアップを完了する必要があります。私たちは [Unsloth](/docs/jp/xin-zhe/studio.md) （Web UI）とllama.cppを使用します。これらは、Mac、Linux、WindowsデバイスでLLMを実行・提供するためのオープンソースフレームワークです。 Unslothには独自の自己修復 [ツール呼び出し](/docs/jp/xin-zhe/studio/chat.md#auto-healing-tool-calling) および [Web 検索](/docs/jp/xin-zhe/studio/chat.md#code-execution) 機能もあります。右側のClaude CodeがUnslothに接続されている例を参照してください： {% endcolumn %} {% column %}

{% endcolumn %} {% endcolumns %} Claude Code を接続 🦥 Unsloth チュートリアル llama.cpp チュートリアル ## 🦥 Unsloth チュートリアルこのチュートリアルでは、 [Unsloth](https://github.com/unslothai/unsloth)を使ってUI経由でローカルモデルをClaude Codeに提供/接続します。UnslothはWindows、WSL、Linux、MacOSで動作します。 {% columns %} {% column %} * 検索、ダウンロード、 [GGUF を実行](/docs/jp/xin-zhe/studio.md#run-models-locally) し、safetensor モデルを扱う * [**自己修復** ツール呼び出し](/docs/jp/xin-zhe/studio.md#execute-code--heal-tool-calling) + **Web 検索** * [**コード実行**](/docs/jp/xin-zhe/studio.md#run-models-locally) （Python、Bash） * [自動推論](/docs/jp/xin-zhe/studio.md#model-arena) パラメータ選択（temp、top-p など） * llama.cpp を介した高速な CPU + GPU 推論 * [LLM を学習する](/docs/jp/xin-zhe/studio.md#no-code-training) VRAM を 70% 少なくして 2 倍高速インストール手順は以下を参照してください： {% endcolumn %} {% column %}

{% endcolumn %} {% endcolumns %} {% tabs %} {% tab title="MacOS" %} #### ステップ1：Unslothのセットアップ以下から `ターミナル` を起動し、下のコマンドを入力してUnslothをインストールします。 ```bash curl -fsSL https://unsloth.ai/install.sh | sh ``` Unslothが下のように環境のセットアップと必要パッケージのインストールを開始します。Studioを今すぐ起動してよいか聞かれたら **Y** を入力して `Enter` を押してください。これでローカルの **8888** ポートでUnslothが起動します。

{% hint style="info" %} インストール中にUnslothを起動しないことを選んだ場合でも、いつでも `unsloth studio -p 8888` を使ってUnslothアプリを起動できます。PC/コンピュータ外のクライアントからUnslothインスタンスにアクセスできるようにしたい場合は、 `-H 0.0.0.0` を `unsloth studio` コマンドに追加してください。 {% endhint %} #### ステップ2：Unslothを起動お好みのブラウザを開いて `http://127.0.0.1:8888` とURL欄に入力します。Unslothのインストールが初めての場合、パスワードページに移動し、新しいパスワードを作成する必要があります。その後、下図のようにUnslothがチャットページで開きます。

{% endtab %} {% tab title="Windows" %} #### ステップ1：Unslothのセットアップスタートメニューを開いて `PowerShell`を検索し、起動します。インストールコマンドをコピーして入力してください： ```powershell irm https://unsloth.ai/install.ps1 | iex ``` 自動的にインストールが始まります。インストール完了後、PowerShellがUnsloth Studioを起動するかどうかを尋ねます**.**

次のコマンドでも起動できます： ```bash unsloth studio -H 0.0.0.0 -p 8888 ``` {% hint style="info" %} PC/コンピュータ外のクライアントからインスタンスにアクセスできるようにしたい場合。\ 次を追加してください `-H 0.0.0.0` を `unsloth studio` コマンドに追加してください。 {% endhint %} #### ステップ2：Unslothを起動ブラウザで `http://127.0.0.1:8888` を開きます。初回起動時は、チャットページに進むために新しいパスワードを作成してください。 **Unsloth Studio** がインストールされ、使用できる状態になりました。

{% endtab %} {% tab title="Linux、WSL" %} #### ステップ1：Unslothのセットアップ {% tabs %} {% tab title="Linux" %} ターミナルアプリケーションを開きます。 `Ctrl + Alt + T`を押すか、 `Terminal` をシステムのアプリケーションメニューで検索して起動できます。 {% endtab %} {% tab title="WSL" %} Windowsのスタートメニューをクリックし、インストール済みディストリビューション名（例： `Ubuntu`）を入力して開きます。 {% hint style="warning" %} で **WSL**、 **NVIDIAドライバー** が **Windows** （WSLの中ではなく）にインストールされていること、および **CUDAツールキット** がWSLディストリビューション内にインストールされていることを確認してください。詳細は以下のシステム要件を参照してください。 {% endhint %} {% endtab %} {% endtabs %} インストールするには、インストールコマンドをコピーして実行します： ```bash curl -fsSL https://unsloth.ai/install.sh | sh ``` その後： 1. ターミナルウィンドウ内をクリックします 2. コマンドを貼り付けます `Ctrl + Shift + V` 3. を押します `Enter` Unslothが下のように環境のセットアップと必要パッケージのインストールを開始します。Studioを今すぐ起動してよいか聞かれたら **Y** を入力して `Enter` を押してください。これでローカルの **8888** ポートでUnslothが起動します。

{% endtab %} {% endtabs %} ### モデル読み込み + APIガイド {% stepper %} {% step %} #### モデルを選択 APIを使用する前に、チャットページ左上の **モデルを選択** ドロップダウンからモデルを読み込んでください。

このガイドでは、次を使用します： `unsloth/gemma-4-26B-A4B-it-GGUF` 推奨される `UD-Q4_K_XL` 量子化を使用します。 {% endstep %} {% step %} #### モデルをテストクライアントを使う前に、短いメッセージを送信してください：

{% hint style="info" %} これで、モデルが正しく読み込まれ、応答可能であることが確認できます。 {% endhint %} {% endstep %} {% step %} #### **Unsloth APIキー** Studioで **Settings → API** を開いて、APIキーを表示または作成します。

APIキーはパスワードのように扱い、スクリーンショットやリポジトリに公開しないようにしてください。 {% endstep %} {% endstepper %} ## ⚙️ Claude Code を接続 Claude Code用のローカルLLMのセットアップが完了したので、次にClaude CodeをUnslothまたはllama.cppで動作するよう設定します。まず、以下の環境変数を設定します。これらの変数はデフォルトではセッション間で保持されません。 {% tabs %} {% tab title="MacOS、Linux、WSL" %} **設定：** ローカルAPI URLを設定： ```bash export ANTHROPIC_BASE_URL="http://localhost:8888" ``` Unsloth Studio → Settings → API からキーをコピーして、次のように設定します： ```bash export ANTHROPIC_AUTH_TOKEN="sk-unsloth-xxxxxxxxxxxx" ``` オプション：現在Unslothに読み込まれているモデル名をデフォルトとして使用します。 ```bash export ANTHROPIC_MODEL="gemma-4-26B-A4B-it-GGUF" ``` モデル名は、現在Unsloth Studioに読み込まれているモデルと一致している必要があります。 {% endtab %} {% tab title="Windows" %} **設定：** PowerShellでローカルAPI URLを設定： ```powershell $env:ANTHROPIC_BASE_URL = "http://localhost:8888" ``` 次からキーをコピーして **Unsloth Studio → Settings → API**、次のように設定します： ```powershell $env:ANTHROPIC_AUTH_TOKEN = "sk-unsloth-xxxxxxxxxxxx" ``` **オプション：** 現在Unslothに読み込まれているモデル名をデフォルトとして使用します。 ```powershell $env:ANTHROPIC_MODEL = "gemma-4-26B-A4B-it-GGUF" ``` {% hint style="info" %} モデル名は、現在Unsloth Studioに読み込まれているモデルである必要があります。 {% endhint %} {% endtab %} {% endtabs %} ### Claude Code を起動現在Unslothに読み込まれているモデルでClaude Codeを起動します。次を使用します `gemma-4-26B-A4B-it-GGUF`。ただし、Unsloth互換の任意のモデルを使用できます。 ```shellscript claude --model unsloth/gemma-4-26B-A4B-it-GGUF ``` Claude Codeが開き、選択したモデルが表示されるはずです。

{% hint style="warning" %} 参照 [#fixing-90-slower-inference-in-claude-code](#fixing-90-slower-inference-in-claude-code "mention") まず、KVキャッシュの無効化によりオープンモデルの速度が90%遅くなる問題を修正します。 {% endhint %} 高品質なSFTデータセットを調査して順位付けするために、このプロンプトを試してください。 {% code overflow="wrap" %} ``` project/ の中だけで作業できます。CLAUDE.md を探さないでください — これがそれです。Hugging Faceで実在する指示/チャット/SFTデータセットを10個、Web検索で探し、見つけた内容を簡潔に要約し、調査しながら各データセットがSFTに関連する理由を説明し、その後、rank、dataset name、creator、関連するタグ3〜5個、短い平易な要約、SFTに有用な理由を含む、整ったMarkdownレポート sft_report.md を作成してください。巨大なメタデータのダンプ、貼り付けた生の説明、過剰に長いタグ一覧、無関係なデータセットは含めず、すべて簡潔で読みやすくしてください。タスクは、sft_report.md に10件のきれいでよく書かれたデータセット項目が含まれた時点で完了です。最後は次で締めてください： “Successfully finetuned a model with Unsloth! ``` {% endcode %} プロンプトを送信すると、エージェントがWeb検索を行い、結果を評価して、最終レポートを書きます。これには数分かかる場合があります。一部のワークフローでは、操作の承認やフォローアップのプロンプトへの回答が必要になる場合があります。

{% hint style="info" %} 一部のワークフローでは、操作の承認やフォローアップのプロンプトへの回答が必要になる場合があります。 {% endhint %} 完了すると、生成された `sft_report.md` は次のような見た目になります。

{% hint style="warning" %} 次のような表示が出たら `Unable to connect to API (ConnectionRefused)` 、 `ANTHROPIC_BASE_URL` 経由で `の設定を解除することを忘れないでください` オープンモデルが90%遅い場合は、 [まずここを確認してください](#fixing-90-slower-inference-in-claude-code) KVキャッシュの無効化を修正するためです。 {% endhint %} ## 🦙 Llama.cpp チュートリアル始める前に、まず使用する特定のモデルのセットアップを完了する必要があります。私たちは `llama.cpp` これは、Mac、Linux、WindowsなどのデバイスでLLMを実行するためのオープンソースフレームワークです。Llama.cppには `llama-server` が含まれており、LLMを効率的に提供・デプロイできます。モデルはポート8001で提供され、すべてのエージェントツールは単一のOpenAI互換エンドポイント経由でルーティングされます。 #### Qwen3.5 チュートリアル次を使用します [Qwen3.5](/docs/jp/moderu/qwen3.5.md)-35B-A3B と、素早く正確なコーディングタスク向けの特定の設定を使います。VRAMが不足していて、より **賢い** model, **Qwen3.5-27B** ものが必要なら、これが優れた選択肢ですが、速度は約2倍遅くなります。あるいは、9B、4B、2Bなどの他のQwen3.5系統も使えます。 {% hint style="info" %} Qwen3.5-27B は、 **賢い** モデルが欲しい場合やVRAMが十分でない場合に使ってください。ただし、35B-A3Bより約2倍遅くなります。あるいは、 [**Qwen3-Coder-Next**](/docs/jp/moderu/qwen3-coder-next.md) を使うこともできます。これは、VRAMが十分にあるなら非常に優れています。 {% endhint %} {% stepper %} {% step %} #### llama.cpp をインストール次をインストールする必要があります `llama.cpp` Claude Codeなどで使うためにローカルLLMをデプロイ/提供するには。正しいGPUバインディングと最大性能を得るため、公式のビルド手順に従います。 `-DGGML_CUDA=ON` を `-DGGML_CUDA=OFF` に変更してください。GPU がない場合、または CPU 推論だけを使いたい場合です。 **Apple Mac / Metal デバイスの場合**、次を設定して `-DGGML_CUDA=OFF` その後は通常どおり続けてください - Metal サポートは既定で有効です。 ```bash apt-get update apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y git clone https://github.com/ggml-org/llama.cpp cmake llama.cpp -B llama.cpp/build \\ -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split cp llama.cpp/build/bin/llama-* llama.cpp ```

{% endstep %} {% step %} #### モデルをローカルでダウンロードして使用を介してモデルをダウンロード `huggingface_hub` Pythonで（ `pip install huggingface_hub hf_transfer`を使ってインストールした後）。私たちは **UD-Q4\_K\_XL** 量子化モデルを使って、サイズと精度の最適なバランスを実現します。すべてのUnsloth GGUFアップロードは次の [コレクションはこちら](/docs/jp/meru/unsloth-model-catalog.md)。ダウンロードが止まる場合は、 [Hugging Face Hub、XETデバッグ](/docs/jp/ji-ben/troubleshooting-and-faqs/hugging-face-hub-xet-debugging.md) ```bash hf download unsloth/Qwen3.5-35B-A3B-GGUF \\ --local-dir unsloth/Qwen3.5-35B-A3B-GGUF \\ --include "*UD-Q4_K_XL*" # Dynamic 2bit では "*UD-Q2_K_XL*" を使用 ```

{% hint style="success" %} 私たちは `unsloth/Qwen3.5-35B-A3B-GGUF` を使用しましたが、27Bのような別のバリアントや、次のような別のモデルも使えます `unsloth/`[`Qwen3-Coder-Next`](/docs/jp/moderu/qwen3-coder-next.md)`-GGUF`. {% endhint %}

{% endstep %} {% step %} #### Llamaサーバーを起動エージェント向けワークロードでQwen3.5をデプロイするには、 `llama-server`を使用します。 [Qwen推奨のサンプリングパラメータ](/docs/jp/moderu/qwen3.5.md#recommended-settings) を思考モード向けに適用します： `temp 0.6`, `top_p 0.95` , `top-k 20`。これらの数値は、非思考モードや他のタスクを使う場合には変わることに注意してください。新しいターミナルでこのコマンドを実行してください（ `tmux` を使うか、新しいターミナルを開いてください）。以下は **24GB GPU（RTX 4090）にぴったり収まるはずです（23GB使用）** `--fit on` 自動オフロードも行いますが、性能が悪い場合は次を減らしてください `--ctx-size` . {% hint style="info" %} 私たちは `--cache-type-k q8_0 --cache-type-v q8_0` KVキャッシュ量子化によりVRAM使用量を減らします。フル精度にするには、 `--cache-type-k bf16 --cache-type-v bf16` を使用します。bf16 KVキャッシュは、一部のマシンではやや遅くなる場合があります。 {% endhint %} ```bash ./llama.cpp/llama-server \\ --model unsloth/Qwen3.5-35B-A3B-GGUF/Qwen3.5-35B-A3B-UD-Q4_K_XL.gguf \\ --alias "unsloth/Qwen3.5-35B-A3B" \\ --temp 0.6 \\ --top-p 0.95 \ --top-k 20 \\ --min-p 0.00 \\ --port 8001 \\ --kv-unified \\ --cache-type-k q8_0 --cache-type-v q8_0 ``` {% hint style="success" %} Qwen3.5では思考を無効にすることもでき、エージェント向けコーディング作業の性能向上につながる場合があります。llama.cppで思考を無効にするには、llama-serverコマンドに次を追加してください： `--chat-template-kwargs "{\"enable_thinking\": false}"`

{% endhint %} {% endstep %} {% endstepper %} ### llama-server で Claude Code を起動 {% hint style="success" %} 私たちは `unsloth/GLM-4.7-Flash-GGUF` が使えますが、次のようなものなら何でも使えます `unsloth/Qwen3.6-27B-GGUF`. {% endhint %} {% hint style="warning" %} 参照 [#fixing-90-slower-inference-in-claude-code](#fixing-90-slower-inference-in-claude-code "mention") まず、KVキャッシュの無効化によりオープンモデルの速度が90%遅くなる問題を修正します。 {% endhint %} プロジェクトフォルダに移動し（`mkdir project ; cd project`）、次を実行します： ```bash claude --model unsloth/GLM-4.7-Flash ``` Qwen3.6-35B-A3Bを使うには、単に次のように変更します： ```bash claude --model unsloth/Qwen3.6-35B-A3B ```

Claude Codeに承認なしでコマンドを実行させるには、次を行います **（注意：これにより、Claude Codeは承認なしで好きなようにコードを実行・処理するようになります！）** {% code overflow="wrap" %} ```bash claude --model unsloth/GLM-4.7-Flash --dangerously-skip-permissions ``` {% endcode %} 簡単なUnslothのファインチューニングをインストールして実行するために、このプロンプトを試してください： {% code overflow="wrap" %} ``` cwd project/ の中だけで作業できます。CLAUDE.md を探さないでください - これがそれです。uv 経由で仮想環境を使ってUnslothをインストールしてください。可能なら `python -m venv unsloth_env` を使い、その後 `source unsloth_env/bin/activate` を実行してください。方法は https://unsloth.ai/docs/get-started/install/pip-install を見て（取得して読んでください）。その後、https://github.com/unslothai/unsloth に記載された簡単なUnslothのファインチューニング実行を行ってください。GPUは1枚使えます。 ``` {% endcode %}

少し待つと、Unslothがuv経由でvenvにインストールされ、読み込まれます：

そして最後に、Unslothで正常にファインチューニングされたモデルが表示されます！