# Claude Code でローカル LLM を実行する方法

このステップバイステップガイドでは、オープンなLLMやAPIを完全にローカルでClaude Codeに接続する方法を、スクリーンショット付きで示します。Qwen3.5、DeepSeek、Gemmaなどの任意のオープンモデルで実行できます。

このチュートリアルでは、 [**Qwen3.5**](https://unsloth.ai/docs/jp/moderu/qwen3.5) および [GLM-4.7-Flash](https://unsloth.ai/docs/jp/moderu/glm-4.7-flash)を使用します。どちらも2026年3月時点で最も強力な35BのMoEエージェント的およびコーディングモデルで（24GB RAM/統合メモリのデバイスでも非常に良好に動作します）、Unslothを用いてLLMを自律的にファインチューニングするのに適しています。 [Unsloth](https://github.com/unslothai/unsloth)を差し替えることができます、 [任意の他のモデル](https://unsloth.ai/docs/jp/moderu/tutorials)に。ただしスクリプト内のモデル名を更新してください。

<a href="#qwen3.5-tutorial" class="button secondary">Qwen3.5 チュートリアル</a><a href="#glm-4.7-flash-tutorial" class="button secondary">GLM-4.7-Flash チュートリアル</a><a href="#claude-code-tutorial" class="button primary" data-icon="claude">Claude Code チュートリアル</a>

モデルの量子化については、Unslothの [Dynamic GGUFs](https://unsloth.ai/docs/jp/ji-ben/unsloth-dynamic-2.0-ggufs) を利用して、可能な限り精度を維持したまま任意のLLMを量子化して実行します。

{% hint style="info" %}
Claude Codeは2026年1月以降かなり変更されており、切り替える必要のある設定や必要な機能が増えています。
{% endhint %}

## 📖 LLM セットアップチュートリアル

始める前に、まず使用する特定のモデルのセットアップを完了する必要があります。ここでは `llama.cpp` を使用します。これはMac、Linux、WindowsなどのデバイスでLLMを実行するためのオープンソースフレームワークです。llama.cppには `llama-server` が含まれており、LLMを効率的にサーブおよびデプロイすることができます。モデルはポート8001で提供され、すべてのエージェントツールは単一のOpenAI互換エンドポイント経由でルーティングされます。&#x20;

### Qwen3.5 チュートリアル

以下を使用します [Qwen3.5](https://unsloth.ai/docs/jp/moderu/qwen3.5) -35B-A3B と、高速で正確なコーディングタスク向けの特定設定です。もしVRAMが不足していて **より賢い** モデルが欲しい場合、 **Qwen3.5-27B** は素晴らしい選択ですが、約2倍遅くなります。あるいは9B、4B、2Bといった他のQwen3.5バリアントを使用できます。

{% hint style="info" %}
VRAMが十分でない場合や **より賢い** モデルが欲しい場合はQwen3.5-27Bを使ってください。ただし35B-A3Bより約2倍遅くなります。あるいは [**Qwen3-Coder-Next**](https://unsloth.ai/docs/jp/moderu/qwen3-coder-next) を使用すると、十分なVRAMがある場合に非常に優れています。
{% endhint %}

{% stepper %}
{% step %}

#### llama.cpp のインストール

ローカルでLLMをデプロイ/サーブしてClaude Codeなどで使用するために、以下をインストールする必要があります `llama.cpp` 。正しいGPUバインディングと最大のパフォーマンスのために公式のビルド手順に従います。GPUがないかCPU推論を希望する場合は、 `-DGGML_CUDA=ON` を `-DGGML_CUDA=OFF` に変更してください。 **AppleのMac / Metalデバイスの場合は**、次を設定してから通常通り続行してください - Metalサポートはデフォルトで有効です。 `-DGGML_CUDA=OFF` apt-get update

```bash
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
-DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
    cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
モデルをローカルにダウンロードして使用する
```

<figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2F4DmycqgjxOz6TOQd9PLJ%2Fimage.png?alt=media&#x26;token=c94db0b5-8e4a-4043-b2a3-c68bad93213e" alt="" width="563"><figcaption></figcaption></figure>
{% endstep %}

{% step %}

#### モデルはPythonの

huggingface\_hub `を介してダウンロードします（事前に` pip install huggingface\_hub hf\_transfer `をインストールしてください）。サイズと精度のバランスが良い量子化として`UD-Q4\_K\_XL **を使用します。UnslothのGGUFアップロードは当方の** コレクションにあります [。ダウンロードが止まる場合は以下を参照してください](https://unsloth.ai/docs/jp/meru/unsloth-model-catalog)hf download unsloth/Qwen3.5-35B-A3B-GGUF \ [hugging-face-hub-xet-debugging](https://unsloth.ai/docs/jp/ji-ben/troubleshooting-and-faqs/hugging-face-hub-xet-debugging "mention")

```bash
--local-dir unsloth/Qwen3.5-35B-A3B-GGUF \
    --include "*UD-Q4_K_XL*" # Dynamic 2bitの場合は"*UD-Q2_K_XL*"を使用
    当方では
```

<figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FRfXofrNzl1ypjfMTz15o%2Fimage.png?alt=media&#x26;token=8009de90-cd11-46ed-85b5-fca5c07b66fc" alt=""><figcaption></figcaption></figure>

{% hint style="success" %}
unsloth/Qwen3.5-35B-A3B-GGUF `を使用しましたが、27Bなどの別のバリアントや、例えば` unsloth/ `-GGUF`[`Qwen3-Coder-Next`](https://unsloth.ai/docs/jp/moderu/qwen3-coder-next)`といった他のモデルでも使用できます。`.
{% endhint %}

<figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FxlIrQGQ0cevb1ckkSFy5%2Fimage.png?alt=media&#x26;token=b1a42562-927a-4ad2-85f8-29c2993c46aa" alt="" width="563"><figcaption></figcaption></figure>
{% endstep %}

{% step %}

#### Llama-server の起動

エージェントワークロード向けにQwen3.5をデプロイするために、我々は `llama-server`を使用します。以下のようにQwen推奨のサンプリングパラメータを [思考モード用に適用します：](https://unsloth.ai/docs/jp/moderu/qwen3.5#recommended-settings) temp 0.6 `top_p 0.95`, `top-k 20` , `。非思考モードや他のタスクを使用する場合はこれらの数値が変わることに注意してください。`新しいターミナルでこのコマンドを実行してください（

tmux `を使うか新しいターミナルを開いてください）。以下は` 24GB GPU（RTX 4090）にちょうど収まるはずです（23GBを使用します） **--fit on** `は自動オフロードも行いますが、パフォーマンスが悪い場合は` --ctx-size `を減らしてください。` .

{% hint style="danger" %}
unsloth/Qwen3.5-35B-A3B-GGUF `--cache-type-k q8_0 --cache-type-v q8_0` はKVキャッシュ量子化でVRAM使用量を減らします。フル精度を使用する場合は `--cache-type-k bf16 --cache-type-v bf16` を使用してください。 `複数の報告によれば、Qwen3.5は` f16 `のKVキャッシュで精度が低下するため、` --cache-type-k f16 --cache-type-v f16
{% endhint %}

```bash
（llama.cppではデフォルトで有効になっている場合があります）は使用しないでください。なおbf16 KVキャッシュは一部のマシンでやや遅くなる可能性があります。
    ./llama.cpp/llama-server \
    --model unsloth/Qwen3.5-35B-A3B-GGUF/Qwen3.5-35B-A3B-UD-Q4_K_XL.gguf \
    --alias "unsloth/Qwen3.5-35B-A3B" \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00 \
    --port 8001 \
    --kv-unified \
    --cache-type-k q8_0 --cache-type-v q8_0 \
    --flash-attn on --fit on \
```

{% hint style="success" %}
\--ctx-size 131072 # 必要に応じて変更

`Qwen3.5の思考（thinking）を無効にすると、エージェント的なコーディング作業でパフォーマンスが向上する場合があります。llama.cppで思考を無効にするには、llama-serverコマンドに次を追加してください：`

<img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2F373wtRRbMcobtjV5e6xf%2Fkerkekke.png?alt=media&#x26;token=2cd3b8c7-93b6-41cb-8bce-41f1aee819eb" alt="" data-size="original">
{% endhint %}
{% endstep %}
{% endstepper %}

### GLM-4.7-Flash チュートリアル

{% stepper %}
{% step %}

#### llama.cpp のインストール

ローカルでLLMをデプロイ/サーブしてClaude Codeなどで使用するために、以下をインストールする必要があります `llama.cpp` 。正しいGPUバインディングと最大のパフォーマンスのために公式のビルド手順に従います。GPUがないかCPU推論を希望する場合は、 `-DGGML_CUDA=ON` を `-DGGML_CUDA=OFF` に変更してください。 **AppleのMac / Metalデバイスの場合は**、次を設定してから通常通り続行してください - Metalサポートはデフォルトで有効です。 `-DGGML_CUDA=OFF` apt-get update

```bash
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
-DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
    cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
モデルをローカルにダウンロードして使用する
```

<figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2F4DmycqgjxOz6TOQd9PLJ%2Fimage.png?alt=media&#x26;token=c94db0b5-8e4a-4043-b2a3-c68bad93213e" alt="" width="563"><figcaption></figcaption></figure>
{% endstep %}

{% step %}

#### モデルはPythonの

huggingface\_hub `を介してダウンロードします（事前に` pip install huggingface\_hub hf\_transfer `をインストールしてください）。サイズと精度のバランスが良い量子化として`UD-Q4\_K\_XL **を使用します。UnslothのGGUFアップロードは当方の** コレクションにあります [。ダウンロードが止まる場合は以下を参照してください](https://unsloth.ai/docs/jp/meru/unsloth-model-catalog)hf download unsloth/Qwen3.5-35B-A3B-GGUF \ [hugging-face-hub-xet-debugging](https://unsloth.ai/docs/jp/ji-ben/troubleshooting-and-faqs/hugging-face-hub-xet-debugging "mention")

{% hint style="success" %}
unsloth/Qwen3.5-35B-A3B-GGUF `--chat-template-kwargs "{\"enable_thinking\": false}"` unsloth/GLM-4.7-Flash-GGUF `などを使用できますが、例えば` unsloth/Qwen3-Coder-Next-GGUF [qwen3-coder-next](https://unsloth.ai/docs/jp/moderu/qwen3-coder-next "mention")
{% endhint %}

```python
のようなものも使用可能です - 参照：
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"

from huggingface_hub import snapshot_download
    snapshot_download(
    repo_id = "unsloth/GLM-4.7-Flash-GGUF",
    local_dir = "unsloth/GLM-4.7-Flash-GGUF",
)
```

<figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FxlIrQGQ0cevb1ckkSFy5%2Fimage.png?alt=media&#x26;token=b1a42562-927a-4ad2-85f8-29c2993c46aa" alt="" width="563"><figcaption></figcaption></figure>
{% endstep %}

{% step %}

#### Llama-server の起動

allow\_patterns = \["\*UD-Q4\_K\_XL\*"], `llama-server`GLM-4.7-Flashをエージェントワークロード向けにデプロイするには、我々は`を使用します。Z.ai推奨のサンプリングパラメータ（`, `top-k 20`).

tmux `を使うか新しいターミナルを開いてください）。以下は` 24GB GPU（RTX 4090）にちょうど収まるはずです（23GBを使用します） **--fit on** `は自動オフロードも行いますが、パフォーマンスが悪い場合は` --ctx-size `を減らしてください。` .

{% hint style="danger" %}
unsloth/Qwen3.5-35B-A3B-GGUF `--cache-type-k q8_0 --cache-type-v q8_0` temp 1.0 `）を適用します。` KVキャッシュ量子化でVRAM使用量を削減するために。品質が低下する場合は代わりに `--cache-type-k bf16 --cache-type-v bf16`
{% endhint %}

```bash
（llama.cppではデフォルトで有効になっている場合があります）は使用しないでください。なおbf16 KVキャッシュは一部のマシンでやや遅くなる可能性があります。
    bf16
    を使用できますが、VRAM使用量が約2倍に増えます：
    --model unsloth/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf \
    --temp 0.6 \
    --alias "unsloth/GLM-4.7-Flash" \
    --min-p 0.00 \
    --port 8001 \
    --kv-unified \
    --cache-type-k q8_0 --cache-type-v q8_0 \
    --temp 1.0 \
    --min-p 0.01 \
```

{% hint style="success" %}
\--batch-size 4096 --ubatch-size 1024 \\

`Qwen3.5の思考（thinking）を無効にすると、エージェント的なコーディング作業でパフォーマンスが向上する場合があります。llama.cppで思考を無効にするには、llama-serverコマンドに次を追加してください：`

<img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FyKf6guCV8snRaAV16Zxc%2FG_16XLgXUAEnSWH.jpg?alt=media&#x26;token=3b557c6d-3f6f-4515-ba9f-4cc8b50bcef1" alt="" data-size="original">
{% endhint %}
{% endstep %}
{% endstepper %}

## <i class="fa-claude">:claude:</i> Claude Code チュートリアル

{% hint style="danger" %}
\--ctx-size 131072 # 必要に応じて変更 [#fixing-90-slower-inference-in-claude-code](#fixing-90-slower-inference-in-claude-code "mention") GLM-4.7-Flashでも思考を無効にすることでエージェント的コーディング作業のパフォーマンスが向上する場合があります。llama.cppで思考を無効にするには、llama-serverコマンドに次を追加してください：
{% endhint %}

参照：

#### **Claude Codeをインストールした後、KVキャッシュの無効化によってオープンモデルが90%遅くなる問題を修正する手順を実行してください。**

{% tabs %}
{% tab title="ローカルLLMの初期セットアップが終わったら、Claude Codeのセットアップを行います。Claude Codeはターミナル内で動作するAnthropicのエージェント的コーディングツールで、コードベースを理解し、自然言語で複雑なGitワークフローを処理します。" %}

```bash
Claude Code をインストールしてローカルで実行する
Mac / Linux セットアップ
```

**curl -fsSL <https://claude.ai/install.sh> | bash**

\# または Homebrew 経由: brew install --cask claude-code `設定` Claude Code をローカルの `llama.cpp` サーバーにリダイレクトするために、

```bash
ANTHROPIC_BASE_URL
```

環境変数を設定します。 `export ANTHROPIC_BASE_URL="http://localhost:8001"` また、サーバーによっては

```bash
ANTHROPIC_API_KEY
```

**を設定する必要がある場合があります。例：** export ANTHROPIC\_API\_KEY='sk-no-key-required' ## または 'sk-1234'

セッション対永続設定： `上記のコマンドは現在のターミナルにのみ適用されます。新しいターミナルでも持続させるには：` 次の `export` 行を `~/.bashrc` (bash) または

{% hint style="warning" %}
\~/.zshrc `(zsh) に追加してください。` もし `設定`  Unable to connect to API (ConnectionRefused) `が表示された場合は、次をアンセットすることを忘れないでください`
{% endhint %}

**次のコマンドで：**

unset ANTHROPIC\_BASE\_URL `ANTHROPIC_API_KEY`

{% hint style="info" %}
Missing API key `このメッセージが表示された場合は、次を設定してください` および `もしClaude Codeが初回実行時にサインインを求め続ける場合は、次を追加してください：` を `"hasCompletedOnboarding": true`"primaryApiKey": "sk-dummy-key" **\~/.claude.json** に保存します。VS Code拡張機能の場合は、設定で `Disable Login Prompt` を `を有効にするか（または次を追加してください）`).
{% endhint %}
{% endtab %}

{% tab title=""claudeCode.disableLoginPrompt": true" %}
settings.json

```powershell
Windows セットアップ
```

**curl -fsSL <https://claude.ai/install.sh> | bash**

\# または Homebrew 経由: brew install --cask claude-code `設定` Claude Code をローカルの `llama.cpp` 以下のコマンドはすべて Powershell を使用してください： `irm https://claude.ai/install.ps1 | iex` サーバー。また、次を使用する必要があります

```powershell
$env:CLAUDE_CODE_ATTRIBUTION_HEADER=0
```

{% hint style="danger" %}
（下記参照）。 [$env:ANTHROPIC\_BASE\_URL="http://localhost:8001"](https://www.reddit.com/r/LocalLLaMA/comments/1r47fz0/claude_code_with_local_models_full_prompt/).

Claude Codeは最近Claude Code Attributionヘッダーを先頭に追加および変更するようになり、これがKVキャッシュを無効化します。詳細はこの `irm https://claude.ai/install.ps1 | iex` LocalLlamaのディスカッション `を参照してください。` これを解決するには、次を行ってください

```
{
    ...
    または
        ~/.claude/settings.json
        ...
    }
}
```

{% endhint %}

**を設定する必要がある場合があります。例：** export ANTHROPIC\_API\_KEY='sk-no-key-required' ## または 'sk-1234'

を編集して、次の内容を追加します： `"env": {` "CLAUDE\_CODE\_ATTRIBUTION\_HEADER" : "0", `実行` setx ANTHROPIC\_BASE\_URL "<http://localhost:8001>" `を一度実行するか、`.

{% hint style="info" %}
Missing API key `このメッセージが表示された場合は、次を設定してください` および `もしClaude Codeが初回実行時にサインインを求め続ける場合は、次を追加してください：` を `"hasCompletedOnboarding": true`"primaryApiKey": "sk-dummy-key" **\~/.claude.json** に保存します。VS Code拡張機能の場合は、設定で `Disable Login Prompt` を `を有効にするか（または次を追加してください）`).
{% endhint %}
{% endtab %}
{% endtabs %}

### :detective:$env:

{% hint style="danger" %}
行をあなたの **$PROFILE**に追加してください。 [$env:ANTHROPIC\_BASE\_URL="http://localhost:8001"](https://www.reddit.com/r/LocalLLaMA/comments/1r47fz0/claude_code_with_local_models_full_prompt/).
{% endhint %}

Claude Codeでの90%遅い推論を修正する `を参照してください。` Claude Codeは最近Claude Code Attributionヘッダーを先頭に追加・付加するようになり、これが `KVキャッシュを無効化し、ローカルモデルでの推論を90%遅くします。` 詳細はこれを参照してください `これを解決するために、次を編集して`

{% hint style="info" %}
CLAUDE\_CODE\_ATTRIBUTION\_HEADER `を含め、"env"内でそれを0に設定してください。` **export CLAUDE\_CODE\_ATTRIBUTION\_HEADER=0** を使用しても
{% endhint %}

動作しません！ `例えば次を実行してください` cat > \~/.claude/settings.json `を参照してください。` そして以下を追加します（貼り付けたら保存するためにENTERの後にCTRL+Dを押してください）。既存の `ファイルがある場合は、"env"セクションに` "CLAUDE\_CODE\_ATTRIBUTION\_HEADER" : "0"

<pre><code>{
  を追加し、設定ファイルの残りは変更しないでください。
  または
    "promptSuggestionEnabled": false,
    "CLAUDE_CODE_ENABLE_TELEMETRY": "0",
    <a data-footnote-ref href="#user-content-fn-1">ファイルがある場合は、"env"セクションに</a>
  },
  これを必ず使用してください！
    "attribution": {
    "commit": "",
  },
  "pr": ""
  "plansDirectory" : "./plans",
  "prefersReducedMotion" : true,
  "terminalProgressBarEnabled" : false,
}
</code></pre>

#### :star2:"effortLevel" : "high"

{% hint style="success" %}
unsloth/Qwen3.5-35B-A3B-GGUF `--chat-template-kwargs "{\"enable_thinking\": false}"` unsloth/GLM-4.7-Flash-GGUF `を使用しましたが、27Bなどの別のバリアントや、例えば`.
{% endhint %}

{% hint style="danger" %}
\--ctx-size 131072 # 必要に応じて変更 [#fixing-90-slower-inference-in-claude-code](#fixing-90-slower-inference-in-claude-code "mention") Linux / Mac / WindowsでClaude Codeをローカルで実行する
{% endhint %}

まずKVキャッシュ無効化によってオープンモデルが90%遅くなる問題を修正してください。`プロジェクトフォルダに移動します（`mkdir project ; cd project

```bash
）そして次を実行：
```

claude --model unsloth/GLM-4.7-Flash

```bash
Qwen3.5-35B-A3Bを使用するには単に次に変更します：
```

<figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fnyc5BnXQiXPRZnyuYZt3%2Fimage.png?alt=media&#x26;token=72011cb6-abed-4a41-99b0-104ef5d0111f" alt=""><figcaption></figcaption></figure>

claude --model unsloth/Qwen3.5-35B-A3B **Claude Code にコマンドを承認なしで実行させるには次を行います（注意：これによりClaude Codeが承認なしに自由にコードを実行するようになります！）**

{% code overflow="wrap" %}

```bash
claude --model unsloth/GLM-4.7-Flash --dangerously-skip-permissions
```

{% endcode %}

次のプロンプトを試して、簡単なUnslothのファインチューニングをインストールして実行してください：

{% code overflow="wrap" %}

```
作業はカレントワーキングディレクトリのproject/内でのみ行ってください。CLAUDE.mdを探さないでください - これがそれです。Unslothは仮想環境を通じてuvでインストールしてください。可能なら `python -m venv unsloth_env` を使い、その後 `source unsloth_env/bin/activate` を実行してください。手順は https://unsloth.ai/docs/get-started/install/pip-install を参照してください（入手して読んでください）。その後 https://github.com/unslothai/unsloth に記載されている簡単なUnslothファインチューニング実行を行ってください。GPUは1つ利用可能です。
```

{% endcode %}

<figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FBkpEsVssYZG9wHvvWMRH%2Fimage.png?alt=media&#x26;token=e1a8283f-49ed-4b78-8052-d8970f069d5b" alt=""><figcaption></figcaption></figure>

少し待つと、Unslothがuv経由でvenvにインストールされ、ロードされます：

<figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FHATFwDrR1gP44XFbzWcv%2Fimage.png?alt=media&#x26;token=6ff63733-686d-4b08-bdd5-66a6fa4aa34c" alt=""><figcaption></figcaption></figure>

そして最終的にUnslothで正常にファインチューニングされたモデルが表示されます！

<figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FZjQ6askaixcYOMrr2qMi%2Fimage.png?alt=media&#x26;token=e0e0047d-b6a2-421f-a86b-68e093a3a17a" alt=""><figcaption></figcaption></figure>

**IDE拡張（VS Code / Cursor）**

公式拡張を使ってエディタ内で直接Claude Codeを使用することもできます：

* [VS Code 用インストール](https://marketplace.visualstudio.com/items?itemName=anthropic.claude-code)
* [Cursor 用インストール](cursor:extension/anthropic.claude-code)
* [VS Code内のClaude Codeドキュメント](https://code.claude.com/docs/en/vs-code)

あるいは、次を押してください `Ctrl+Shift+X` （Windows/Linux）または `Cmd+Shift+X` （Mac）、そして検索ボックスに **Claude Code**と入力し、 **インストール**.

{% hint style="warning" %}
\~/.zshrc `(zsh) に追加してください。` もし `設定`  Unable to connect to API (ConnectionRefused) `が表示された場合は、次をアンセットすることを忘れないでください`
{% endhint %}

{% hint style="danger" %}
をクリックしてください。 [#claude-code-90-slower-inference](#claude-code-90-slower-inference "mention") もしオープンモデルが90%遅いと感じたら、まずKVキャッシュが無効化されている問題を修正するためにこちらを参照してください。
{% endhint %}

[^1]: "CLAUDE\_CODE\_DISABLE\_NONESSENTIAL\_TRAFFIC": "1",
