# Claude CodeでローカルLLMを実行する方法

このステップバイステップガイドでは、オープンLLMとAPIをClaude Codeに完全ローカルで接続する方法を、スクリーンショット付きで紹介します。Qwen3.6、DeepSeek、Gemmaなどの任意のオープンモデルで実行できます。

このチュートリアルでは、次のオープンモデルを使用します： [Gemma 4](/docs/jp/moderu/gemma-4.md) および [Qwen3.5](/docs/jp/moderu/qwen3.5.md) これらは強力なエージェント向け・コーディング向けモデルです（24GB RAM/統合メモリデバイスで動作します）。推論には、 [Unsloth Studio](https://github.com/unslothai/unsloth) および [`llama.cpp`](https://github.com/ggml-org/llama.cpp) を使用します。macOS、Linux、WindowsでLLMを実行/提供できます。 [別のモデル](/docs/jp/moderu/tutorials.md)に差し替えても構いません。スクリプト内のモデル名を更新するだけです。

<a href="/pages/ee610b22aa43d29d8415fd27eb7de15ba88f7385#claude-code-setup" class="button primary" data-icon="claude">Claude Code のセットアップ</a><a href="/pages/ee610b22aa43d29d8415fd27eb7de15ba88f7385#quickstart-tutorials" class="button primary">📖 ローカルモデルのセットアップチュートリアル</a>

モデルの量子化には、Unsloth [Dynamic GGUF](/docs/jp/ji-ben/unsloth-dynamic-2.0-ggufs.md) を使用して、可能な限り精度を保ちながら任意のLLMを量子化して実行します。

## <i class="fa-claude">:claude:</i> Claude Code のセットアップ

ローカルLLMをセットアップする前に、Claude Codeをインストールする必要があります。Claude Codeはターミナルベースのコーディングエージェントで、コードベースを理解し、自然言語で複雑なGitワークフローを扱います。

{% tabs %}
{% tab title="macOS、Linux、WSL" %}

#### **Claude Code をインストール：**

Claude Codeをインストールするために、ターミナルに貼り付けてください：

```bash
curl -fsSL https://claude.ai/install.sh | bash
```

インストール後、プロジェクトフォルダに移動してください。次に `claude` を `シェル` に入力して開始します。

```bash
cd ~/projects/my-project 
claude
```

{% endtab %}

{% tab title="Windows" %}

#### **Claude Code をインストール：**

次を開いて `PowerShell` Claude Code をインストール：

```powershell
irm https://claude.ai/install.ps1 | iex
```

インストール後、プロジェクトフォルダに移動してください。次に `claude` を `powershell` に入力して開始します。

<pre class="language-powershell"><code class="lang-powershell"><strong>cd /path/to/your/project
</strong>claude
</code></pre>

<div data-with-frame="true"><figure><img src="/files/6446d4b7e2f6a4d22ac7d089f2f5ec725b1dd8ce" alt="" width="563"><figcaption></figcaption></figure></div>
{% endtab %}
{% endtabs %}

### :detective:Claude Code で推論が90%遅くなる問題の修正

{% hint style="warning" %}
Claude Code は最近、Claude Code Attributionヘッダーを先頭に付加するようになり、これは **KVキャッシュを無効化してしまい、ローカルモデルでの推論を90%遅くします**.
{% endhint %}

これを解決するには、 `~/.claude/settings.json` を編集して `CLAUDE_CODE_ATTRIBUTION_HEADER` を含め、 `"env"`

{% hint style="info" %}
を使うと `の中で0に設定します` **動作** しません！
{% endhint %}

例として、次のようにします `cat > ~/.claude/settings.json` その後、以下を追加してください（貼り付けたらEnterを押してからCtrl+Dで保存します）。既存の `~/.claude/settings.json` ファイルがある場合は、 `"CLAUDE_CODE_ATTRIBUTION_HEADER" : "0"` を "env" セクションに追加し、設定ファイルの他の部分は変更しないでください。

<pre class="language-json"><code class="lang-json">{
  "promptSuggestionEnabled": false,
  "env": {
    "CLAUDE_CODE_ENABLE_TELEMETRY": "0",
    "CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1",
    <a data-footnote-ref href="#user-content-fn-1">"CLAUDE_CODE_ATTRIBUTION_HEADER" : "0"</a>
  },
  "attribution": {
    "commit": "",
    "pr": ""
  },
  "plansDirectory" : "./plans",
  "prefersReducedMotion" : true,
  "terminalProgressBarEnabled" : false,
  "effortLevel" : "high"
}
</code></pre>

## 📖 クイックスタートチュートリアル

{% columns %}
{% column %}
始める前に、まず使用する特定のモデルのセットアップを完了する必要があります。私たちは [Unsloth](/docs/jp/xin-zhe/studio.md) （Web UI）とllama.cppを使用します。これらは、Mac、Linux、WindowsデバイスでLLMを実行・提供するためのオープンソースフレームワークです。

Unslothには独自の自己修復 [ツール呼び出し](/docs/jp/xin-zhe/studio/chat.md#auto-healing-tool-calling) および [Web 検索](/docs/jp/xin-zhe/studio/chat.md#code-execution) 機能もあります。右側のClaude CodeがUnslothに接続されている例を参照してください：
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/77e863c5bd956050b90ee75739b6a07e63ef9f71" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

<a href="/pages/ee610b22aa43d29d8415fd27eb7de15ba88f7385#connect-claude-code" class="button primary" data-icon="claude">Claude Code を接続</a><a href="/pages/ee610b22aa43d29d8415fd27eb7de15ba88f7385#unsloth-tutorial" class="button primary">🦥 Unsloth チュートリアル</a><a href="/pages/ee610b22aa43d29d8415fd27eb7de15ba88f7385#llama.cpp-tutorial" class="button primary"> llama.cpp チュートリアル</a>

## 🦥 Unsloth チュートリアル

このチュートリアルでは、 [Unsloth](https://github.com/unslothai/unsloth)を使ってUI経由でローカルモデルをClaude Codeに提供/接続します。UnslothはWindows、WSL、Linux、MacOSで動作します。&#x20;

{% columns %}
{% column %}

* 検索、ダウンロード、 [GGUF を実行](/docs/jp/xin-zhe/studio.md#run-models-locally) し、safetensor モデルを扱う
* [**自己修復** ツール呼び出し](/docs/jp/xin-zhe/studio.md#execute-code--heal-tool-calling) + **Web 検索**
* [**コード実行**](/docs/jp/xin-zhe/studio.md#run-models-locally) （Python、Bash）
* [自動推論](/docs/jp/xin-zhe/studio.md#model-arena) パラメータ選択（temp、top-p など）
* llama.cpp を介した高速な CPU + GPU 推論
* [LLM を学習する](/docs/jp/xin-zhe/studio.md#no-code-training) VRAM を 70% 少なくして 2 倍高速

インストール手順は以下を参照してください：
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/c219df5fc541689071df02c2a6ac347cbb9a4847" alt=""><figcaption><p>Unslothで動作するQwen3.6 2-bitの例。</p></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% tabs %}
{% tab title="MacOS" %}

#### ステップ1：Unslothのセットアップ

以下から `ターミナル` を起動し、下のコマンドを入力してUnslothをインストールします。

```bash
curl -fsSL https://unsloth.ai/install.sh | sh
```

Unslothが下のように環境のセットアップと必要パッケージのインストールを開始します。Studioを今すぐ起動してよいか聞かれたら **Y** を入力して `Enter` を押してください。これでローカルの **8888** ポートでUnslothが起動します。

<figure><img src="/files/911b9883060def0d092c143792f31dd9552de2ac" alt="" width="375"><figcaption></figcaption></figure>

{% hint style="info" %}
インストール中にUnslothを起動しないことを選んだ場合でも、いつでも `unsloth studio -p 8888` を使ってUnslothアプリを起動できます。PC/コンピュータ外のクライアントからUnslothインスタンスにアクセスできるようにしたい場合は、 `-H 0.0.0.0` を `unsloth studio` コマンドに追加してください。
{% endhint %}

#### ステップ2：Unslothを起動

お好みのブラウザを開いて `http://127.0.0.1:8888`  とURL欄に入力します。Unslothのインストールが初めての場合、パスワードページに移動し、新しいパスワードを作成する必要があります。その後、下図のようにUnslothがチャットページで開きます。

<figure><img src="/files/22712a19788622c5a19fe86f6e5269b13c1d20d7" alt="" width="375"><figcaption></figcaption></figure>
{% endtab %}

{% tab title="Windows" %}

#### ステップ1：Unslothのセットアップ

スタートメニューを開いて `PowerShell`を検索し、起動します。インストールコマンドをコピーして入力してください：

```powershell
irm https://unsloth.ai/install.ps1 | iex
```

自動的にインストールが始まります。インストール完了後、PowerShellがUnsloth Studioを起動するかどうかを尋ねま&#x3059;**.**

<figure><img src="/files/911b9883060def0d092c143792f31dd9552de2ac" alt="" width="375"><figcaption></figcaption></figure>

次のコマンドでも起動できます：

```bash
unsloth studio -H 0.0.0.0 -p 8888
```

{% hint style="info" %}
PC/コンピュータ外のクライアントからインスタンスにアクセスできるようにしたい場合。\
次を追加してください `-H 0.0.0.0` を `unsloth studio` コマンドに追加してください。
{% endhint %}

#### ステップ2：Unslothを起動

ブラウザで `http://127.0.0.1:8888` を開きます。初回起動時は、チャットページに進むために新しいパスワードを作成してください。 **Unsloth Studio** がインストールされ、使用できる状態になりました。

<figure><img src="/files/22712a19788622c5a19fe86f6e5269b13c1d20d7" alt="" width="375"><figcaption></figcaption></figure>
{% endtab %}

{% tab title="Linux、WSL" %}

#### ステップ1：Unslothのセットアップ

{% tabs %}
{% tab title="Linux" %}
ターミナルアプリケーションを開きます。 `Ctrl + Alt + T`を押すか、 `Terminal` をシステムのアプリケーションメニューで検索して起動できます。
{% endtab %}

{% tab title="WSL" %}
Windowsのスタートメニューをクリックし、インストール済みディストリビューション名（例： `Ubuntu`）を入力して開きます。

{% hint style="warning" %}
で **WSL**、 **NVIDIAドライバー** が **Windows** （WSLの中ではなく）にインストールされていること、および **CUDAツールキット** がWSLディストリビューション内にインストールされていることを確認してください。詳細は以下のシステム要件を参照してください。
{% endhint %}
{% endtab %}
{% endtabs %}

インストールするには、インストールコマンドをコピーして実行します：

```bash
curl -fsSL https://unsloth.ai/install.sh | sh
```

その後：

1. ターミナルウィンドウ内をクリックします
2. コマンドを貼り付けます `Ctrl + Shift + V`
3. を押します `Enter`

Unslothが下のように環境のセットアップと必要パッケージのインストールを開始します。Studioを今すぐ起動してよいか聞かれたら **Y** を入力して `Enter` を押してください。これでローカルの **8888** ポートでUnslothが起動します。

<figure><img src="/files/f1400537616728bd8126c7e63eb295b63c379bb4" alt=""><figcaption></figcaption></figure>

{% hint style="info" %}
インストール中にUnslothを起動しないことを選んだ場合でも、いつでも `unsloth studio -p 8888` を使ってUnslothアプリを起動できます。PC/コンピュータ外のクライアントからUnslothインスタンスにアクセスできるようにしたい場合は、 `-H 0.0.0.0` を `unsloth studio` コマンドに追加してください。
{% endhint %}

#### ステップ2：Unslothを起動

お好みのブラウザを開いて `http://127.0.0.1:8888`  とURL欄に入力します。Unslothのインストールが初めての場合、パスワードページに移動し、新しいパスワードを作成する必要があります。その後、下図のようにUnslothがチャットページで開きます。

<figure><img src="/files/fe873fdd0e62c5c0973e8bd102e5314c44f2fafd" alt="" width="375"><figcaption></figcaption></figure>
{% endtab %}
{% endtabs %}

### モデル読み込み + APIガイド

{% stepper %}
{% step %}

#### モデルを選択

APIを使用する前に、チャットページ左上の **モデルを選択** ドロップダウンからモデルを読み込んでください。

<figure><img src="/files/e29038cb1426e393aee3cb144c904bc7a9438f27" alt=""><figcaption></figcaption></figure>

このガイドでは、次を使用します： `unsloth/gemma-4-26B-A4B-it-GGUF` 推奨される `UD-Q4_K_XL` 量子化を使用します。
{% endstep %}

{% step %}

#### モデルをテスト

クライアントを使う前に、短いメッセージを送信してください：

<div data-with-frame="true"><figure><img src="/files/6037fb7bcfd78472b5ddadc37e90255377de6580" alt="" width="563"><figcaption></figcaption></figure></div>

{% hint style="info" %}
これで、モデルが正しく読み込まれ、応答可能であることが確認できます。
{% endhint %}
{% endstep %}

{% step %}

#### **Unsloth APIキー**

Studioで **Settings → API** を開いて、APIキーを表示または作成します。

<figure><img src="/files/ff7840d9317331aed891f8636717121d17346f61" alt=""><figcaption></figcaption></figure>

APIキーはパスワードのように扱い、スクリーンショットやリポジトリに公開しないようにしてください。
{% endstep %}
{% endstepper %}

## ⚙️ Claude Code を接続

Claude Code用のローカルLLMのセットアップが完了したので、次にClaude CodeをUnslothまたはllama.cppで動作するよう設定します。まず、以下の環境変数を設定します。これらの変数はデフォルトではセッション間で保持されません。&#x20;

{% tabs %}
{% tab title="MacOS、Linux、WSL" %}
**設定：** ローカルAPI URLを設定：

```bash
export ANTHROPIC_BASE_URL="http://localhost:8888"
```

Unsloth Studio → Settings → API からキーをコピーして、次のように設定します：

```bash
export ANTHROPIC_AUTH_TOKEN="sk-unsloth-xxxxxxxxxxxx"
```

オプション：現在Unslothに読み込まれているモデル名をデフォルトとして使用します。

```bash
export ANTHROPIC_MODEL="gemma-4-26B-A4B-it-GGUF"
```

モデル名は、現在Unsloth Studioに読み込まれているモデルと一致している必要があります。
{% endtab %}

{% tab title="Windows" %}
**設定：** PowerShellでローカルAPI URLを設定：

```powershell
$env:ANTHROPIC_BASE_URL = "http://localhost:8888"
```

次からキーをコピーして **Unsloth Studio → Settings → API**、次のように設定します：

```powershell
$env:ANTHROPIC_AUTH_TOKEN = "sk-unsloth-xxxxxxxxxxxx"
```

**オプション：** 現在Unslothに読み込まれているモデル名をデフォルトとして使用します。

```powershell
$env:ANTHROPIC_MODEL = "gemma-4-26B-A4B-it-GGUF"
```

{% hint style="info" %}
モデル名は、現在Unsloth Studioに読み込まれているモデルである必要があります。&#x20;
{% endhint %}
{% endtab %}
{% endtabs %}

### Claude Code を起動

現在Unslothに読み込まれているモデルでClaude Codeを起動します。

次を使用します `gemma-4-26B-A4B-it-GGUF`。ただし、Unsloth互換の任意のモデルを使用できます。&#x20;

```shellscript
claude --model unsloth/gemma-4-26B-A4B-it-GGUF
```

Claude Codeが開き、選択したモデルが表示されるはずです。

<figure><img src="/files/e9e413e7e368d9a71991359639c187c961c9df7e" alt=""><figcaption></figcaption></figure>

{% hint style="warning" %}
参照 [#fixing-90-slower-inference-in-claude-code](#fixing-90-slower-inference-in-claude-code "mention") まず、KVキャッシュの無効化によりオープンモデルの速度が90%遅くなる問題を修正します。
{% endhint %}

高品質なSFTデータセットを調査して順位付けするために、このプロンプトを試してください。

{% code overflow="wrap" %}

```
project/ の中だけで作業できます。CLAUDE.md を探さないでください — これがそれです。Hugging Faceで実在する指示/チャット/SFTデータセットを10個、Web検索で探し、見つけた内容を簡潔に要約し、調査しながら各データセットがSFTに関連する理由を説明し、その後、rank、dataset name、creator、関連するタグ3〜5個、短い平易な要約、SFTに有用な理由を含む、整ったMarkdownレポート sft_report.md を作成してください。巨大なメタデータのダンプ、貼り付けた生の説明、過剰に長いタグ一覧、無関係なデータセットは含めず、すべて簡潔で読みやすくしてください。タスクは、sft_report.md に10件のきれいでよく書かれたデータセット項目が含まれた時点で完了です。最後は次で締めてください： “Successfully finetuned a model with Unsloth!
```

{% endcode %}

プロンプトを送信すると、エージェントがWeb検索を行い、結果を評価して、最終レポートを書きます。これには数分かかる場合があります。

一部のワークフローでは、操作の承認やフォローアップのプロンプトへの回答が必要になる場合があります。

<figure><img src="/files/005168c61b85a54d19b975aabb80d13cd9a2744c" alt="" width="563"><figcaption></figcaption></figure>

{% hint style="info" %}
一部のワークフローでは、操作の承認やフォローアップのプロンプトへの回答が必要になる場合があります。
{% endhint %}

完了すると、生成された `sft_report.md` は次のような見た目になります。

<figure><img src="/files/e715b723832b82e56b869e98f3a9eb662a261dad" alt="" width="375"><figcaption></figcaption></figure>

{% hint style="warning" %}
次のような表示が出たら `Unable to connect to API (ConnectionRefused)` 、 `ANTHROPIC_BASE_URL`  経由で `の設定を解除することを忘れないでください`

オープンモデルが90%遅い場合は、 [まずここを確認してください](#fixing-90-slower-inference-in-claude-code) KVキャッシュの無効化を修正するためです。
{% endhint %}

## 🦙 Llama.cpp チュートリアル

始める前に、まず使用する特定のモデルのセットアップを完了する必要があります。私たちは `llama.cpp` これは、Mac、Linux、WindowsなどのデバイスでLLMを実行するためのオープンソースフレームワークです。Llama.cppには `llama-server` が含まれており、LLMを効率的に提供・デプロイできます。モデルはポート8001で提供され、すべてのエージェントツールは単一のOpenAI互換エンドポイント経由でルーティングされます。

#### Qwen3.5 チュートリアル

次を使用します [Qwen3.5](/docs/jp/moderu/qwen3.5.md)-35B-A3B と、素早く正確なコーディングタスク向けの特定の設定を使います。VRAMが不足していて、より **賢い** model, **Qwen3.5-27B** ものが必要なら、これが優れた選択肢ですが、速度は約2倍遅くなります。あるいは、9B、4B、2Bなどの他のQwen3.5系統も使えます。

{% hint style="info" %}
Qwen3.5-27B は、 **賢い** モデルが欲しい場合やVRAMが十分でない場合に使ってください。ただし、35B-A3Bより約2倍遅くなります。あるいは、 [**Qwen3-Coder-Next**](/docs/jp/moderu/qwen3-coder-next.md) を使うこともできます。これは、VRAMが十分にあるなら非常に優れています。
{% endhint %}

{% stepper %}
{% step %}

#### llama.cpp をインストール

次をインストールする必要があります `llama.cpp` Claude Codeなどで使うためにローカルLLMをデプロイ/提供するには。正しいGPUバインディングと最大性能を得るため、公式のビルド手順に従います。 `-DGGML_CUDA=ON` を `-DGGML_CUDA=OFF` に変更してください。GPU がない場合、または CPU 推論だけを使いたい場合です。 **Apple Mac / Metal デバイスの場合**、次を設定して `-DGGML_CUDA=OFF` その後は通常どおり続けてください - Metal サポートは既定で有効です。

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \\
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

<figure><img src="/files/ae5f3315e19104577ac3d697dc2e49532dde5331" alt="" width="563"><figcaption></figcaption></figure>
{% endstep %}

{% step %}

#### モデルをローカルでダウンロードして使用

を介してモデルをダウンロード `huggingface_hub` Pythonで（ `pip install huggingface_hub hf_transfer`を使ってインストールした後）。私たちは **UD-Q4\_K\_XL** 量子化モデルを使って、サイズと精度の最適なバランスを実現します。すべてのUnsloth GGUFアップロードは次の [コレクションはこちら](/docs/jp/meru/unsloth-model-catalog.md)。ダウンロードが止まる場合は、 [Hugging Face Hub、XETデバッグ](/docs/jp/ji-ben/troubleshooting-and-faqs/hugging-face-hub-xet-debugging.md)

```bash
hf download unsloth/Qwen3.5-35B-A3B-GGUF \\
    --local-dir unsloth/Qwen3.5-35B-A3B-GGUF \\
    --include "*UD-Q4_K_XL*" # Dynamic 2bit では "*UD-Q2_K_XL*" を使用
```

<figure><img src="/files/870f74435ac5d7469d68de67de56a0e6bc274975" alt=""><figcaption></figcaption></figure>

{% hint style="success" %}
私たちは `unsloth/Qwen3.5-35B-A3B-GGUF` を使用しましたが、27Bのような別のバリアントや、次のような別のモデルも使えます `unsloth/`[`Qwen3-Coder-Next`](/docs/jp/moderu/qwen3-coder-next.md)`-GGUF`.
{% endhint %}

<figure><img src="/files/95477a113efead8e33b2a3a879c8b9b96e17336a" alt="" width="563"><figcaption></figcaption></figure>
{% endstep %}

{% step %}

#### Llamaサーバーを起動

エージェント向けワークロードでQwen3.5をデプロイするには、 `llama-server`を使用します。 [Qwen推奨のサンプリングパラメータ](/docs/jp/moderu/qwen3.5.md#recommended-settings) を思考モード向けに適用します： `temp 0.6`, `top_p 0.95` , `top-k 20`。これらの数値は、非思考モードや他のタスクを使う場合には変わることに注意してください。

新しいターミナルでこのコマンドを実行してください（ `tmux` を使うか、新しいターミナルを開いてください）。以下は **24GB GPU（RTX 4090）にぴったり収まるはずです（23GB使用）** `--fit on` 自動オフロードも行いますが、性能が悪い場合は次を減らしてください `--ctx-size` .

{% hint style="info" %}
私たちは `--cache-type-k q8_0 --cache-type-v q8_0` KVキャッシュ量子化によりVRAM使用量を減らします。フル精度にするには、 `--cache-type-k bf16 --cache-type-v bf16` を使用します。bf16 KVキャッシュは、一部のマシンではやや遅くなる場合があります。
{% endhint %}

```bash
./llama.cpp/llama-server \\
    --model unsloth/Qwen3.5-35B-A3B-GGUF/Qwen3.5-35B-A3B-UD-Q4_K_XL.gguf \\
    --alias "unsloth/Qwen3.5-35B-A3B" \\
    --temp 0.6 \\
    --top-p 0.95 \
    --top-k 20 \\
    --min-p 0.00 \\
    --port 8001 \\
    --kv-unified \\
    --cache-type-k q8_0 --cache-type-v q8_0
```

{% hint style="success" %}
Qwen3.5では思考を無効にすることもでき、エージェント向けコーディング作業の性能向上につながる場合があります。llama.cppで思考を無効にするには、llama-serverコマンドに次を追加してください：

`--chat-template-kwargs "{\"enable_thinking\": false}"`

<img src="/files/8b0978556a2ca166922fd17bdf1b4ad45910b87a" alt="" data-size="original">
{% endhint %}
{% endstep %}
{% endstepper %}

### llama-server で Claude Code を起動

{% hint style="success" %}
私たちは `unsloth/GLM-4.7-Flash-GGUF` が使えますが、次のようなものなら何でも使えます `unsloth/Qwen3.6-27B-GGUF`.
{% endhint %}

{% hint style="warning" %}
参照 [#fixing-90-slower-inference-in-claude-code](#fixing-90-slower-inference-in-claude-code "mention") まず、KVキャッシュの無効化によりオープンモデルの速度が90%遅くなる問題を修正します。
{% endhint %}

プロジェクトフォルダに移動し（`mkdir project ; cd project`）、次を実行します：

```bash
claude --model unsloth/GLM-4.7-Flash
```

Qwen3.6-35B-A3Bを使うには、単に次のように変更します：

```bash
claude --model unsloth/Qwen3.6-35B-A3B
```

<div data-with-frame="true"><figure><img src="/files/31b7e88d00ab4d4f12cc3d5b3997ec89aa0af809" alt="" width="563"><figcaption></figcaption></figure></div>

Claude Codeに承認なしでコマンドを実行させるには、次を行います **（注意：これにより、Claude Codeは承認なしで好きなようにコードを実行・処理するようになります！）**

{% code overflow="wrap" %}

```bash
claude --model unsloth/GLM-4.7-Flash --dangerously-skip-permissions
```

{% endcode %}

簡単なUnslothのファインチューニングをインストールして実行するために、このプロンプトを試してください：

{% code overflow="wrap" %}

```
cwd project/ の中だけで作業できます。CLAUDE.md を探さないでください - これがそれです。uv 経由で仮想環境を使ってUnslothをインストールしてください。可能なら `python -m venv unsloth_env` を使い、その後 `source unsloth_env/bin/activate` を実行してください。方法は https://unsloth.ai/docs/get-started/install/pip-install を見て（取得して読んでください）。その後、https://github.com/unslothai/unsloth に記載された簡単なUnslothのファインチューニング実行を行ってください。GPUは1枚使えます。
```

{% endcode %}

<div data-with-frame="true"><figure><img src="/files/429dfd4bc37e01e11079daca85db2100db70faa6" alt="" width="563"><figcaption></figcaption></figure></div>

少し待つと、Unslothがuv経由でvenvにインストールされ、読み込まれます：

<div data-with-frame="true"><figure><img src="/files/7bbabd596e0fbbfe8767284fb319e36f1d01bfc8" alt="" width="563"><figcaption></figcaption></figure></div>

そして最後に、Unslothで正常にファインチューニングされたモデルが表示されます！

<div data-with-frame="true"><figure><img src="/files/06a9998ee498e38088efd6de5a8a0a6370befe0c" alt="" width="563"><figcaption></figcaption></figure></div>

{% hint style="warning" %}
次のような表示が出たら `Unable to connect to API (ConnectionRefused)` 、 `ANTHROPIC_BASE_URL`  経由で `の設定を解除することを忘れないでください`

オープンモデルが90%遅い場合は、 [まずここを確認してください](#fixing-90-slower-inference-in-claude-code) KVキャッシュの無効化を修正するためです。
{% endhint %}

[^1]: これを使う必要があります！


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/jp/ji-ben/claude-code.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
