For the complete documentation index, see llms.txt. This page is also available as Markdown.

IBM Granite 4.1 - ローカル実行方法

Unsloth GGUFでIBM Granite-4.1を実行し、ファインチューニングする方法!

IBMが3つのサイズのGranite-4.1モデルをリリース: 3B, 8B および 30B。Granite-4.1は長文コンテキスト対応の高密度モデルファミリーで、指示追従、ツール呼び出し、チャット、RAG、コーディングのユースケース向けに構築されています。これらのモデルはサイズに対して非常に競争力が高く、15Tトークンで学習されています。

Unsloth Granite-4.1 Dynamic GGUFの実行方法、またはモデルのファインチューニング/RLの方法を学びましょう。サポート担当エージェントのユースケース向けに、無料ノートブックでGranite-4.1をファインチューニングできます。

Granite-4.1モデルファミリー:

  • Granite-4.1-3B Dense: ローカル、エッジ、高負荷タスク向けの軽量かつ効率的なモデルです。高速な分類、抽出、シンプルなRAG、関数呼び出し、小型GPUでのファインチューニングに最適です。

  • Granite-4.1-8B Dense: ローカルアシスタント、RAG、コーディング、多言語チャット、ツール使用ワークフロー向けのバランスの取れたモデルです。メモリ使用量を実用的に抑えつつ、より高い品質を求める場合の優れたデフォルト選択です。

  • Granite-4.1-30B Dense: Granite-4.1で最も強力なモデルです。より要求の厳しい企業向けアシスタント、長文コンテキストタスク、複雑なRAG、コーディング、多言語ワークフロー、エージェント的なツール呼び出しのユースケースに最適です。

⚙️ 使用ガイド

決定的で指示に従う応答には、次の設定を使用してください:

temperature=0.0, top_p=1.0, top_k=0

  • Temperature of 0.0

  • Top_K = 0

  • Top_P = 1.0

  • 推奨最小コンテキスト: 16,384

  • 最大コンテキスト長ウィンドウ: 131,072 トークン

Unsloth Granite-4.1 アップロード

Granite-4.1チュートリアルを実行

Unsloth Studio で実行llama.cpp で実行

🦥 Unsloth Studio ガイド

このチュートリアルでは、 Unsloth Studioを使用します。これは LLM の実行と学習のための新しい Web UI です。Unsloth Studio を使えば、モデルを実行し、 音声、画像、テキストをローカルで Mac、Windows、Linux 上で入力でき、さらに次のことができます:

1

Unslothをインストールする

MacOS、Linux、WSL:

Windows PowerShell:

2

Unsloth Studio をセットアップ(1回のみ)

セットアップでは自動的に Node.js(nvm 経由)をインストールし、フロントエンドをビルドし、必要な Python 依存関係をすべてインストールし、CUDA サポート付きで llama.cpp をビルドします。

WSL ユーザー: 次のインストールのために sudo パスワードの入力を求められます(ビルド依存関係のインストール用: cmake, git, libcurl4-openssl-dev).

3

Unsloth を起動

MacOS、Linux、WSL:

Windows Powershell:

その後、 http://localhost:8888 をブラウザで開いてください。

4

Granite 4.1を検索してダウンロード

初回起動時には、アカウントを保護するためのパスワードを作成し、後で再度サインインする必要があります。その後、 Studio Chat タブを開き、検索バーで Granite 4.1 を検索して、希望するモデルと量子化版をダウンロードしてください。

5

Granite 4.1を実行

Unsloth Studio を使用すると推論パラメータは自動設定されるはずですが、手動で変更することもできます。コンテキスト長、チャットテンプレート、その他の設定も編集できます。

詳細は、 Unsloth Studio 推論ガイド.

🦙 Llama.cpp チュートリアル

  1. 最新の llama.cppから取得してください。以下のビルド手順に従うこともできます。 -DGGML_CUDA=ON-DGGML_CUDA=OFF GPU がない場合、または CPU 推論だけを使いたい場合は変更してください。Apple Mac / Metal デバイスでは、 -DGGML_CUDA=OFF その後は通常どおり進めてください — Metalサポートはデフォルトで有効です。

  1. もし llama.cpp モデルを直接読み込むには、以下を実行できます。 UD-Q4_K_XL は量子化タイプです。次のような他の量子化版にも変更できます Q4_K_M, Q5_K_M, Q8_0 または、利用可能であればBF16の完全精度。

  1. または、インストール後にHugging Face経由でモデルをダウンロードします huggingface_hub および hf_transfer.

  1. UnslothのFlappy Birdテストを実行します。

編集 --threads 32 CPU スレッド数を --ctx-size 16384 コンテキスト長に対して、そして --n-gpu-layers 99 GPUオフロードに対して。GPUがメモリ不足になった場合は、GPUレイヤーを調整してみてください。削除してください --n-gpu-layers CPUのみの推論を使用している場合。

  1. 会話モードの場合:

UnslothでGranite-4.1をファインチューニング

Unslothは、ファインチューニング用に3B、8B、30Bを含むGranite-4.1モデルをサポートしています。学習は2倍高速で、VRAMの使用量が少なく、より長いコンテキスト長をサポートします。Granite-4.1-3BとGranite-4.1-8Bはローカルでのファインチューニングの出発点として最適で、Granite-4.1-30Bは高精度な企業向けワークフローに最も強力なモデルです。

このノートブックでは、顧客とのやり取りを理解し、分析と推奨を含むサポートエージェントになるモデルを学習します。この設定により、サポート担当者にリアルタイムで支援を提供するボットを学習できます。また、Google Sheetに保存されたデータを使ってモデルを学習する方法も示します。

Granite-4.1 用の Unsloth 設定

古いバージョンの Unsloth を使っている場合やローカルでファインチューニングしている場合は、最新バージョンの Unsloth をインストールしてください:

最新のUnslothとUnsloth Zooを強制的に再インストールするには:

モデル名は任意のGranite-4.1モデルに変更できます:

30Bモデルでは、より大きなGPUまたはマルチGPU構成を使用し、 max_seq_length メモリ不足になった場合は量子化を下げるか上げてください。

最終更新

役に立ちましたか?