IBM Granite 4.1 - ローカル実行方法
Unsloth GGUFでIBM Granite-4.1を実行し、ファインチューニングする方法!
IBMが3つのサイズのGranite-4.1モデルをリリース: 3B, 8B および 30B。Granite-4.1は長文コンテキスト対応の高密度モデルファミリーで、指示追従、ツール呼び出し、チャット、RAG、コーディングのユースケース向けに構築されています。これらのモデルはサイズに対して非常に競争力が高く、15Tトークンで学習されています。
Unsloth Granite-4.1 Dynamic GGUFの実行方法、またはモデルのファインチューニング/RLの方法を学びましょう。サポート担当エージェントのユースケース向けに、無料ノートブックでGranite-4.1をファインチューニングできます。
Granite-4.1モデルファミリー:
Granite-4.1-3B Dense: ローカル、エッジ、高負荷タスク向けの軽量かつ効率的なモデルです。高速な分類、抽出、シンプルなRAG、関数呼び出し、小型GPUでのファインチューニングに最適です。
Granite-4.1-8B Dense: ローカルアシスタント、RAG、コーディング、多言語チャット、ツール使用ワークフロー向けのバランスの取れたモデルです。メモリ使用量を実用的に抑えつつ、より高い品質を求める場合の優れたデフォルト選択です。
Granite-4.1-30B Dense: Granite-4.1で最も強力なモデルです。より要求の厳しい企業向けアシスタント、長文コンテキストタスク、複雑なRAG、コーディング、多言語ワークフロー、エージェント的なツール呼び出しのユースケースに最適です。
⚙️ 使用ガイド
決定的で指示に従う応答には、次の設定を使用してください:
temperature=0.0, top_p=1.0, top_k=0
Temperature of
0.0Top_K =
0Top_P =
1.0推奨最小コンテキスト:
16,384最大コンテキスト長ウィンドウ:
131,072トークン
Unsloth Granite-4.1 アップロード
Granite-4.1チュートリアルを実行
Unsloth Studio で実行llama.cpp で実行
使用しないでください CUDA 13.2 、さもないと意味不明な出力になることがあります。NVIDIA が修正に取り組んでいます。
🦥 Unsloth Studio ガイド
このチュートリアルでは、 Unsloth Studioを使用します。これは LLM の実行と学習のための新しい Web UI です。Unsloth Studio を使えば、モデルを実行し、 音声、画像、テキストをローカルで Mac、Windows、Linux 上で入力でき、さらに次のことができます:
検索、ダウンロード、 GGUF を実行 し、safetensor モデルを扱う
モデルを 比較する 横並びで
自己修復 ツール呼び出し + Web 検索
コード実行 (Python、Bash)
自動推論 パラメータ調整(temp、top-p など)
LLM を学習する VRAM を 70% 少なくして 2 倍高速

Granite 4.1を検索してダウンロード
初回起動時には、アカウントを保護するためのパスワードを作成し、後で再度サインインする必要があります。その後、 Studio Chat タブを開き、検索バーで Granite 4.1 を検索して、希望するモデルと量子化版をダウンロードしてください。
Granite 4.1を実行
Unsloth Studio を使用すると推論パラメータは自動設定されるはずですが、手動で変更することもできます。コンテキスト長、チャットテンプレート、その他の設定も編集できます。
詳細は、 Unsloth Studio 推論ガイド.
🦙 Llama.cpp チュートリアル
最新の
llama.cppから取得してください。以下のビルド手順に従うこともできます。-DGGML_CUDA=ONを-DGGML_CUDA=OFFGPU がない場合、または CPU 推論だけを使いたい場合は変更してください。Apple Mac / Metal デバイスでは、-DGGML_CUDA=OFFその後は通常どおり進めてください — Metalサポートはデフォルトで有効です。
もし
llama.cppモデルを直接読み込むには、以下を実行できます。UD-Q4_K_XLは量子化タイプです。次のような他の量子化版にも変更できますQ4_K_M,Q5_K_M,Q8_0または、利用可能であればBF16の完全精度。
または、インストール後にHugging Face経由でモデルをダウンロードします
huggingface_hubおよびhf_transfer.
UnslothのFlappy Birdテストを実行します。
編集 --threads 32 CPU スレッド数を --ctx-size 16384 コンテキスト長に対して、そして --n-gpu-layers 99 GPUオフロードに対して。GPUがメモリ不足になった場合は、GPUレイヤーを調整してみてください。削除してください --n-gpu-layers CPUのみの推論を使用している場合。
会話モードの場合:
UnslothでGranite-4.1をファインチューニング
Unslothは、ファインチューニング用に3B、8B、30Bを含むGranite-4.1モデルをサポートしています。学習は2倍高速で、VRAMの使用量が少なく、より長いコンテキスト長をサポートします。Granite-4.1-3BとGranite-4.1-8Bはローカルでのファインチューニングの出発点として最適で、Granite-4.1-30Bは高精度な企業向けワークフローに最も強力なモデルです。
Granite-4.0 無料ファインチューニングノートブック (モデル名を Granite-4.1 に変更)
このノートブックでは、顧客とのやり取りを理解し、分析と推奨を含むサポートエージェントになるモデルを学習します。この設定により、サポート担当者にリアルタイムで支援を提供するボットを学習できます。また、Google Sheetに保存されたデータを使ってモデルを学習する方法も示します。
Granite-4.1 用の Unsloth 設定
古いバージョンの Unsloth を使っている場合やローカルでファインチューニングしている場合は、最新バージョンの Unsloth をインストールしてください:
最新のUnslothとUnsloth Zooを強制的に再インストールするには:
モデル名は任意のGranite-4.1モデルに変更できます:
30Bモデルでは、より大きなGPUまたはマルチGPU構成を使用し、 max_seq_length メモリ不足になった場合は量子化を下げるか上げてください。
最終更新
役に立ちましたか?


