IBM Granite 4.0
llama.cpp、Ollama上でUnsloth GGUFを使ってIBM Granite-4.0を実行する方法と、ファインチューニングの方法!
IBM が Granite-4.0 モデルを3サイズでリリース、以下を含む Nano (350M & 1B), Micro (3B), Tiny (7B/1B active) と Small (32B/9B active)。15Tトークンで学習され、IBM の新しい Hybrid (H) Mamba アーキテクチャにより、Granite-4.0 モデルはより少ないメモリ使用量でより高速に動作できます。
学ぶ 実行方法 Unsloth Granite-4.0 Dynamic GGUF を使うか、モデルを fine-tune/RL する方法。 Granite-4.0 を fine-tune する サポートエージェントのユースケース向けに、無料の Colab ノートブックで実行できます。
Unsloth Granite-4.0 のアップロード:
また、こちらもご覧いただけます Granite-4.0 コレクション Dynamic Float8 量子化など、すべてのアップロードを含みます。
Granite-4.0 モデルの説明:
Nano と H-Nano: 350M および 1B モデルは強力な指示追従能力を備えており、高度なオンデバイス/エッジ AI および研究・ファインチューニング用途を可能にします。
H-Small (MoE): 日常業務向けのエンタープライズ向け主力モデル。L40S のようなエントリー GPU 上で、複数の長文脈セッションをサポートします(総計 32B、アクティブ 9B)。
H-Tiny (MoE): 大量・低複雑度タスク向けに高速でコスト効率に優れます。ローカルおよびエッジ利用向けに最適化されています(総計 7B、アクティブ 1B)。
H-Micro (Dense): 大量・低複雑度のワークロード向けに軽量かつ効率的。ローカルおよびエッジ展開に最適です(総計 3B)。
Micro (Dense): Mamba2 が完全にサポートされない場合の代替 Dense オプション(総計 3B)。
Granite-4.0 チュートリアルを実行
⚙️ 推奨推論設定
IBM は以下の設定を推奨しています:
temperature=0.0, top_p=1.0, top_k=0
Temperature 0.0
Top_K = 0
Top_P = 1.0
推奨最小コンテキスト: 16,384
最大コンテキスト長ウィンドウ: 131,072(128K コンテキスト)
チャットテンプレート:
🦙 Ollama: Granite-4.0 実行チュートリアル
インストール
ollamaまだなら!
モデルを実行しましょう! 失敗した場合は別のターミナルで
ollama serveを呼び出せます。修正内容と推奨パラメータ(temperature など)はすべてparamsに含まれています。Hugging Face へのアップロード内です!モデル名 'granite-4.0-h-small-GGUF' は 'granite-4.0-h-micro:Q8_K_XL' のような任意の Granite モデルに変更できます。
📖 llama.cpp: Granite-4.0 実行チュートリアル
最新の
llama.cppを GitHub こちらから入手してください。以下のビルド手順に従うこともできます。-DGGML_CUDA=ONを-DGGML_CUDA=OFFに変更してください。GPU がない場合や CPU 推論だけを使いたい場合です。 Apple Mac / Metal デバイスでは、-DGGML_CUDA=OFFを設定し、そのまま続けてください。Metal サポートはデフォルトで有効です。
を使いたい場合は
llama.cppを使って直接モデルを読み込むこともできます。(:Q4_K_XL) は量子化タイプです。Hugging Face からダウンロードすることもできます(ポイント 3)。これはollama run
または (のインストール後に)経由でモデルをダウンロードしてください
pip install huggingface_hub hf_transfer。Q4_K_M や他の量子化版(BF16 のフル精度など)も選べます。
Unsloth の Flappy Bird テストを実行
編集
--threads 32CPU スレッド数用、--ctx-size 16384はコンテキスト長用(Granite-4.0 は 128K コンテキスト長をサポート!)、--n-gpu-layers 99は何層を GPU にオフロードするかの指定です。GPU のメモリ不足になる場合は調整してください。CPU のみで推論する場合はこれも削除してください。会話モードでは:
🐋 Docker: Granite-4.0 実行チュートリアル
すでに Docker Desktop があるなら、下のコマンドを実行するだけで完了です:
🦥 Unsloth で Granite-4.0 をファインチューニング
Unsloth は現在、nano、micro、tiny、small を含むすべての Granite 4.0 モデルのファインチューニングをサポートしています。学習速度は2倍速く、VRAM 使用量は50%少なく、コンテキスト長は6倍長くサポートします。Granite-4.0 micro と tiny は 15GB VRAM の T4 GPU に余裕で収まります。
Granite-4.0 無料のファインチューニングノートブック
Granite-4.0-350M ファインチューニングノートブック
このノートブックは、顧客とのやり取りを理解し、分析と推奨を含むサポートエージェントになるようモデルを学習します。この設定により、サポートエージェントにリアルタイム支援を提供するボットを学習できます。
Google シートに保存されたデータを使ってモデルを学習する方法も示します。

Granite-4.0 用の Unsloth 設定:
古いバージョンの Unsloth を使っている場合やローカルで fine-tune する場合は、Unsloth の最新バージョンをインストールしてください:
最終更新
役に立ちましたか?

