For the complete documentation index, see llms.txt. This page is also available as Markdown.

IBM Granite 4.0

llama.cpp、Ollama上でUnsloth GGUFを使ってIBM Granite-4.0を実行する方法と、ファインチューニングの方法!

IBM が Granite-4.0 モデルを3サイズでリリース、以下を含む Nano (350M & 1B), Micro (3B), Tiny (7B/1B active) と Small (32B/9B active)。15Tトークンで学習され、IBM の新しい Hybrid (H) Mamba アーキテクチャにより、Granite-4.0 モデルはより少ないメモリ使用量でより高速に動作できます。

学ぶ 実行方法 Unsloth Granite-4.0 Dynamic GGUF を使うか、モデルを fine-tune/RL する方法。 Granite-4.0 を fine-tune する サポートエージェントのユースケース向けに、無料の Colab ノートブックで実行できます。

実行チュートリアルファインチューニングチュートリアル

Unsloth Granite-4.0 のアップロード:

Dynamic GGUFs
Dynamic 4-bit + FP8
16-bit Instruct

また、こちらもご覧いただけます Granite-4.0 コレクション Dynamic Float8 量子化など、すべてのアップロードを含みます。

Granite-4.0 モデルの説明:

  • Nano と H-Nano: 350M および 1B モデルは強力な指示追従能力を備えており、高度なオンデバイス/エッジ AI および研究・ファインチューニング用途を可能にします。

  • H-Small (MoE): 日常業務向けのエンタープライズ向け主力モデル。L40S のようなエントリー GPU 上で、複数の長文脈セッションをサポートします(総計 32B、アクティブ 9B)。

  • H-Tiny (MoE): 大量・低複雑度タスク向けに高速でコスト効率に優れます。ローカルおよびエッジ利用向けに最適化されています(総計 7B、アクティブ 1B)。

  • H-Micro (Dense): 大量・低複雑度のワークロード向けに軽量かつ効率的。ローカルおよびエッジ展開に最適です(総計 3B)。

  • Micro (Dense): Mamba2 が完全にサポートされない場合の代替 Dense オプション(総計 3B)。

Granite-4.0 チュートリアルを実行

⚙️ 推奨推論設定

IBM は以下の設定を推奨しています:

temperature=0.0, top_p=1.0, top_k=0

  • Temperature 0.0

  • Top_K = 0

  • Top_P = 1.0

  • 推奨最小コンテキスト: 16,384

  • 最大コンテキスト長ウィンドウ: 131,072(128K コンテキスト)

チャットテンプレート:

🦙 Ollama: Granite-4.0 実行チュートリアル

  1. インストール ollama まだなら!

  1. モデルを実行しましょう! 失敗した場合は別のターミナルで ollama serveを呼び出せます。修正内容と推奨パラメータ(temperature など)はすべて params に含まれています。Hugging Face へのアップロード内です!モデル名 'granite-4.0-h-small-GGUF' は 'granite-4.0-h-micro:Q8_K_XL' のような任意の Granite モデルに変更できます。

📖 llama.cpp: Granite-4.0 実行チュートリアル

  1. 最新の llama.cppGitHub こちらから入手してください。以下のビルド手順に従うこともできます。 -DGGML_CUDA=ON-DGGML_CUDA=OFF に変更してください。GPU がない場合や CPU 推論だけを使いたい場合です。 Apple Mac / Metal デバイスでは-DGGML_CUDA=OFF を設定し、そのまま続けてください。Metal サポートはデフォルトで有効です。

  1. を使いたい場合は llama.cpp を使って直接モデルを読み込むこともできます。(:Q4_K_XL) は量子化タイプです。Hugging Face からダウンロードすることもできます(ポイント 3)。これは ollama run

  1. または (のインストール後に)経由でモデルをダウンロードしてください pip install huggingface_hub hf_transfer 。Q4_K_M や他の量子化版(BF16 のフル精度など)も選べます。

  1. Unsloth の Flappy Bird テストを実行

  2. 編集 --threads 32 CPU スレッド数用、 --ctx-size 16384 はコンテキスト長用(Granite-4.0 は 128K コンテキスト長をサポート!)、 --n-gpu-layers 99 は何層を GPU にオフロードするかの指定です。GPU のメモリ不足になる場合は調整してください。CPU のみで推論する場合はこれも削除してください。

  3. 会話モードでは:

🐋 Docker: Granite-4.0 実行チュートリアル

すでに Docker Desktop があるなら、下のコマンドを実行するだけで完了です:

🦥 Unsloth で Granite-4.0 をファインチューニング

Unsloth は現在、nano、micro、tiny、small を含むすべての Granite 4.0 モデルのファインチューニングをサポートしています。学習速度は2倍速く、VRAM 使用量は50%少なく、コンテキスト長は6倍長くサポートします。Granite-4.0 micro と tiny は 15GB VRAM の T4 GPU に余裕で収まります。

このノートブックは、顧客とのやり取りを理解し、分析と推奨を含むサポートエージェントになるようモデルを学習します。この設定により、サポートエージェントにリアルタイム支援を提供するボットを学習できます。

Google シートに保存されたデータを使ってモデルを学習する方法も示します。

Granite-4.0 用の Unsloth 設定:

古いバージョンの Unsloth を使っている場合やローカルで fine-tune する場合は、Unsloth の最新バージョンをインストールしてください:

最終更新

役に立ちましたか?