IBM Granite 4.0

Unsloth GGUF を使って llama.cpp、Ollama で IBM Granite-4.0 を実行する方法とファインチューニング方法！

IBMは3つのサイズを含むGranite-4.0モデルをリリースしました（内訳：ナノ（350Mおよび1B）、 マイクロ （3B）、 タイニー （7B／1Bアクティブ）および スモール （32B／9Bアクティブ）。15兆トークンで訓練されたIBMの新しいハイブリッド（H）Mambaアーキテクチャにより、Granite-4.0モデルはメモリ使用量を抑えつつ高速に動作します。

学ぶの実行方法 Unsloth Granite-4.0のダイナミックGGUFの実行やモデルの微調整／強化学習（RL）について学べます。あなたは Granite-4.0を微調整できますサポートエージェントのユースケース向けに用意された無料のColabノートブックで。

実行チュートリアル微調整チュートリアル

Unsloth Granite-4.0のアップロード：

ダイナミックGGUF

ダイナミック4ビット＋FP8

16ビット指示（Instruct）

ダイナミック4ビット指示：

FP8ダイナミック：

また、次もご覧いただけます： Granite-4.0コレクションダイナミックFloat8量子化などを含むすべてのアップロードについて。

Granite-4.0モデルの説明：

ナノおよびH-ナノ： 350Mおよび1Bモデルは強力な指示追従能力を持ち、デバイス上やエッジでの高度なAIや研究／微調整アプリケーションを可能にします。
H-スモール（MoE）： 日常業務向けのエンタープライズ向けワークホースで、L40SなどのエントリGPU上で複数の長いコンテキストセッションをサポートします（合計32B、アクティブ9B）。
H-タイニー（MoE）： 高速でコスト効率が高く、高ボリュームかつ低複雑度のタスクに適しており、ローカルやエッジでの使用に最適化されています（合計7B、アクティブ1B）。
H-マイクロ（Dense）： 軽量で高ボリュームかつ低複雑度のワークロードに効率的；ローカルやエッジへの展開に理想的です（合計3B）。
マイクロ（Dense）： Mamba2が完全にサポートされない場合の代替のデンスオプション（合計3B）。

Granite-4.0チュートリアルを実行する

⚙️ 推奨推論設定

IBMはこれらの設定を推奨します：

temperature=0.0, top_p=1.0, top_k=0

温度 0.0
Top_K = 0
Top_P = 1.0
推奨最小コンテキスト：16,384
最大コンテキスト長ウィンドウ：131,072（128K コンテキスト）

チャットテンプレート：

<|start_of_role|>system<|end_of_role|>あなたは役に立つアシスタントです。応答はプロフェッショナルで正確かつ安全であることを確認してください。<|end_of_text|>
<|start_of_role|>user<|end_of_role|>アメリカ合衆国にある IBM Research の研究所を一つ挙げてください。名前と所在地のみを出力してください。<|end_of_text|>
<|start_of_role|>assistant<|end_of_role|>Almaden Research Center、カリフォルニア州サンノゼ<|end_of_text|>

🦙 Ollama：Granite-4.0 チュートリアルを実行

インストールしてください ollama まだの場合はぜひ！

apt-get update
apt-get install pciutils -y
curl -fsSL https://ollama.com/install.sh | sh

モデルを実行してください！失敗した場合は別の端末で ollama serveを呼び出せます！私たちのすべての修正と推奨パラメータ（temperatureなど）は params 私たちの Hugging Face アップロードで！モデル名「granite-4.0-h-small-GGUF」を 'granite-4.0-h-micro:Q8_K_XL' のような任意の Granite モデルに変更できます。

ollama run hf.co/unsloth/granite-4.0-h-small-GGUF:UD-Q4_K_XL

📖 llama.cpp：Granite-4.0 チュートリアルを実行

最新の llama.cpp を GitHub で入手できます。下のビルド手順に従うこともできます。変更してください -DGGML_CUDA=ON から -DGGML_CUDA=OFF GPU がない場合や CPU 推論のみを行いたい場合は。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

直接モデルを読み込むために llama.cpp モデルを直接読み込むには、以下を実行できます：（:Q4_K_XL）は量子化タイプです。Hugging Face（ポイント3）経由でダウンロードすることもできます。これは次に似ています ollama run

./llama.cpp/llama-cli \
    -hf unsloth/granite-4.0-h-small-GGUF:UD-Q4_K_XL

または （をインストールした後）経由でモデルをダウンロードします。 pip install huggingface_hub hf_transfer Q4_K_M や他の量子化バージョン（BF16 フル精度のような）を選択できます。

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/granite-4.0-h-small-GGUF",
    local_dir = "unsloth/granite-4.0-h-small-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"], # Q4_K_M 用
)

Unsloth の Flappy Bird テストを実行
編集 --threads 32 でCPUスレッド数を編集できます、 --ctx-size 16384 コンテキスト長のため（Granite-4.0 は 128K コンテキスト長をサポートします！）、 --n-gpu-layers 99 で何層をGPUにオフロードするかを指定します。GPUがメモリ不足になる場合は調整してみてください。CPUのみの推論の場合はこれを削除してください。
会話モードの場合：

./llama.cpp/llama-mtmd-cli \
    --model unsloth/granite-4.0-h-small-GGUF/granite-4.0-h-small-UD-Q4_K_XL.gguf \
    --jinja \
    --ctx-size 16384 \
    --n-gpu-layers 99 \
    --seed 3407 \
    --prio 2 \
    --temp 0.0 \
    --top-k 0 \
    --top-p 1.0

🐋 Docker：Granite-4.0 チュートリアルを実行

すでに Docker Desktop をお持ちの場合は、以下のコマンドを実行するだけで完了です：

docker model pull hf.co/unsloth/granite-4.0-h-small-GGUF:UD-Q4_K_XL

🦥 Unsloth での Granite-4.0 のファインチューニング

Unsloth は現在、nano、micro、tiny、small を含むすべての Granite 4.0 モデルのファインチューニングをサポートしています。トレーニングは2倍高速で、VRAM を50%少なく使用し、コンテキスト長を6倍長くサポートします。Granite-4.0 の micro と tiny は 15GB VRAM の T4 GPU に余裕を持って収まります。

Granite-4.0 無料のファインチューニングノートブック
Granite-4.0-350M ファインチューニングノートブック

このノートブックは、顧客対応を理解し、分析と推奨を備えたサポートエージェントになるようモデルを訓練します。このセットアップにより、サポート担当者にリアルタイムで支援を提供するボットを訓練できます。

Google シートに保存されたデータを使用してモデルを訓練する方法も示します。

Granite-4.0 の Unsloth 設定：

!pip install --upgrade unsloth
from unsloth import FastLanguageModel
import torch
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "unsloth/granite-4.0-h-micro",
    max_seq_length = 2048,   # コンテキスト長 - より長くすることもできますが、より多くのメモリを使用します
    load_in_4bit = True,     # 4ビットはメモリを大幅に節約します
    load_in_8bit = False,    # 少し精度が高く、メモリを2倍使用します
    full_finetuning = False, # 現在フルファインチューニングがあります！
    # token = "hf_...",      # ゲート付きモデルを使用する場合はこれを使用します
)

Unsloth の古いバージョンを使用している、またはローカルでファインチューニングしている場合は、最新バージョンの Unsloth をインストールしてください:

pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo

前へMagistral 次へLlama 4

最終更新 21 日前

役に立ちましたか？

hashtagGranite-4.0チュートリアルを実行する

hashtag⚙️ 推奨推論設定

hashtag🦙 Ollama：Granite-4.0 チュートリアルを実行

hashtag📖 llama.cpp：Granite-4.0 チュートリアルを実行

hashtag🐋 Docker：Granite-4.0 チュートリアルを実行

hashtag🦥 Unsloth での Granite-4.0 のファインチューニング