IBM Granite 4.0
Unsloth GGUF を使って llama.cpp、Ollama で IBM Granite-4.0 を実行する方法とファインチューニング方法!
IBMは3つのサイズを含むGranite-4.0モデルをリリースしました(内訳: ナノ (350Mおよび1B)、 マイクロ (3B)、 タイニー (7B/1Bアクティブ)および スモール (32B/9Bアクティブ)。15兆トークンで訓練されたIBMの新しいハイブリッド(H)Mambaアーキテクチャにより、Granite-4.0モデルはメモリ使用量を抑えつつ高速に動作します。
学ぶ の実行方法 Unsloth Granite-4.0のダイナミックGGUFの実行やモデルの微調整/強化学習(RL)について学べます。あなたは Granite-4.0を微調整できます サポートエージェントのユースケース向けに用意された無料のColabノートブックで。
Unsloth Granite-4.0のアップロード:
また、次もご覧いただけます: Granite-4.0コレクション ダイナミックFloat8量子化などを含むすべてのアップロードについて。
Granite-4.0モデルの説明:
ナノおよびH-ナノ: 350Mおよび1Bモデルは強力な指示追従能力を持ち、デバイス上やエッジでの高度なAIや研究/微調整アプリケーションを可能にします。
H-スモール(MoE): 日常業務向けのエンタープライズ向けワークホースで、L40SなどのエントリGPU上で複数の長いコンテキストセッションをサポートします(合計32B、アクティブ9B)。
H-タイニー(MoE): 高速でコスト効率が高く、高ボリュームかつ低複雑度のタスクに適しており、ローカルやエッジでの使用に最適化されています(合計7B、アクティブ1B)。
H-マイクロ(Dense): 軽量で高ボリュームかつ低複雑度のワークロードに効率的;ローカルやエッジへの展開に理想的です(合計3B)。
マイクロ(Dense): Mamba2が完全にサポートされない場合の代替のデンスオプション(合計3B)。
Granite-4.0チュートリアルを実行する
⚙️ 推奨推論設定
IBMはこれらの設定を推奨します:
temperature=0.0, top_p=1.0, top_k=0
温度 0.0
Top_K = 0
Top_P = 1.0
推奨最小コンテキスト:16,384
最大コンテキスト長ウィンドウ:131,072(128K コンテキスト)
チャットテンプレート:
🦙 Ollama:Granite-4.0 チュートリアルを実行
インストールしてください
ollamaまだの場合はぜひ!
モデルを実行してください!失敗した場合は別の端末で
ollama serveを呼び出せます!私たちのすべての修正と推奨パラメータ(temperatureなど)はparams私たちの Hugging Face アップロードで!モデル名「granite-4.0-h-small-GGUF」を 'granite-4.0-h-micro:Q8_K_XL' のような任意の Granite モデルに変更できます。
📖 llama.cpp:Granite-4.0 チュートリアルを実行
最新の
llama.cppを GitHub で入手できます。下のビルド手順に従うこともできます。変更してください-DGGML_CUDA=ONから-DGGML_CUDA=OFFGPU がない場合や CPU 推論のみを行いたい場合は。
直接モデルを読み込むために
llama.cppモデルを直接読み込むには、以下を実行できます:(:Q4_K_XL)は量子化タイプです。Hugging Face(ポイント3)経由でダウンロードすることもできます。これは次に似ていますollama run
または (をインストールした後)経由でモデルをダウンロードします。
pip install huggingface_hub hf_transferQ4_K_M や他の量子化バージョン(BF16 フル精度のような)を選択できます。
Unsloth の Flappy Bird テストを実行
編集
--threads 32でCPUスレッド数を編集できます、--ctx-size 16384コンテキスト長のため(Granite-4.0 は 128K コンテキスト長をサポートします!)、--n-gpu-layers 99で何層をGPUにオフロードするかを指定します。GPUがメモリ不足になる場合は調整してみてください。CPUのみの推論の場合はこれを削除してください。会話モードの場合:
🐋 Docker:Granite-4.0 チュートリアルを実行
すでに Docker Desktop をお持ちの場合は、以下のコマンドを実行するだけで完了です:
🦥 Unsloth での Granite-4.0 のファインチューニング
Unsloth は現在、nano、micro、tiny、small を含むすべての Granite 4.0 モデルのファインチューニングをサポートしています。トレーニングは2倍高速で、VRAM を50%少なく使用し、コンテキスト長を6倍長くサポートします。Granite-4.0 の micro と tiny は 15GB VRAM の T4 GPU に余裕を持って収まります。
Granite-4.0 無料のファインチューニングノートブック
Granite-4.0-350M ファインチューニングノートブック
このノートブックは、顧客対応を理解し、分析と推奨を備えたサポートエージェントになるようモデルを訓練します。このセットアップにより、サポート担当者にリアルタイムで支援を提供するボットを訓練できます。
Google シートに保存されたデータを使用してモデルを訓練する方法も示します。

Granite-4.0 の Unsloth 設定:
Unsloth の古いバージョンを使用している、またはローカルでファインチューニングしている場合は、最新バージョンの Unsloth をインストールしてください:
最終更新
役に立ちましたか?

