cubeIBM Granite 4.0

Unsloth GGUF を使って llama.cpp、Ollama で IBM Granite-4.0 を実行する方法とファインチューニング方法!

IBMは3つのサイズを含むGranite-4.0モデルをリリースしました(内訳: ナノ (350Mおよび1B)、 マイクロ (3B)、 タイニー (7B/1Bアクティブ)および スモール (32B/9Bアクティブ)。15兆トークンで訓練されたIBMの新しいハイブリッド(H)Mambaアーキテクチャにより、Granite-4.0モデルはメモリ使用量を抑えつつ高速に動作します。

学ぶ の実行方法 Unsloth Granite-4.0のダイナミックGGUFの実行やモデルの微調整/強化学習(RL)について学べます。あなたは Granite-4.0を微調整できます サポートエージェントのユースケース向けに用意された無料のColabノートブックで。

実行チュートリアル微調整チュートリアル

Unsloth Granite-4.0のアップロード:

また、次もご覧いただけます: Granite-4.0コレクションarrow-up-right ダイナミックFloat8量子化などを含むすべてのアップロードについて。

Granite-4.0モデルの説明:

  • ナノおよびH-ナノ: 350Mおよび1Bモデルは強力な指示追従能力を持ち、デバイス上やエッジでの高度なAIや研究/微調整アプリケーションを可能にします。

  • H-スモール(MoE): 日常業務向けのエンタープライズ向けワークホースで、L40SなどのエントリGPU上で複数の長いコンテキストセッションをサポートします(合計32B、アクティブ9B)。

  • H-タイニー(MoE): 高速でコスト効率が高く、高ボリュームかつ低複雑度のタスクに適しており、ローカルやエッジでの使用に最適化されています(合計7B、アクティブ1B)。

  • H-マイクロ(Dense): 軽量で高ボリュームかつ低複雑度のワークロードに効率的;ローカルやエッジへの展開に理想的です(合計3B)。

  • マイクロ(Dense): Mamba2が完全にサポートされない場合の代替のデンスオプション(合計3B)。

Granite-4.0チュートリアルを実行する

⚙️ 推奨推論設定

IBMはこれらの設定を推奨します:

temperature=0.0, top_p=1.0, top_k=0

  • 温度 0.0

  • Top_K = 0

  • Top_P = 1.0

  • 推奨最小コンテキスト:16,384

  • 最大コンテキスト長ウィンドウ:131,072(128K コンテキスト)

チャットテンプレート:

🦙 Ollama:Granite-4.0 チュートリアルを実行

  1. インストールしてください ollama まだの場合はぜひ!

  1. モデルを実行してください!失敗した場合は別の端末で ollama serveを呼び出せます!私たちのすべての修正と推奨パラメータ(temperatureなど)は params 私たちの Hugging Face アップロードで!モデル名「granite-4.0-h-small-GGUF」を 'granite-4.0-h-micro:Q8_K_XL' のような任意の Granite モデルに変更できます。

📖 llama.cpp:Granite-4.0 チュートリアルを実行

  1. 最新の llama.cppGitHub で入手arrow-up-rightできます。下のビルド手順に従うこともできます。変更してください -DGGML_CUDA=ON から -DGGML_CUDA=OFF GPU がない場合や CPU 推論のみを行いたい場合は。

  1. 直接モデルを読み込むために llama.cpp モデルを直接読み込むには、以下を実行できます:(:Q4_K_XL)は量子化タイプです。Hugging Face(ポイント3)経由でダウンロードすることもできます。これは次に似ています ollama run

  1. または (をインストールした後)経由でモデルをダウンロードします。 pip install huggingface_hub hf_transfer Q4_K_M や他の量子化バージョン(BF16 フル精度のような)を選択できます。

  1. Unsloth の Flappy Bird テストを実行

  2. 編集 --threads 32 でCPUスレッド数を編集できます、 --ctx-size 16384 コンテキスト長のため(Granite-4.0 は 128K コンテキスト長をサポートします!)、 --n-gpu-layers 99 で何層をGPUにオフロードするかを指定します。GPUがメモリ不足になる場合は調整してみてください。CPUのみの推論の場合はこれを削除してください。

  3. 会話モードの場合:

🐋 Docker:Granite-4.0 チュートリアルを実行

すでに Docker Desktop をお持ちの場合は、以下のコマンドを実行するだけで完了です:

🦥 Unsloth での Granite-4.0 のファインチューニング

Unsloth は現在、nano、micro、tiny、small を含むすべての Granite 4.0 モデルのファインチューニングをサポートしています。トレーニングは2倍高速で、VRAM を50%少なく使用し、コンテキスト長を6倍長くサポートします。Granite-4.0 の micro と tiny は 15GB VRAM の T4 GPU に余裕を持って収まります。

このノートブックは、顧客対応を理解し、分析と推奨を備えたサポートエージェントになるようモデルを訓練します。このセットアップにより、サポート担当者にリアルタイムで支援を提供するボットを訓練できます。

Google シートに保存されたデータを使用してモデルを訓練する方法も示します。

Granite-4.0 の Unsloth 設定:

Unsloth の古いバージョンを使用している、またはローカルでファインチューニングしている場合は、最新バージョンの Unsloth をインストールしてください:

最終更新

役に立ちましたか?