cubeIBM Granite 4.0

Unsloth GGUF を使って llama.cpp、Ollama 上で IBM Granite-4.0 を実行する方法とファインチューニング方法。

IBMは3つのサイズを含むGranite-4.0モデルをリリースしました(内容は以下) ナノ (350Mおよび1B)、 マイクロ (3B)、 タイニー (7B/1Bアクティブ)および スモール (32B/9Bアクティブ)。15兆トークンで訓練され、IBMの新しいハイブリッド(H)Mambaアーキテクチャにより、Granite-4.0モデルはより高速に、かつ低メモリで動作します。

学ぶ 実行方法 Unsloth Granite-4.0のダイナミックGGUFを実行する方法やモデルをファインチューニング/強化学習する方法を学べます。あなたは Granite-4.0をファインチューニングできます サポートエージェントのユースケース向けに、無料のColabノートブックを提供しています。

実行チュートリアルファインチューニングチュートリアル

Unsloth Granite-4.0のアップロード:

また以下もご覧いただけます: Granite-4.0コレクションarrow-up-right Dynamic Float8量子化などを含むすべてのアップロードについて。

Granite-4.0モデルの説明:

  • ナノおよびH-Nano: 350Mおよび1Bモデルは強力な指示従属性を提供し、オンデバイスやエッジAI、高度な研究やファインチューニング用途に適しています。

  • H-Small(MoE): エンタープライズの日常業務向けワークホースで、L40SのようなエントリーGPU上で複数の長文コンテキストセッションをサポートします(合計32B、アクティブ9B)。

  • H-Tiny(MoE): 高速でコスト効率に優れ、高ボリュームかつ低複雑度のタスクに適しています。ローカルやエッジでの使用に最適化されています(合計7B、アクティブ1B)。

  • H-Micro(Dense): 軽量で高ボリュームかつ低複雑度のワークロードに効率的で、ローカルやエッジへの展開に理想的です(合計3B)。

  • Micro(Dense): Mamba2が完全にサポートされていない場合の代替のデンスオプション(合計3B)。

Granite-4.0チュートリアルを実行する

⚙️ 推奨推論設定

IBMは以下の設定を推奨します:

temperature=0.0, top_p=1.0, top_k=0

  • Temperature(温度)=0.0

  • Top_K = 0

  • Top_P = 1.0

  • 推奨最小コンテキスト:16,384

  • 最大コンテキスト長ウィンドウ:131,072(128Kコンテキスト)

チャットテンプレート:

🦙 Ollama:Granite-4.0チュートリアルを実行する

  1. Ollamaで実行する をインストールしてください まだインストールしていない場合は!

  1. curl -fsSL https://ollama.com/install.sh | sh モデルを実行してください!失敗した場合は別のターミナルでollama serve を呼び出すことができます!私たちはすべての修正と推奨パラメータ(temperatureなど)を にHugging Faceのアップロードで含めています!モデル名「granite-4.0-h-small-GGUF」は'granite-4.0-h-micro:Q8_K_XL'のような任意のGraniteモデルに変更できます。

📖 llama.cpp:Granite-4.0チュートリアルを実行する

  1. 最新の llama.cppGitHubで入手してくださいarrow-up-right。以下のビルド手順にも従うことができます。を変更してください -DGGML_CUDA=ON-DGGML_CUDA=OFF GPUを持っていない場合やCPUで推論したい場合は Apple Mac / Metalデバイスの場合、次を設定してください -DGGML_CUDA=OFF その後通常通り続行してください — Metalサポートはデフォルトで有効です。

  1. もし直接 llama.cpp を使用したい場合、以下のようにできます:(:Q4_K_XL)は量子化タイプです。Hugging Face(ポイント3)からダウンロードすることもできます。これはollama runに類似しています。 ollama run

  1. または モデルをダウンロードする(以下をインストールした後) モデルをダウンロードするには( )。Q4_K_Mや他の量子化バージョン(BF16のフル精度など)を選択できます。

  1. UnslothのFlappy Birdテストを実行する

  2. 編集 次の --threads 32 はCPUスレッドの数、 でコンテキスト長を指定します(Granite-4.0は128Kコンテキスト長をサポートします!)、 --n-gpu-layers 99 --n-gpu-layers 2

  3. 会話モードの場合:

🐋 Docker:Granite-4.0チュートリアルを実行する

既にDocker Desktopがある場合は、以下のコマンドを実行するだけで完了します:

🦥 UnslothでのGranite-4.0のファインチューニング

Unslothは現在、nano、micro、tiny、smallを含むすべてのGranite 4.0モデルのファインチューニングをサポートします。トレーニングは2倍高速で、VRAMを50%少なく使用し、コンテキスト長が6倍長くなります。Granite-4.0のmicroとtinyは15GB VRAMのT4 GPUでも快適に収まります。

このノートブックは、顧客とのやり取りを理解し、分析と推奨を含むサポートエージェントになるようモデルを訓練します。このセットアップにより、サポートエージェントにリアルタイム支援を提供するボットを訓練できます。

また、Googleスプレッドシートに保存されたデータを使ってモデルを訓練する方法も示します。

Granite-4.0のUnsloth設定:

古いバージョンのUnslothを使用している、またはローカルでファインチューニングする場合は、最新バージョンのUnslothをインストールしてください:

最終更新

役に立ちましたか?