IBM Granite 4.0
Unsloth GGUF を使って llama.cpp、Ollama 上で IBM Granite-4.0 を実行する方法とファインチューニング方法。
IBMは3つのサイズを含むGranite-4.0モデルをリリースしました(内容は以下) ナノ (350Mおよび1B)、 マイクロ (3B)、 タイニー (7B/1Bアクティブ)および スモール (32B/9Bアクティブ)。15兆トークンで訓練され、IBMの新しいハイブリッド(H)Mambaアーキテクチャにより、Granite-4.0モデルはより高速に、かつ低メモリで動作します。
学ぶ 実行方法 Unsloth Granite-4.0のダイナミックGGUFを実行する方法やモデルをファインチューニング/強化学習する方法を学べます。あなたは Granite-4.0をファインチューニングできます サポートエージェントのユースケース向けに、無料のColabノートブックを提供しています。
Unsloth Granite-4.0のアップロード:
また以下もご覧いただけます: Granite-4.0コレクション Dynamic Float8量子化などを含むすべてのアップロードについて。
Granite-4.0モデルの説明:
ナノおよびH-Nano: 350Mおよび1Bモデルは強力な指示従属性を提供し、オンデバイスやエッジAI、高度な研究やファインチューニング用途に適しています。
H-Small(MoE): エンタープライズの日常業務向けワークホースで、L40SのようなエントリーGPU上で複数の長文コンテキストセッションをサポートします(合計32B、アクティブ9B)。
H-Tiny(MoE): 高速でコスト効率に優れ、高ボリュームかつ低複雑度のタスクに適しています。ローカルやエッジでの使用に最適化されています(合計7B、アクティブ1B)。
H-Micro(Dense): 軽量で高ボリュームかつ低複雑度のワークロードに効率的で、ローカルやエッジへの展開に理想的です(合計3B)。
Micro(Dense): Mamba2が完全にサポートされていない場合の代替のデンスオプション(合計3B)。
Granite-4.0チュートリアルを実行する
⚙️ 推奨推論設定
IBMは以下の設定を推奨します:
temperature=0.0, top_p=1.0, top_k=0
Temperature(温度)=0.0
Top_K = 0
Top_P = 1.0
推奨最小コンテキスト:16,384
最大コンテキスト長ウィンドウ:131,072(128Kコンテキスト)
チャットテンプレート:
🦙 Ollama:Granite-4.0チュートリアルを実行する
Ollamaで実行する
をインストールしてくださいまだインストールしていない場合は!
curl -fsSL https://ollama.com/install.sh | sh
モデルを実行してください!失敗した場合は別のターミナルでollama serveを呼び出すことができます!私たちはすべての修正と推奨パラメータ(temperatureなど)をにHugging Faceのアップロードで含めています!モデル名「granite-4.0-h-small-GGUF」は'granite-4.0-h-micro:Q8_K_XL'のような任意のGraniteモデルに変更できます。
📖 llama.cpp:Granite-4.0チュートリアルを実行する
最新の
llama.cppを GitHubで入手してください。以下のビルド手順にも従うことができます。を変更してください-DGGML_CUDA=ONに-DGGML_CUDA=OFFGPUを持っていない場合やCPUで推論したい場合は Apple Mac / Metalデバイスの場合、次を設定してください-DGGML_CUDA=OFFその後通常通り続行してください — Metalサポートはデフォルトで有効です。
もし直接
llama.cppを使用したい場合、以下のようにできます:(:Q4_K_XL)は量子化タイプです。Hugging Face(ポイント3)からダウンロードすることもできます。これはollama runに類似しています。ollama run
または モデルをダウンロードする(以下をインストールした後)
モデルをダウンロードするには()。Q4_K_Mや他の量子化バージョン(BF16のフル精度など)を選択できます。
UnslothのFlappy Birdテストを実行する
編集
次の--threads 32はCPUスレッドの数、でコンテキスト長を指定します(Granite-4.0は128Kコンテキスト長をサポートします!)、--n-gpu-layers 99--n-gpu-layers 2会話モードの場合:
🐋 Docker:Granite-4.0チュートリアルを実行する
既にDocker Desktopがある場合は、以下のコマンドを実行するだけで完了します:
🦥 UnslothでのGranite-4.0のファインチューニング
Unslothは現在、nano、micro、tiny、smallを含むすべてのGranite 4.0モデルのファインチューニングをサポートします。トレーニングは2倍高速で、VRAMを50%少なく使用し、コンテキスト長が6倍長くなります。Granite-4.0のmicroとtinyは15GB VRAMのT4 GPUでも快適に収まります。
Granite-4.0 無料ファインチューニングノートブック
Granite-4.0-350M ファインチューニングノートブック
このノートブックは、顧客とのやり取りを理解し、分析と推奨を含むサポートエージェントになるようモデルを訓練します。このセットアップにより、サポートエージェントにリアルタイム支援を提供するボットを訓練できます。
また、Googleスプレッドシートに保存されたデータを使ってモデルを訓練する方法も示します。

Granite-4.0のUnsloth設定:
古いバージョンのUnslothを使用している、またはローカルでファインチューニングする場合は、最新バージョンのUnslothをインストールしてください:
最終更新
役に立ちましたか?

