flask-gearGemma 4 ファインチューニングガイド

Google の Gemma 4 を Unsloth で学習します。

Google の次のモデルをファインチューニングできるようになりました Gemma 4 E2B、E4B、26B-A4B、および 31B を Unslotharrow-up-rightで。サポート内容にはすべての ビジョン、テキスト、音声、および RL ファインチューニングが含まれます。

  • ファインチューニングする Gemma 4 私たちの 無料の Google Colab ノートブック:

  • もしあなたが 推論能力を維持したい 場合は、推論スタイルの例と直接的な回答を混ぜることができます(最低 75% は推論を維持してください)。そうでなければ、完全に出力させることもできます。

  • フルファインチューニング(FFT) も動作します。VRAM を 4 倍多く使用します。

  • Gemma 4 は 140 言語をサポートしているため、多言語ファインチューニングに強力です。

  • ファインチューニング後、次へエクスポートできます GGUF (llama.cpp/Unsloth/Ollama/など向け)

古いバージョンを使っている場合(またはローカルでファインチューニングしている場合)は、まず更新してください:

Unsloth Studio:

コードベースの Unsloth:

pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo

クイックスタート

🦥 Unsloth Studio ガイド

Gemma 4 は次で実行およびファインチューニングできます Unsloth Studio、これはローカル AI 向けの私たちの新しいオープンソース Web UI です。Unsloth Studio を使うと、モデルを次でローカル実行できます MacOS、Windows、Linux、および:

1

Unsloth をインストール

ターミナルで実行してください:

MacOS、Linux、WSL:

curl -fsSL https://unsloth.ai/install.sh | sh

Windows PowerShell:

irm https://unsloth.ai/install.ps1 | iex
circle-check
2

Unsloth を起動

MacOS、Linux、WSL、および Windows:

unsloth studio -H 0.0.0.0 -p 8888

その後、 http://localhost:8888 をブラウザで開いてください。

3

Gemma 4 をトレーニング

初回起動時には、アカウントを保護するためのパスワードを作成し、後で再度サインインする必要があります。その後、モデル、データセット、基本設定を選ぶための簡単なオンボーディングウィザードが表示されます。いつでもスキップできます。

検索バーで Gemma 4 を検索し、希望のモデルとデータセットを選択してください。次に、ハイパーパラメータやコンテキスト長を必要に応じて調整します。

4

トレーニングの進行状況を監視

トレーニング開始をクリックすると、モデルのトレーニング進行状況を監視・確認できるようになります。トレーニング損失は着実に減少していくはずです。 完了すると、モデルは自動的に保存されます。

5

ファインチューニングしたモデルをエクスポート

完了すると、Unsloth Studio ではモデルを GGUF、safetensor などの形式にエクスポートできます。

🦥 Unsloth Core(コードベース)ガイド

以下は最小限の SFT レシピです(「テキストのみ」のファインチューニングで動作します)。あわせて私たちの ビジョンのファインチューニング セクションも参照してください。

circle-info

もし GRPOを行いたい場合、fast vLLM 推論を無効にして代わりに Unsloth 推論を使用すれば、Unsloth で動作します。私たちの Vision RL ノートブック例に従ってください。

circle-info

OOM になる場合:

  • 下げてください per_device_train_batch_size1 および/または次を減らしてください max_seq_length.

  • 次を維持してください use_gradient_checkpointing="unsloth" を有効にしたままにしてください(VRAM 使用量の削減とコンテキスト長の拡張のために設計されています)。

MoE 用ローダーの例(bf16 LoRA):

読み込み後、LoRA アダプタを取り付けて、上記の SFT の例と同様にトレーニングします。

MoE ファインチューニング(26B-A4B)

この 26B-A4B モデルは、Gemma 4 ラインアップにおける速度と品質の中間的な選択肢です。これは MoE モデルであり、トークンごとに一部のパラメータのみが有効になるため、保守的なファインチューニング手法は次のとおりです:

  • 使用する LoRA フルファインチューニングではなく

  • 優先する 16-bit / bf16 LoRA メモリに余裕がある場合

  • まずは短いコンテキストと小さいランクから始める

  • パイプラインが安定してからのみスケールアップする

最高品質が目的で、より多くのメモリがあるなら、代わりに 31B を使用してください。

マルチモーダルのファインチューニング(E2B / E4B)

なぜなら E2BE4B画像音声をサポートしているため、これらがマルチモーダル ファインチューニング向けの主要な Gemma 4 バリアントです。

  • マルチモーダルモデルを次で読み込む FastVisionModel

  • 次を維持する finetune_vision_layers = False 最初は

  • 言語、アテンション、MLP レイヤーのみをファインチューニングする

  • タスクで必要になった場合に後からビジョンまたは音声レイヤーを有効にする

Gemma 4 マルチモーダル LoRA の例:

画像の例の形式

覚えておいてください:Gemma 4 のマルチモーダルプロンプトでは、画像を 前に テキスト指示の

音声の例の形式

音声は E2B / E4B 専用です。クリップは短く、タスクに特化したものにしてください。

ファインチューニング済みモデルの保存 / エクスポート

以下に関する私たちの専用の推論 / デプロイガイドを参照できます Unsloth Studio, llama.cpp, vLLM, llama-server, Ollama または SGLang.

GGUF に保存

Unsloth は GGUF への直接保存をサポートしています:

または GGUF を Hugging Face にプッシュ:

別のランタイムでエクスポートしたモデルの挙動が悪い場合、Unsloth は最も一般的な原因を示しています: 推論時のチャットテンプレート / EOS トークンが間違っている (トレーニング時と同じチャットテンプレートを使う必要があります)。

詳細については、私たちの推論ガイドをお読みください:

Gemma 4 データのベストプラクティス

Gemma 4 には、覚えておくべきフォーマット上の細かな点がいくつかあります。

1. 標準的なチャットロールを使用する

Gemma 4 は標準の次を使用します:

  • system

  • user

  • assistant

これは、SFT データセットを古い Gemma 固有のロール形式ではなく、通常のチャット形式で記述すべきことを意味します。

2. Thinking モードは明示的

Thinking モードを有効にするには、 <|think|>システムプロンプトの先頭.

Thinking 有効:

Thinking 無効:

SFT 中に thinking スタイルの挙動を維持したい場合:

  • フォーマットを一貫させる

  • 次のどちらで学習させたいかを決める 可視の思考ブロック または 最終回答のみ

  • しては いけません 同じデータセット内で複数の互換性のない思考フォーマットを混在させることは

ほとんどの本番アシスタントでは、最も簡単な構成は次でファインチューニングすることです 最終的に見える回答のみ.

3. マルチターンのルール

マルチターン会話では、 最終的に見える回答 のみを会話履歴に保持してください。 いけません 以前の思考ブロックを後続ターンに再入力しないでください。

4. マルチモーダルな内容は先に置くべき

Gemma 4 のマルチモーダルプロンプトでは、次のように配置してください:

  • 画像をテキストの前に

  • 音声をテキストの前に

  • 動画フレームをテキストの前に

これはトレーニングデータにも反映されている必要があります。

最終更新

役に立ちましたか?