ファインチューニングにはどのモデルを使うべきか?

Llama、Qwen、Mistral、Phi、それとも?

ファインチューニングを準備する際、最初に直面する決定のひとつは適切なモデルの選択です。ここでは選択を助けるためのステップバイステップガイドを示します:

1

ユースケースに合ったモデルを選ぶ

  • 例:画像ベースのトレーニングには、以下のようなビジョンモデルを選択します Llama 3.2 Vision。コード用データセットの場合は、次のような専門モデルを選んでください Qwen Coder 2.5.

  • ライセンスと要件:異なるモデルは特定のライセンス条件や システム要件がある場合があります。互換性の問題を避けるためにこれらを注意深く確認してください。

2

ストレージ、計算能力、データセットを評価する

  • 当社の VRAM ガイドライン を使用して、検討中のモデルに必要な VRAM を判断してください。

  • あなたのデータセットは使用するモデルの種類とトレーニングにかかる時間を反映します

3

モデルとパラメータを選択する

  • 最高のパフォーマンスと機能のために、最新のモデルを使用することを推奨します。例えば、2025年1月時点での主要な70Bモデルは Llama 3.3.

  • 当社の モデルカタログ を参照して、最新かつ関連するオプションを見つけることで最新情報を得られます。

4

BaseモデルとInstructモデルのどちらを選ぶか

詳細は以下をご覧ください:

InstructモデルかBaseモデルか?

ファインチューニングを準備する際、最初に直面する決定のひとつは、instructモデルを使うかbaseモデルを使うかです。

Instructモデル

Instructモデルは組み込みの指示で事前学習されており、ファインチューニングなしでそのまま使えるようになっています。GGUFなど一般的に入手可能なこれらのモデルは直接の使用に最適化されており、プロンプトに対してそのまま効果的に応答します。InstructモデルはChatMLやShareGPTのような会話型チャットテンプレートで動作します。

Baseモデル

一方でBaseモデルは、指示によるファインチューニングを受けていない元の事前学習版です。これらはファインチューニングによるカスタマイズ向けに設計されており、あなたのニーズに合わせて調整できます。Baseモデルは AlpacaやVicunaのような指示スタイルのテンプレートと互換性がありますが、一般的に会話型チャットテンプレートにはそのままでは対応していません。

Instructを選ぶべきかBaseを選ぶべきか?

選択はしばしばデータの量、品質、タイプに依存します:

  • 1,000行以上のデータ:1,000行以上の大規模データセットがある場合、一般的にはBaseモデルをファインチューニングするのが最適です。

  • 300~1,000行の高品質データ:中規模で高品質なデータセットがある場合、BaseモデルかInstructモデルのどちらをファインチューニングしても有効な選択肢です。

  • 300行未満:データが少ない場合は通常Instructモデルの方が適しています。Instructモデルをファインチューニングすることで特定のニーズに合わせつつ、組み込みの指示機能を維持できます。大幅に機能を変更するつもりがない限り、追加の入力なしで一般的な指示に従えることが保証されます。

  • データセットの適切な大きさについての情報は、 ここを参照してください

Unslothでのモデルのファインチューニング

Hugging Face上のモデル名(例:'unsloth/llama-3.1-8b-unsloth-bnb-4bit')と一致させることで、モデル名を任意のモデルに変更できます。

当社は Instructモデルから始めることを推奨します。Instructモデルは会話型チャットテンプレート(ChatML、ShareGPT等)を用いて直接ファインチューニングでき、 Baseモデル (Alpaca、Vicuna等を使用)と比べて一般的に少ないデータで済みます。ここで instructモデルとbaseモデルの違いについて詳しく学べます.

  • モデル名が unsloth-bnb-4bit で終わるものは Unslothの動的4ビットarrow-up-right 量子化を示します。これらのモデルは標準のBitsAndBytes 4ビットモデルよりやや多くのVRAMを消費しますが、はるかに高い精度を提供します。

  • モデル名が単に bnb-4bitで終わり、「unsloth」が付かない場合、それは標準のBitsAndBytes 4ビット量子化を指します。

  • サフィックスのない モデルは 元の 16ビットまたは8ビット形式です。これらは公式のモデル作成者による元のモデルですが、チャットテンプレートやトークナイザの修正など重要な修正を含めることがあるため、利用可能な場合は当社版の使用を推奨します。

実験が重要

circle-info

可能であれば両方のモデルを試してみることをおすすめします。それぞれをファインチューニングして出力を評価し、目的により合致する方を確認してください。

最終更新

役に立ちましたか?