♻️継続的事前学習

継続的ファインチューニングとも呼ばれます。Unsloth は継続的に事前学習を行い、モデルに新しい言語を学習させることを可能にします。

そのテキスト補完ノートブックは継続的事前学習/生テキスト向けです。
その継続的事前学習ノートブックは別の言語を学習するためのものです。

継続的事前学習と私たちのリリースの詳細は、私たちのブログ記事.

継続的事前学習とは？

継続的または連続的事前学習（CPT）は、言語モデルを新しい知識領域や分布外の領域を理解するよう“誘導”するために必要です。Llama-3 8b や Mistral 7b のようなベースモデルは、最初に何兆ものトークン（たとえば Llama-3 は 15 兆）という巨大なデータセットで事前学習されています。

しかし、これらのモデルは他の言語や法務、医療などの特定ドメインのテキストで十分に学習されていないことがあります。したがって、言語モデルに新しいトークンやデータセットを学習させるために継続的事前学習（CPT）が必要です。

高度な機能：

継続的微調整のための LoRA アダプターの読み込み

Unsloth を通じて LoRA アダプターを保存している場合、その LoRA 重みを使ってトレーニングを継続することもできます。オプティマイザの状態はリセットされます。オプティマイザの状態も読み込んで微調整を続ける方法は、次のセクションを参照してください。

from unsloth import FastLanguageModel
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "LORA_MODEL_NAME",
    max_seq_length = max_seq_length,
    dtype = dtype,
    load_in_4bit = load_in_4bit,
)
trainer = Trainer(...)
trainer.train()

継続的事前学習と微調整では `lm_head` と `embed_tokens` 行列

追加する lm_head と embed_tokens。Colab の場合、Llama-3 8b ではメモリ不足になることがあります。その場合は、単に lm_head.

model = FastLanguageModel.get_peft_model(
    model,
    r = 16,
    target_modules = ["q_proj", "k_proj", "v_proj", "o_proj",
                      "gate_proj", "up_proj", "down_proj",
                      "lm_head", "embed_tokens",],
    lora_alpha = 16,
)

次に 2 つの異なる学習率を使用します — lm_head または embed_tokens 次のように：

from unsloth import UnslothTrainer, UnslothTrainingArguments

trainer = UnslothTrainer(
    ....
    args = UnslothTrainingArguments(
        ....
        learning_rate = 5e-5,
        embedding_learning_rate = 5e-6, # learning_rate より 2〜10 倍小さい
    ),
)

前へUnsloth 環境フラグ次へLast Checkpoint

最終更新 3 か月前

役に立ちましたか？

hashtag継続的事前学習とは？

hashtag高度な機能：

hashtag継続的微調整のための LoRA アダプターの読み込み

hashtag継続的事前学習と微調整では lm_head と embed_tokens 行列

継続的事前学習とは？

高度な機能：

継続的微調整のための LoRA アダプターの読み込み

継続的事前学習と微調整では `lm_head` と `embed_tokens` 行列