Unsloth 推論

Unsloth の高速推論でファインチューニングしたモデルを実行する方法を学びます。

Unsloth はネイティブで推論を2x高速化します。推論専用ノートブックについては、をクリックしてください ここarrow-up-right.

すべての QLoRA、LoRA、および非 LoRA の推論経路が2x高速になります。これはコードの変更や新しい依存関係を必要としません。

from unsloth import FastLanguageModel
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "lora_model", # トレーニングに使用したあなたのモデル
    max_seq_length = max_seq_length,
    dtype = dtype,
    load_in_4bit = load_in_4bit,
)
FastLanguageModel.for_inference(model) # ネイティブな2x高速推論を有効化
text_streamer = TextStreamer(tokenizer)
_ = model.generate(**inputs, streamer = text_streamer, max_new_tokens = 64)

NotImplementedError: UTF-8 ロケールが必要です。ANSI が検出されました

セルを実行するときに このエラーがarrow-up-right 発生することがあります。これを解決するには、新しいセルで次を実行してください:

import locale
locale.getpreferredencoding = lambda: "UTF-8"

最終更新

役に立ちましたか?