Unsloth Inferenz

Lerne, wie du dein finetuntes Modell mit Unsloths schnellerer Inferenz ausführst.

Unsloth unterstützt nativ eine 2x schnellere Inferenz. Für unser reines Inferenz-Notebook klicken Sie hierarrow-up-right.

Alle QLoRA-, LoRA- und Nicht-LoRA-Inferenzpfade sind 2x schneller. Dies erfordert keine Codeänderung oder neue Abhängigkeiten.

from unsloth import FastLanguageModel
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "lora_model", # IHR MODELL, DAS SIE FÜR DAS TRAINING VERWENDET HABEN
    max_seq_length = max_seq_length,
    dtype = dtype,
    load_in_4bit = load_in_4bit,
)
FastLanguageModel.for_inference(model) # Aktiviert native 2x schnellere Inferenz
text_streamer = TextStreamer(tokenizer)
_ = model.generate(**inputs, streamer = text_streamer, max_new_tokens = 64)

NotImplementedError: Es wird eine UTF-8-Locale benötigt. ANSI erhalten

Manchmal, wenn Sie eine Zelle ausführen tritt dieser Fehlerarrow-up-right auf. Um dies zu lösen, führen Sie in einer neuen Zelle Folgendes aus:

import locale
locale.getpreferredencoding = lambda: "UTF-8"

Zuletzt aktualisiert

War das hilfreich?