Unsloth-Inferenz

Lerne, wie du dein feinabgestimmtes Modell mit Unsloths schnellerer Inferenz ausführst.

Unsloth unterstützt nativ eine 2x schnellere Inferenz. Für unser reines Inferenz-Notebook klicken Sie hier.

Alle QLoRA-, LoRA- und Nicht-LoRA-Inferenzpfade sind 2x schneller. Dies erfordert keine Codeänderung oder neue Abhängigkeiten.

from unsloth import FastLanguageModel
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "lora_model", # IHR MODELL, DAS SIE FÜR DAS TRAINING VERWENDET HABEN
    max_seq_length = max_seq_length,
    dtype = dtype,
    load_in_4bit = load_in_4bit,
)
FastLanguageModel.for_inference(model) # Aktiviert native 2x schnellere Inferenz
text_streamer = TextStreamer(tokenizer)
_ = model.generate(**inputs, streamer = text_streamer, max_new_tokens = 64)

NotImplementedError: Es wird eine UTF-8-Locale benötigt. ANSI erhalten

Manchmal, wenn Sie eine Zelle ausführen tritt dieser Fehler auf. Um dies zu lösen, führen Sie in einer neuen Zelle Folgendes aus:

import locale
locale.getpreferredencoding = lambda: "UTF-8"

VorherigeSGLang Nächstellama-server & OpenAI endpoint

Zuletzt aktualisiert vor 1 Monat

War das hilfreich?

hashtagNotImplementedError: Es wird eine UTF-8-Locale benötigt. ANSI erhalten

NotImplementedError: Es wird eine UTF-8-Locale benötigt. ANSI erhalten