Inférence Unsloth

Apprenez comment exécuter votre modèle affiné avec l'inférence plus rapide d'Unsloth.

Unsloth prend en charge nativement une inférence 2x plus rapide. Pour notre notebook dédié à l'inférence uniquement, cliquez iciarrow-up-right.

Tous les chemins d'inférence QLoRA, LoRA et non LoRA sont 2x plus rapides. Cela ne nécessite aucun changement de code ni de nouvelles dépendances.

from unsloth import FastLanguageModel
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "lora_model", # VOTRE MODÈLE QUE VOUS AVEZ UTILISÉ POUR L'ENTRAÎNEMENT
    max_seq_length = max_seq_length,
    dtype = dtype,
    load_in_4bit = load_in_4bit,
)
FastLanguageModel.for_inference(model) # Activer l'inférence native 2x plus rapide
text_streamer = TextStreamer(tokenizer)
_ = model.generate(**inputs, streamer = text_streamer, max_new_tokens = 64)

NotImplementedError : Un paramètre régional UTF-8 est requis. ANSI détecté

Parfois, lorsque vous exécutez une cellule cette erreurarrow-up-right peut apparaître. Pour résoudre cela, dans une nouvelle cellule, exécutez ce qui suit :

import locale
locale.getpreferredencoding = lambda: "UTF-8"

Mis à jour

Ce contenu vous a-t-il été utile ?