Inférence Unsloth

Apprenez à exécuter votre modèle fine-tuné avec l'inférence plus rapide d'Unsloth.

Unsloth prend en charge nativement une inférence 2x plus rapide. Pour notre notebook dédié à l'inférence uniquement, cliquez ici.

Tous les chemins d'inférence QLoRA, LoRA et non LoRA sont 2x plus rapides. Cela ne nécessite aucun changement de code ni de nouvelles dépendances.

from unsloth import FastLanguageModel
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "lora_model", # VOTRE MODÈLE QUE VOUS AVEZ UTILISÉ POUR L'ENTRAÎNEMENT
    max_seq_length = max_seq_length,
    dtype = dtype,
    load_in_4bit = load_in_4bit,
)
FastLanguageModel.for_inference(model) # Activer l'inférence native 2x plus rapide
text_streamer = TextStreamer(tokenizer)
_ = model.generate(**inputs, streamer = text_streamer, max_new_tokens = 64)

NotImplementedError : Un paramètre régional UTF-8 est requis. ANSI détecté

Parfois, lorsque vous exécutez une cellule cette erreur peut apparaître. Pour résoudre cela, dans une nouvelle cellule, exécutez ce qui suit :

import locale
locale.getpreferredencoding = lambda: "UTF-8"

Mis à jour

Ce contenu vous a-t-il été utile ?