🦥Docs Unsloth

Entraînez votre propre modèle avec Unsloth, un cadre open-source pour l'ajustement des LLM et l'apprentissage par renforcement.

Chez Unsloth, notre mission est de rendre l'IA aussi précise et accessible que possible. Entraînez et déployez DeepSeek, gpt-oss, Llama, TTS, Qwen, Gemma LLMs 2x plus rapidement avec 70 % de VRAM en moins.

Nos docs vous guideront pour exécuter et entraîner votre propre modèle localement.

Commencer Notre GitHub

🦥 Pourquoi Unsloth ?

⭐ Caractéristiques clés

  • Prend en charge l'affinage complet, le pré-entraînement, l'entraînement en 4 bits, 16 bits et 8 bits.

  • Prend en charge tous types de modèles: TTS,arrow-up-right embedding, multimodal, et plus.

  • La bibliothèque d'apprentissage par renforcement (RL) la plus efficace, utilisant 80 % de VRAM en moins. Prend en charge GRPO, GSPO, etc.

  • 0 % de perte en précision - pas de méthodes de quantification ou d'approximation - tout est exact.

  • MultiGPU fonctionne déjà mais une bien meilleure version arrive !

  • Unsloth prend en charge Linux, Windows, WSL, NVIDIA et AMD & Intel. Voir : Exigences d'Unsloth

Démarrage rapide

Installez localement avec pip (recommandé) pour les appareils Linux ou WSL :

Utilisez notre image Docker: unsloth/unsloth. Lisez notre guide Docker.

Pour les instructions d'installation sur Windows, voir ici.

Nouvelles versions

Qu'est-ce que l'affinage et le RL ? Pourquoi ?

Affinage un LLM personnalise son comportement, améliore les connaissances de domaine et optimise les performances pour des tâches spécifiques. En affinant un modèle pré-entraîné (par ex. Llama-3.1-8B) sur un jeu de données, vous pouvez :

  • Mettre à jour les connaissances : Introduire de nouvelles informations spécifiques au domaine.

  • Personnaliser le comportement : Ajuster le ton, la personnalité ou le style de réponse du modèle.

  • Optimiser pour des tâches : Améliorer la précision et la pertinence pour des cas d'utilisation spécifiques.

Apprentissage par renforcement (RL) est là où un "agent" apprend à prendre des décisions en interagissant avec un environnement et en recevant retour d'information sous la forme de récompenses ou pénalités.

  • Action : Ce que le modèle génère (par ex. une phrase).

  • Récompense : Un signal indiquant si l'action du modèle était bonne ou mauvaise (par ex. la réponse a-t-elle suivi les instructions ? était-elle utile ?).

  • Environnement : Le scénario ou la tâche sur laquelle le modèle travaille (par ex. répondre à la question d'un utilisateur).

Exemples d'utilisation de l'affinage ou du RL:

  • Permet aux LLM de prédire si un titre impacte une entreprise positivement ou négativement.

  • Peut utiliser les interactions historiques des clients pour des réponses plus précises et personnalisées.

  • Affiner un LLM sur des textes juridiques pour l'analyse de contrats, la recherche de jurisprudence et la conformité.

Vous pouvez considérer un modèle affiné comme un agent spécialisé conçu pour accomplir des tâches spécifiques de manière plus efficace et efficiente. L'affinage peut reproduire toutes les capacités du RAG, mais pas l'inverse.

🤔FAQ + L'ajustement est-il fait pour moi ?chevron-right💡Reinforcement Learning Guidechevron-right

Mis à jour

Ce contenu vous a-t-il été utile ?