🦥Documentation Unsloth

Entraînez votre propre modèle avec Unsloth, un framework open-source pour l'affinage des LLM et l'apprentissage par renforcement.

Chez Unsloth, notre mission est de rendre l'IA aussi précise et accessible que possible. Entraînez et déployez DeepSeek, gpt-oss, Llama, TTS, Qwen, Gemma LLMs 2x plus rapidement avec 70 % de VRAM en moins.

Nos docs vous guideront pour exécuter et entraîner votre propre modèle localement.

Commencer Notre GitHub

Qwen3.5

Les nouveaux Qwen3.5 Small & Medium LLMs sont arrivés !

MoE plus rapide est arrivé !

Entraînez des MoE LLMs 12x plus vite avec moins de VRAM.

Claude Code & Codex

Apprenez à exécuter des LLMs locaux via Claude & OpenAI.

Qwen3-Coder-Next

Exécutez et affinez le nouveau modèle de codage 80B.

GLM-4.7-Flash

Exécutez et affinez le modèle 30B pour le codage agentique.

MiniMax-2.5

Exécutez le puissant modèle 230B.

🧬Fine-tuning Guide 📒Notebooks Unsloth

🔮All Our Models 🚀Complete LLM Directory

🦥 Pourquoi Unsloth ?

Nous collaborons directement avec les équipes derrière gpt-oss, Qwen3, Llama 4, Mistral, Gemma 1–3 et Phi-4, où nous avons corrigé des bugs critiques qui ont grandement amélioré la précision du modèle.
Unsloth rationalise l'entraînement local, l'évaluation et le déploiement avec Ollama, llama.cpp et vLLM.
Unsloth prend en charge l'entraînement de plus de 500 modèles : vision, TTS, embedding, RL tout en restant personnalisable avec des modèles de chat flexibles, le formatage des jeux de données et des notebooks prêts à l'emploi.

⭐ Fonctionnalités clés

Prend en charge l'affinage complet, le pré-entraînement, l'entraînement en 4 bits, 16 bits et 8 bits.
Prend en charge tous types de modèles: TTS, embedding, multimodal, et plus encore.
La plus efficace bibliothèque d'apprentissage par renforcement , utilisant 80 % de VRAM en moins. Prend en charge GRPO, GSPO, etc.
0 % de perte de précision - pas de méthodes de quantification ou d'approximation - tout est exact.
Multi-GPU fonctionne déjà mais une bien meilleure version arrive !

Démarrage rapide

Unsloth prend en charge Linux, Windows, NVIDIA, AMD & Intel. Voir : Exigences d'Unsloth

Installez localement avec pip (recommandé) pour les appareils Linux ou WSL :

pip install unsloth

Utilisez notre image Docker: unsloth/unsloth. Lisez notre guide Docker.

Pour les instructions d'installation sur Windows, voir ici.

📥Installation

Nouveaux modèles

Kimi K2.5

GLM-5

DeepSeek OCR 2

Qu'est-ce que l'affinage et le RL ? Pourquoi ?

Affinage un LLM personnalise son comportement, améliore les connaissances du domaine et optimise les performances pour des tâches spécifiques. En affinant un modèle pré-entraîné (par ex. Llama-3.1-8B) sur un jeu de données, vous pouvez :

Mettre à jour les connaissances : Introduire de nouvelles informations spécifiques au domaine.
Personnaliser le comportement : Ajuster le ton, la personnalité ou le style de réponse du modèle.
Optimiser pour des tâches : Améliorer la précision et la pertinence pour des cas d'utilisation spécifiques.

Apprentissage par renforcement (RL) est l'endroit où un « agent » apprend à prendre des décisions en interagissant avec un environnement et en recevant rétroaction sous la forme de récompenses ou pénalités.

Action : Ce que le modèle génère (par ex. une phrase).
Récompense : Un signal indiquant si l'action du modèle était bonne ou mauvaise (par ex. la réponse a-t-elle suivi les instructions ? était-elle utile ?).
Environnement : Le scénario ou la tâche sur lequel le modèle travaille (par ex. répondre à la question d'un utilisateur).

Exemples de cas d'utilisation pour l'affinage ou le RL:

Permet aux LLMs de prédire si un titre impacte une entreprise positivement ou négativement.
Peut utiliser des interactions clients historiques pour des réponses plus précises et personnalisées.
Affinez un LLM sur des textes juridiques pour l'analyse de contrats, la recherche de jurisprudence et la conformité.

Vous pouvez considérer un modèle affiné comme un agent spécialisé conçu pour accomplir des tâches spécifiques de manière plus efficace et efficiente. L'affinage peut reproduire toutes les capacités du RAG, mais pas l'inverse.

🤔FAQ + L'affinage est-il adapté pour moi ?🖥️Inférence & Déploiement

💡Reinforcement Learning Guide 🦥Dynamic 2.0 GGUFs