🦥Unsloth-Dokumentation

Trainiere dein eigenes Modell mit Unsloth, einem Open-Source-Framework für LLM-Feinabstimmung und Verstärkungslernen.

Bei Unsloth ist es unsere Mission, KI so genau und zugänglich wie möglich zu machen. Trainiere und setze DeepSeek, gpt-oss, Llama, TTS, Qwen, Gemma LLMs doppelt so schnell mit 70 % weniger VRAM ein.

Unsere Dokumentation führt dich durch das Ausführen und Trainieren deines eigenen Modells lokal.

Loslegen Unser GitHub

Qwen3.5

Neue Qwen3.5 Small & Medium LLMs sind da!

Schnelleres MoE ist da!

Trainiere MoE-LLMs 12x schneller mit weniger VRAM.

Claude Code & Codex

Lerne, lokale LLMs über Claude & OpenAI zu betreiben.

Qwen3-Coder-Next

Führe das neue 80B-Coding-Modell aus und feineinstelle es.

GLM-4.7-Flash

Führe ein 30B-Modell für agentenbasiertes Codieren aus und feineinstelle es.

MiniMax-2.5

Führe das leistungsstarke 230B-Modell aus.

🧬Fine-tuning Guide 📒Unsloth-Notebooks

🔮All Our Models 🚀Complete LLM Directory

🦥 Warum Unsloth?

Wir arbeiten direkt mit den Teams hinter gpt-oss, Qwen3, Llama 4, Mistral, Gemma 1–3 und Phi-4, wobei wir kritische Fehler behoben haben die die Modellgenauigkeit erheblich verbessert haben.
Unsloth vereinfacht lokales Training, Evaluation und Bereitstellung mit Ollama, llama.cpp und vLLM.
Unsloth unterstützt das Training für über 500 Modelle: Vision, TTS, Embedding, RL und bleibt dabei anpassbar mit flexiblen Chat-Vorlagen, Datensatzformatierung und einsatzbereiten Notebooks.

⭐ Wichtige Funktionen

Unterstützt vollständiges Fine-Tuning, Pretraining, 4-Bit-, 16-Bit- und 8-Bit-Training.
Unterstützt alle Modelltypen: TTS, Embedding, multimodalund mehr.
Effizienteste Reinforcement-Learning Bibliothek, die 80 % weniger VRAM verwendet. Unterstützt GRPO, GSPO usw.
0 % Genauigkeitsverlust - keine Quantisierungs- oder Approximationsmethoden - alles exakt.
Multi-GPU funktioniert bereits, aber eine deutlich bessere Version kommt noch!

Schnellstart

Unsloth unterstützt Linux, Windows, NVIDIA, AMD & Intel. Siehe: Unsloth-Anforderungen

Lokal mit pip installieren (empfohlen) für Linux- oder WSL-Geräte:

pip install unsloth

Verwende unser offizielles Docker-Image: unsloth/unsloth. Lies unsere Docker-Anleitung.

Für Installationsanweisungen für Windows siehe hier.

📥Installation

Neue Modelle

Kimi K2.5

GLM-5

DeepSeek OCR 2

Was ist Fine-Tuning und RL? Warum?

Fine-Tuning eines LLM passt sein Verhalten an, verbessert domänenspezifisches Wissen und optimiert die Leistung für bestimmte Aufgaben. Durch das Fine-Tuning eines vortrainierten Modells (z. B. Llama-3.1-8B) auf einem Datensatz kannst du:

Wissen aktualisieren: Neue domänenspezifische Informationen einführen.
Verhalten anpassen: Den Ton, die Persönlichkeit oder den Antwortstil des Modells anpassen.
Für Aufgaben optimieren: Genauigkeit und Relevanz für bestimmte Anwendungsfälle verbessern.

Reinforcement Learning (RL) ist, wenn ein „Agent“ lernt, Entscheidungen zu treffen, indem er mit einer Umgebung interagiert und Feedback in Form von Belohnungen oder Bestrafungen.

Aktion: Was das Modell generiert (z. B. einen Satz).
Belohnung: Ein Signal, das angibt, wie gut oder schlecht die Aktion des Modells war (z. B. hat die Antwort die Anweisungen befolgt? War sie hilfreich?).
Umgebung: Das Szenario oder die Aufgabe, an der das Modell arbeitet (z. B. Beantwortung einer Benutzerfrage).

Beispielhafte Fine-Tuning- oder RL-Anwendungsfälle:

Ermöglicht LLMs vorherzusagen, ob eine Schlagzeile sich positiv oder negativ auf ein Unternehmen auswirkt.
Kann historische Kundeninteraktionen für genauere und individuellere Antworten nutzen.
Feinabstimmung von LLMs auf juristischen Texten für Vertragsanalyse, Fallrechtsrecherche und Compliance.

Du kannst ein feinabgestimmtes Modell als einen spezialisierten Agenten betrachten, der entwickelt wurde, um bestimmte Aufgaben effektiver und effizienter zu erledigen. Fine-Tuning kann alle Fähigkeiten von RAG replizieren, aber nicht umgekehrt.

🤔FAQ + Ist Feinabstimmung das Richtige für mich?🖥️Inference & Bereitstellung

💡Reinforcement Learning Guide 🦥Dynamic 2.0 GGUFs