🦥Unsloth-Dokumentation
Trainiere dein eigenes Modell mit Unsloth, einem Open-Source-Framework für LLM-Finetuning und Reinforcement Learning.
Bei Unsloth ist unsere Mission, KI so genau und zugänglich wie möglich zu machen. Trainieren und deployen Sie DeepSeek, gpt-oss, Llama, TTS, Qwen, Gemma LLMs 2x schneller mit 70% weniger VRAM.
Unsere Dokumentation führt Sie durch das Ausführen und Trainieren Ihres eigenen Modells lokal.
🦥 Warum Unsloth?
Unsloth vereinfacht lokales Training, Evaluation und Deployment mit Ollama, llama.cpp und vLLM.
⭐ Hauptmerkmale
Unterstützt vollständiges Finetuning, Pretraining, 4-Bit-, 16-Bit- und 8-Bit-Training.
Unterstützt alle Modelltypen: TTS, Embedding, multimodal, und mehr.
Am effizientesten Reinforcement Learning Bibliothek, die 80% weniger VRAM verwendet. Unterstützt GRPO, GSPO usw.
0% Genauigkeitsverlust - keine Quantisierungs- oder Approximationsmethoden - alles exakt.
MultiGPU funktioniert bereits, aber eine deutlich bessere Version kommt bald!
Schnellstart
Unsloth unterstützt Linux, Windows, NVIDIA, AMD & Intel. Siehe: Unsloth-Anforderungen
Lokal mit pip installieren (empfohlen) für Linux- oder WSL-Geräte:
Verwenden Sie unser offizielles Docker-Image: unsloth/unsloth. Lesen Sie unseren Docker-Leitfaden.
Für Windows-Installationsanweisungen siehe hier.
Neue Modelle
Was sind Fine-tuning und RL? Warum?
Fine-tuning eines LLM passt sein Verhalten an, erweitert domänenspezifisches Wissen und optimiert die Leistung für spezifische Aufgaben. Durch das Feinabstimmen eines vortrainierten Modells (z. B. Llama-3.1-8B) auf einem Datensatz können Sie:
Wissen aktualisieren: Neue domänenspezifische Informationen einführen.
Verhalten anpassen: Den Ton, die Persönlichkeit oder den Antwortstil des Modells anpassen.
Für Aufgaben optimieren: Genauigkeit und Relevanz für spezifische Anwendungsfälle verbessern.
Reinforcement Learning (RL) ist, wenn ein "Agent" durch Interaktion mit einer Umgebung und dem Erhalten von Feedback in Form von Belohnungen oder Strafen.
Aktion: Was das Modell erzeugt (z. B. einen Satz).
Belohnung: Ein Signal, das anzeigt, wie gut oder schlecht die Aktion des Modells war (z. B. hat die Antwort die Anweisungen befolgt? War sie hilfreich?).
Umgebung: Das Szenario oder die Aufgabe, an der das Modell arbeitet (z. B. Beantwortung einer Nutzerfrage).
Beispiele für Fine-tuning- oder RL-Anwendungsfälle:
Ermöglicht LLMs vorherzusagen, ob eine Schlagzeile sich positiv oder negativ auf ein Unternehmen auswirkt.
Kann historische Kundeninteraktionen für genauere und individuellere Antworten nutzen.
Finetunen Sie LLMs auf juristischen Texten für Vertragsanalyse, Recherche von Gerichtsurteilen und Compliance.
Sie können ein feinabgestimmtes Modell als einen spezialisierten Agenten betrachten, der entwickelt wurde, um bestimmte Aufgaben effektiver und effizienter zu erledigen. Fine-tuning kann alle Fähigkeiten von RAG replizieren, aber nicht umgekehrt.

Zuletzt aktualisiert
War das hilfreich?










