🦥Unsloth-Dokumentation

Trainiere dein eigenes Modell mit Unsloth, einem Open-Source-Framework für LLM-Finetuning und Reinforcement Learning.

Bei Unsloth ist unsere Mission, KI so genau und zugänglich wie möglich zu machen. Trainieren und bereitstellen Sie DeepSeek, gpt-oss, Llama, TTS, Qwen, Gemma-LLMs 2x schneller mit 70% weniger VRAM.

Unsere Dokumentation führt Sie durch das Ausführen und Trainieren Ihres eigenen Modells lokal.

Loslegen Unser GitHub

🦥 Warum Unsloth?

⭐ Hauptfunktionen

  • Unterstützt vollständiges Finetuning, Pretraining, 4-Bit-, 16-Bit- und 8-Bit-Training.

  • Unterstützt alle Arten von Modellen: TTS,arrow-up-right Embedding, multimodal, und mehr.

  • Effizienteste Reinforcement-Learning-(RL)-Bibliothek, die 80% weniger VRAM verwendet. Unterstützt GRPO, GSPO usw.

  • 0% Genauigkeitsverlust - keine Quantisierungs- oder Approximationsmethoden - alles exakt.

  • MultiGPU funktioniert bereits, aber eine deutlich bessere Version kommt!

  • Unsloth unterstützt Linux, Windows, WSL, NVIDIA und AMD & Intel. Siehe: Unsloth-Anforderungen

Schnellstart

Lokal mit pip installieren (empfohlen) für Linux- oder WSL-Geräte:

Verwenden Sie unser offizielles Docker-Image: unsloth/unsloth. Lesen Sie unser Docker-Handbuch.

Für Windows-Installationsanweisungen siehe hier.

Neue Veröffentlichungen

Was ist Fine-Tuning und RL? Warum?

Fine-Tuning ein LLM passt sein Verhalten an, erweitert domänenspezifisches Wissen und optimiert die Leistung für bestimmte Aufgaben. Durch Feinabstimmung eines vortrainierten Modells (z. B. Llama-3.1-8B) auf einem Datensatz können Sie:

  • Wissen aktualisieren: Neue domänenspezifische Informationen einführen.

  • Verhalten anpassen: Den Ton, die Persönlichkeit oder den Antwortstil des Modells anpassen.

  • Für Aufgaben optimieren: Genauigkeit und Relevanz für bestimmte Anwendungsfälle verbessern.

Reinforcement Learning (RL) ist, wo ein "Agent" durch Interaktion mit einer Umgebung lernt, Entscheidungen zu treffen und Feedback in Form von Belohnungen oder Strafen.

  • Aktion: Was das Modell erzeugt (z. B. ein Satz).

  • Belohnung: Ein Signal, das angibt, wie gut oder schlecht die Aktion des Modells war (z. B. hat die Antwort die Anweisungen befolgt? War sie hilfreich?).

  • Umgebung: Das Szenario oder die Aufgabe, an der das Modell arbeitet (z. B. die Beantwortung einer Nutzerfrage).

Beispielhafte Anwendungsfälle für Feinabstimmung oder RL:

  • Ermöglicht LLMs vorherzusagen, ob eine Schlagzeile ein Unternehmen positiv oder negativ beeinflusst.

  • Kann historische Kundeninteraktionen für genauere und individuellere Antworten nutzen.

  • Finetunen Sie LLM auf juristischen Texten für Vertragsanalyse, Rechtsprechungsrecherche und Compliance.

Sie können ein feinabgestimmtes Modell als einen spezialisierten Agenten betrachten, der darauf ausgelegt ist, bestimmte Aufgaben effektiver und effizienter zu erledigen. Feinabstimmung kann alle Fähigkeiten von RAG replizieren, aber nicht umgekehrt.

🤔FAQ + Ist Finetuning das Richtige für mich?chevron-right💡Reinforcement Learning Guidechevron-right

Zuletzt aktualisiert

War das hilfreich?