Welches Modell sollte ich für Finetuning verwenden?

Llama, Qwen, Mistral, Phi oder?

Bei der Vorbereitung auf Fine-Tuning gehört die Auswahl des richtigen Modells zu den ersten Entscheidungen. Hier ist eine Schritt-für-Schritt-Anleitung, die Ihnen bei der Auswahl hilft:

1

Wählen Sie ein Modell, das zu Ihrem Anwendungsfall passt

  • z. B. für bildbasiertes Training ein Visionsmodell wie Llama 3.2 Vision. Für Code-Datensätze wählen Sie ein spezialisiertes Modell wie Qwen Coder 2.5.

  • Lizenzierung und Anforderungen: Verschiedene Modelle können spezifische Lizenzbedingungen und Systemanforderungenhaben. Überprüfen Sie diese sorgfältig, um Kompatibilitätsprobleme zu vermeiden.

2

Bewerten Sie Ihren Speicher, Ihre Rechenkapazität und Ihren Datensatz

  • Verwenden Sie unser VRAM-Richtlinie um die VRAM-Anforderungen für das Modell zu bestimmen, das Sie in Betracht ziehen.

  • Ihr Datensatz spiegelt die Art des Modells wider, das Sie verwenden werden, und die Zeit, die das Training in Anspruch nehmen wird

3

Wählen Sie ein Modell und Parameter

  • Wir empfehlen, das neueste Modell für die beste Leistung und Fähigkeiten zu verwenden. Beispielsweise ist zum Stand Januar 2025 das führende 70B-Modell Llama 3.3.

  • Sie können auf dem Laufenden bleiben, indem Sie unseren Modellkatalog durchsuchen, um die neuesten und relevanten Optionen zu finden.

4

Wählen Sie zwischen Base- und Instruct-Modellen

Weitere Details unten:

Instruct- oder Base-Modell?

Bei der Vorbereitung auf Fine-Tuning gehört zu den ersten Entscheidungen, ob Sie ein Instruct-Modell oder ein Base-Modell verwenden möchten.

Instruct-Modelle

Instruct-Modelle sind mit eingebauten Anweisungen vortrainiert und damit ohne weiteres Fine-Tuning einsatzbereit. Diese Modelle, einschließlich GGUFs und anderer gängiger Formate, sind für die direkte Nutzung optimiert und reagieren sofort effektiv auf Prompts. Instruct-Modelle funktionieren mit konversationellen Chat-Vorlagen wie ChatML oder ShareGPT.

Base-Modelle

Base-Modelle hingegen sind die ursprünglichen vortrainierten Versionen ohne Instruction-Fine-Tuning. Sie sind speziell für Anpassungen durch Fine-Tuning konzipiert, sodass Sie sie an Ihre spezifischen Anforderungen anpassen können. Base-Modelle sind mit instruktionsartigen Vorlagen wie Alpaca oder Vicunakompatibel, unterstützen aber in der Regel nicht ohne Weiteres konversationelle Chat-Vorlagen.

Sollte ich Instruct oder Base wählen?

Die Entscheidung hängt oft von der Menge, Qualität und Art Ihrer Daten ab:

  • 1.000+ Datensätze: Wenn Sie einen großen Datensatz mit über 1.000 Einträgen haben, ist es im Allgemeinen am besten, das Base-Modell zu fine-tunen.

  • 300–1.000 Einträge von hoher Qualität: Bei einem mittelgroßen Datensatz hoher Qualität sind sowohl das Fine-Tunen des Base- als auch des Instruct-Modells praktikable Optionen.

  • Weniger als 300 Einträge: Für kleinere Datensätze ist das Instruct-Modell typischerweise die bessere Wahl. Das Fine-Tuning des Instruct-Modells ermöglicht es, es an spezifische Bedürfnisse anzupassen und gleichzeitig seine eingebauten Instruktionsfähigkeiten zu bewahren. Dadurch kann es allgemeinen Anweisungen folgen, ohne zusätzliche Eingaben zu benötigen, es sei denn, Sie beabsichtigen, seine Funktionalität erheblich zu verändern.

  • Für Informationen darüber, wie groß Ihr Datensatz sein sollte, siehe hier

Fine-Tuning von Modellen mit Unsloth

Sie können den Modellnamen in jeden gewünschten Namen ändern, indem Sie ihn mit dem Namen des Modells auf Hugging Face abgleichen, z. B. 'unsloth/llama-3.1-8b-unsloth-bnb-4bit'.

Wir empfehlen, mit Instruct-Modellenzu beginnen, da sie direktes Fine-Tuning mit konversationellen Chat-Vorlagen (ChatML, ShareGPT usw.) ermöglichen und im Vergleich zu Base-Modellen (die Alpaca, Vicuna usw. verwenden) weniger Daten erfordern. Erfahren Sie mehr über die Unterschiede zwischen Instruct- und Base-Modellen hier.

  • Modellnamen, die auf unsloth-bnb-4bit enden, zeigen an, dass sie Unsloth dynamische 4-Bitarrow-up-right Quantisierungensind. Diese Modelle verbrauchen etwas mehr VRAM als standardmäßige BitsAndBytes 4-Bit-Modelle, bieten jedoch deutlich höhere Genauigkeit.

  • Endet ein Modellname nur mit bnb-4bit, ohne "unsloth", bezieht sich das auf eine standardmäßige BitsAndBytes 4-Bit-Quantisierung.

  • Modelle ohne Suffix befinden sich in ihrem ursprünglichen 16-Bit- oder 8-Bit-Format. Während es sich um die Originalmodelle der offiziellen Modellhersteller handelt, nehmen wir manchmal wichtige Korrekturen vor – wie z. B. Chat-Vorlagen- oder Tokenizer-Fixes. Daher wird empfohlen, unsere Versionen zu verwenden, wenn sie verfügbar sind.

Experimentieren ist entscheidend

circle-info

Wir empfehlen, wenn möglich mit beiden Modellen zu experimentieren. Tunen Sie jedes einzeln und bewerten Sie die Ausgaben, um zu sehen, welches besser mit Ihren Zielen übereinstimmt.

Zuletzt aktualisiert

War das hilfreich?