🦙Tutorial: Wie man Llama-3 feinabstimmt und in Ollama verwendet

Einsteigerleitfaden zur Erstellung eines personalisierten Assistenten (ähnlich wie ChatGPT) zum lokalen Betrieb auf Ollama

Am Ende dieses Tutorials werden Sie einen benutzerdefinierten Chatbot erstellen, indem Sie Llama-3 feinabstimmen mit Unsloth kostenlos. Er kann lokal über Ollama auf Ihrem PC oder in einer kostenlosen GPU-Instanz über Google Colab. Sie werden in der Lage sein, interaktiv mit dem Chatbot wie unten zu interagieren:

Unsloth macht das Feinabstimmen viel einfacher und kann das feinabgestimmte Modell automatisch exportieren nach Ollama mit integrierter automatischer Modell-Datei Erstellung! Wenn Sie Hilfe benötigen, können Sie unserem Discord-Server beitreten: https://discord.com/invite/unsloth

Wenn Sie den Code kopieren oder speichern möchten, ist alles in unserem Ollama Colab-Notebook. Sie können es direkt dort verwenden oder für Ihre lokale Einrichtung anpassen: https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Llama3_(8B)-Ollama.ipynb

1. Was ist Unsloth?

Unsloth macht das Feinabstimmen von LLMs wie Llama-3, Mistral, Phi-3 und Gemma 2x schneller, verwendet 70% weniger Speicher und ohne Verschlechterung der Genauigkeit! Wir werden in diesem Tutorial Google Colab verwenden, das eine kostenlose GPU bereitstellt. Sie können auf unsere kostenlosen Notebooks unten zugreifen:

Ollama Llama-3 Alpaca (Notebook, das wir verwenden werden)
CSV/Excel Ollama Anleitung

Sie müssen sich außerdem in Ihr Google-Konto einloggen!

2. Was ist Ollama?

Ollama ermöglicht es Ihnen, Sprachmodelle schnell und einfach von Ihrem eigenen Computer aus auszuführen! Es startet im Hintergrund leise ein Programm, das ein Sprachmodell wie Llama-3 ausführen kann. Wenn Sie dem Sprachmodell plötzlich eine Frage stellen möchten, können Sie einfach eine Anfrage an Ollama senden, und es gibt Ihnen schnell die Ergebnisse zurück! Wir werden Ollama als unsere Inferenz-Engine verwenden!

3. Installieren Sie Unsloth

Wenn Sie noch nie ein Colab-Notebook verwendet haben, eine kurze Einführung in das Notebook selbst:

Play-Button an jeder "Zelle". Klicken Sie darauf, um den Code dieser Zelle auszuführen. Sie dürfen keine Zellen überspringen und müssen jede Zelle in chronologischer Reihenfolge ausführen. Wenn Sie auf Fehler stoßen, führen Sie einfach die Zelle erneut aus, die Sie zuvor nicht ausgeführt haben. Eine andere Möglichkeit ist, STRG + EINGABE zu drücken, wenn Sie nicht auf den Play-Button klicken möchten.
Runtime-Button in der oberen Symbolleiste. Sie können auch diesen Button verwenden und "Run all" wählen, um das gesamte Notebook in einem Durchgang auszuführen. Dies überspringt alle Anpassungsschritte und kann ein guter erster Versuch sein.
Connect / Reconnect T4-Button. Hier können Sie auf erweiterte Systemstatistiken zugreifen.

Die erste Installations-Zelle sieht wie unten aus: Denken Sie daran, auf den PLAY-Button in den Klammern [ ] zu klicken. Wir holen unser Open-Source-GitHub-Paket und installieren einige weitere Pakete.

4. Auswahl eines Modells zum Feinabstimmen

Wählen wir nun ein Modell für die Feinabstimmung! Wir haben standardmäßig Llama-3 von Meta / Facebook ausgewählt, das auf beeindruckenden 15 Billionen "Tokens" trainiert wurde. Ein Token kann man sich wie ein englisches Wort vorstellen. Das entspricht ungefähr 350.000 dicken Enzyklopädien! Weitere beliebte Modelle sind Mistral, Phi-3 (mit GPT-4-Ausgaben trainiert) und Gemma von Google (13 Billionen Tokens!).

Unsloth unterstützt diese Modelle und mehr! Geben Sie einfach ein Modell vom Hugging Face Model Hub ein, um zu sehen, ob es funktioniert! Wir geben einen Fehler aus, wenn es nicht funktioniert.

Es gibt 3 weitere Einstellungen, die Sie umschalten können:

```
max_seq_length = 2048
```
Dies bestimmt die Kontextlänge des Modells. Gemini hat beispielsweise über 1 Million Kontextlänge, während Llama-3 eine Kontextlänge von 8192 hat. Wir ermöglichen Ihnen, JEDE Zahl auszuwählen – aber wir empfehlen, sie für Testzwecke auf 2048 zu setzen. Unsloth unterstützt auch Feinabstimmungen mit sehr langer Kontextlänge, und wir zeigen, dass wir 4x längere Kontextlängen als die Besten bereitstellen können.
```
dtype = None
```
Lassen Sie dies auf None, aber Sie können torch.float16 oder torch.bfloat16 für neuere GPUs auswählen.
```
load_in_4bit = True
```
Wir führen die Feinabstimmung in 4-Bit-Quantisierung durch. Dies reduziert den Speicherbedarf um das 4-fache und ermöglicht es uns, tatsächlich Feinabstimmungen auf einer kostenlosen GPU mit 16 GB Speicher durchzuführen. 4-Bit-Quantisierung wandelt Gewichte im Grunde in eine begrenzte Zahl von Werten um, um den Speicherverbrauch zu reduzieren. Ein Nachteil ist eine Genauigkeitsminderung von 1–2%. Setzen Sie dies auf False bei größeren GPUs wie H100s, wenn Sie diese kleine zusätzliche Genauigkeit wünschen.

Wenn Sie die Zelle ausführen, erhalten Sie einige Ausgaben zur Unsloth-Version, welches Modell Sie verwenden, wie viel Speicher Ihre GPU hat und einige andere Statistiken. Ignorieren Sie dies vorerst.

5. Parameter für die Feinabstimmung

Um Ihre Feinabstimmung anzupassen, können Sie die oben stehenden Zahlen bearbeiten, Sie können dies aber ignorieren, da wir bereits recht vernünftige Zahlen ausgewählt haben.

Das Ziel ist es, diese Zahlen zu ändern, um die Genauigkeit zu erhöhen, aber auch Überanpassung entgegenzuwirken. Überanpassung ist, wenn Sie das Sprachmodell ein Dataset auswendig lernen lassen und es nicht in der Lage ist, neue, unbekannte Fragen zu beantworten. Wir möchten, dass das finale Modell unbekannte Fragen beantworten kann und nicht nur auswendig gelerntes Wissen wiedergibt.

```
r = 16, # Wählen Sie beliebige Zahl > 0! Vorgeschlagen 8, 16, 32, 64, 128
```
Der Rang des Feinabstimmungsprozesses. Eine größere Zahl verwendet mehr Speicher und ist langsamer, kann aber die Genauigkeit bei schwierigeren Aufgaben erhöhen. Wir empfehlen normalerweise Zahlen wie 8 (für schnelle Feinabstimmungen) und bis zu 128. Zu große Zahlen können Überanpassung verursachen und die Modellqualität schädigen.
```
target_modules = ["q_proj", "k_proj", "v_proj", "o_proj",
                  "gate_proj", "up_proj", "down_proj",],
```
Wir wählen alle Module zur Feinabstimmung aus. Sie können einige entfernen, um den Speicherverbrauch zu reduzieren und das Training zu beschleunigen, aber das empfehlen wir dringend nicht. Trainieren Sie einfach auf allen Modulen!
```
lora_alpha = 16,
```
Der Skalierungsfaktor für die Feinabstimmung. Eine größere Zahl lässt die Feinabstimmung mehr über Ihr Dataset lernen, kann aber Überanpassung fördern. Wir empfehlen, diesen gleich dem Rang r, oder doppelt so groß einzustellen.
```
lora_dropout = 0, # Unterstützt beliebige Werte, aber = 0 ist optimiert
```
Lassen Sie dies auf 0 für schnelleres Training! Kann Überanpassung reduzieren, aber nicht stark.
```
bias = "none",    # Unterstützt beliebige Werte, aber = "none" ist optimiert
```
Lassen Sie dies auf 0 für schnelleres Training mit weniger Überanpassung!
```
use_gradient_checkpointing = "unsloth", # True oder "unsloth" für sehr langen Kontext
```
Optionen beinhalten True, False und "unsloth". Wir empfehlen "unsloth" da wir den Speicherverbrauch zusätzlich um etwa 30% reduzieren und extrem lange Kontext-Feinabstimmungen unterstützen. Sie können hier nachlesen: https://unsloth.ai/blog/long-context für weitere Details.
```
random_state = 3407,
```
Die Zahl zur Bestimmung deterministischer Durchläufe. Training und Feinabstimmung benötigen Zufallszahlen, sodass das Setzen dieser Zahl Experimente reproduzierbar macht.
```
use_rslora = False,  # Wir unterstützen rang-stabilisiertes LoRA
```
Erweiterte Funktion, um die lora_alpha = 16 automatisch festzulegen. Sie können dies verwenden, wenn Sie möchten!
```
loftq_config = None, # Und LoftQ
```
Erweiterte Funktion, um die LoRA-Matrizen mit den Top-r-Singularvektoren der Gewichte zu initialisieren. Kann die Genauigkeit etwas verbessern, aber zu Beginn den Speicherverbrauch stark erhöhen.

6. Alpaca-Datensatz

Wir werden nun den Alpaca-Datensatz verwenden, der durch Aufrufen von GPT-4 selbst erstellt wurde. Es ist eine Liste von 52.000 Anweisungen und Ausgaben, die sehr beliebt war, als Llama-1 veröffentlicht wurde, da sie die Feinabstimmung eines Basis-LLM wettbewerbsfähig mit ChatGPT machte.

Sie können auf die GPT4-Version des Alpaca-Datensatzes hier zugreifen: https://huggingface.co/datasets/vicgalle/alpaca-gpt4. Eine ältere erste Version des Datensatzes finden Sie hier: https://github.com/tatsu-lab/stanford_alpaca. Unten werden einige Beispiele des Datensatzes gezeigt:

Sie können sehen, dass es in jeder Zeile 3 Spalten gibt - eine Anweisung, eine Eingabe und eine Ausgabe. Wir kombinieren im Wesentlichen jede Zeile zu einem großen Prompt wie unten. Wir verwenden dies dann, um das Sprachmodell feinabzustimmen, und das machte es sehr ähnlich zu ChatGPT. Wir nennen diesen Prozess überwachtes Instruktions-Feinabstimmen.

7. Mehrere Spalten für die Feinabstimmung

Ein großes Problem bei ChatGPT-ähnlichen Assistenten ist jedoch, dass wir nur 1 Anweisung / 1 Prompt erlauben und nicht mehrere Spalten / Eingaben. In ChatGPT muss man beispielsweise 1 Prompt übermitteln, nicht mehrere Prompts.

Das bedeutet im Wesentlichen, dass wir mehrere Spalten zu einem großen Prompt "zusammenführen" müssen, damit die Feinabstimmung tatsächlich funktioniert!

Zum Beispiel hat der sehr berühmte Titanic-Datensatz viele Spalten. Ihre Aufgabe war es vorherzusagen, ob ein Passagier überlebt hat oder gestorben ist, basierend auf Alter, Passagierklasse, Fahrpreis usw. Wir können dies nicht einfach an ChatGPT übergeben, sondern müssen diese Informationen in einem großen Prompt "zusammenführen".

Wenn wir ChatGPT mit unserem "zusammengeführten" einzelnen Prompt fragen, der alle Informationen für diesen Passagier enthält, können wir es dann bitten, zu raten oder vorherzusagen, ob der Passagier gestorben oder überlebt hat.

Andere Feinabstimmungsbibliotheken verlangen, dass Sie Ihr Dataset manuell für die Feinabstimmung vorbereiten, indem Sie alle Spalten in einen Prompt zusammenführen. In Unsloth stellen wir einfach die Funktion namens to_sharegpt zur Verfügung,

die dies in einem Durchgang erledigt! Um auf das Titanic-Feinabstimmungs-Notebook zuzugreifen oder wenn Sie eine CSV- oder Excel-Datei hochladen möchten, gehen Sie hier:

https://colab.research.google.com/drive/1VYkncZMfGFkeCEgN2IzbZIKEDkyQuJAS?usp=sharing

Das ist jetzt etwas komplizierter, da wir viel Anpassung erlauben, aber es gibt ein paar Punkte: {}Sie müssen alle Spalten in geschweifte Klammern einschließen
. Dies sind die Spaltennamen in der tatsächlichen CSV-/Excel-Datei. [[]]Optionale Textkomponenten müssen in
eingeschlossen werden. Wenn z. B. die Spalte "input" leer ist, zeigt die Zusammenführungsfunktion den Text nicht an und überspringt ihn. Dies ist nützlich für Datensätze mit fehlenden Werten. Wählen Sie die Ausgabe- oder Ziel-/Vorhersagespalte inoutput_column_name . Für den Alpaca-Datensatz wäre dies.

output

Zum Beispiel können wir im Titanic-Datensatz ein großes zusammengeführtes Prompt-Format wie unten erstellen, wobei jede Spalte / Textteil optional wird.

Angenommen, der Datensatz sieht mit vielen fehlenden Daten so aus:

Embarked

Age

Fare

7.25

Dann wollen wir nicht, dass das Ergebnis lautet: Der Passagier ist in S eingelaufen. Sein Alter ist 23. Sein Fahrpreis ist.
LEER Der Passagier ist in S eingelaufen. Sein Alter ist 23. Sein Fahrpreis istDer Passagier ist in

eingelaufen. Sein Alter ist 18. Sein Fahrpreis ist $7.25. [[]]Stattdessen können wir durch optionales Einschließen von Spalten mit

dies Informationen vollständig ausschließen. Der Passagier ist in S eingelaufen. Sein Alter ist 23. Sein Fahrpreis ist.]]
[[Der Passagier ist in S eingelaufen.]] [[Sein Alter ist 23.]] [[Sein Fahrpreis ist Der Passagier ist in S eingelaufen. Sein Alter ist 23. Sein Fahrpreis ist[[Der Passagier ist in

eingelaufen.]] [[Sein Alter ist 18.]] [[Sein Fahrpreis ist $7.25.]]

wird zu:
Der Passagier ist in S eingelaufen. Sein Alter ist 23.

Sein Alter ist 18. Sein Fahrpreis ist $7.25.

8. Mehrründige Gespräche

Ein Problem, falls Sie es nicht bemerkt haben, ist, dass der Alpaca-Datensatz einstufig ist, während ChatGPT interaktiv ist und Sie in mehreren Runden mit ihm sprechen können. Links ist, was wir wollen, aber rechts, was der Alpaca-Datensatz bietet, liefert nur einzelne Gespräche. Wir möchten, dass das feinabgestimmte Sprachmodell irgendwie lernt, mehrründige Gespräche wie ChatGPT zu führen. Also haben wir den conversation_extension

Parameter eingeführt, der im Wesentlichen einige zufällige Zeilen in Ihrem einstufigen Datensatz auswählt und sie zu einer Unterhaltung zusammenführt! Wenn Sie ihn z. B. auf 3 setzen, wählen wir zufällig 3 Zeilen aus und fügen sie zu einer zusammen! Zu lange Einstellungen können das Training verlangsamen, könnten aber Ihren Chatbot und die finale Feinabstimmung deutlich verbessern! Wählen Sie die Ausgabe- oder Ziel-/Vorhersagespalte in Setzen Sie dann

auf die Vorhersage-/Ausgabespalte. Für den Alpaca-Datensatz wäre dies die Ausgabespalte. Wir verwenden dann die standardize_sharegpt

Funktion, um das Dataset in ein korrektes Format für die Feinabstimmung zu bringen! Rufen Sie dies immer auf!

9. Anpassbare Chat-Vorlagen

Wir können nun die Chat-Vorlage für die Feinabstimmung selbst angeben. Das sehr berühmte Alpaca-Format ist unten:

Aber denken Sie daran, wir sagten, dies sei eine schlechte Idee, weil ChatGPT-ähnliche Feinabstimmungen nur 1 Prompt erfordern? Da wir erfolgreich alle Datensatzspalten mit Unsloth in einen zusammengeführt haben, können wir im Wesentlichen die unten gezeigte Chat-Vorlage mit 1 Eingabespalte (Anweisung) und 1 Ausgabe erstellen: Wir verlangen nur, dass Sie ein {INPUT} Feld für die Anweisung und ein {OUTPUT} Feld für das Ausgabe-Feld des Modells setzen. Wir erlauben tatsächlich optional ein {SYSTEM}

Feld, das nützlich ist, um eine Systemprompt wie in ChatGPT anzupassen. Unten sind einige coole Beispiele, mit denen Sie die Chat-Vorlage anpassen können:

Für das ChatML-Format, das in OpenAI-Modellen verwendet wird: Feld für das Ausgabe-Feld des Modells setzen. Wir erlauben tatsächlich optional ein Oder Sie können die Llama-3-Vorlage selbst verwenden (die nur funktioniert, wenn die instruct-Version von Llama-3 verwendet wird): Wir erlauben tatsächlich optional ein

Feld, das nützlich ist, um eine Systemprompt wie in ChatGPT anzupassen. Um auf das Titanic-Feinabstimmungs-Notebook zuzugreifen oder wenn Sie eine CSV- oder Excel-Datei hochladen möchten, gehen Sie hier:

Oder in der Titanic-Vorhersageaufgabe, bei der Sie vorhersagen mussten, ob ein Passagier gestorben oder überlebt hat, in diesem Colab-Notebook, das CSV- und Excel-Uploads enthält:

10. Trainieren Sie das Modell

Lassen Sie uns nun das Modell trainieren! Wir empfehlen normalerweise nicht, das Folgende zu bearbeiten, es sei denn, Sie möchten länger feinabstimmen oder mit großen Batch-Größen trainieren.

```
Wir empfehlen normalerweise nicht, die oben genannten Parameter zu ändern, möchten aber einige davon näher erläutern:
```
per_device_train_batch_size = 2, Erhöhen Sie die Batch-Größe, wenn Sie den Speicher Ihrer GPU stärker nutzen möchten. Erhöhen Sie dies auch, um ein glatteres Training zu erreichen und Überanpassung zu vermeiden. Wir empfehlen dies normalerweise nicht, da dies das Training aufgrund von Padding-Problemen tatsächlich verlangsamen kann. Stattdessen empfehlen wir normalerweise, gradient_accumulation_steps
```
zu erhöhen,
```
was einfach mehr Durchgänge über das Dataset macht.
```
gradient_accumulation_steps = 4,
```
Entspricht der Erhöhung der Batch-Größe weiter oben, beeinflusst aber nicht den Speicherverbrauch! Wir empfehlen normalerweise, dies zu erhöhen, wenn Sie glattere Trainingsverlustkurven wünschen. max_steps = 60, # num_train_epochs = 1,Wir setzen die Schritte auf 60 für schnelleres Training. Für vollständige Trainingsläufe, die Stunden dauern können, kommentieren Sie stattdessen max_stepsaus und ersetzen Sie es durch
```
num_train_epochs = 1
```
. Es auf 1 zu setzen bedeutet 1 vollständigen Durchgang über Ihr Dataset. Wir empfehlen normalerweise 1 bis 3 Durchgänge und nicht mehr, da Sie sonst Ihre Feinabstimmung überanpassen.

learning_rate = 2e-4,

Reduzieren Sie die Lernrate, wenn Sie den Feinabstimmungsprozess verlangsamen, aber höchstwahrscheinlich zu einem genaueren Ergebnis konvergieren möchten. Wir empfehlen normalerweise 2e-4, 1e-4, 5e-5, 2e-5 als Werte zum Ausprobieren.

Sie werden während des Trainings eine Protokollanzeige von Zahlen sehen. Dies ist der Trainingsverlust, der zeigt, wie gut das Modell aus Ihrem Dataset lernt. In vielen Fällen ist ein Verlust um 0,5 bis 1,0 ein gutes Zeichen, aber es hängt von Ihrem Dataset und Ihrer Aufgabe ab. Wenn der Verlust nicht sinkt, müssen Sie möglicherweise Ihre Einstellungen anpassen. Wenn der Verlust gegen 0 geht, kann das Überanpassung bedeuten, daher ist es wichtig, auch die Validierung zu überprüfen.

11. Inferenz / Ausführen des Modells Lassen Sie uns das Modell nach Abschluss des Trainingsprozesses ausführen! Sie können den gelb unterstrichenen Teil bearbeiten! Da wir einen mehrstufigen Chatbot erstellt haben, können wir das Modell jetzt auch so aufrufen, als hätte es bereits einige vergangene Gespräche gesehen, wie unten: Zur Erinnerung: Unsloth selbst bietet 2x schnellere Inferenzauch nativ, also vergessen Sie nie, FastLanguageModel.for_inference(model) aufzurufen.

Wenn Sie möchten, dass das Modell längere Antworten ausgibt, setzen Sie

max_new_tokens = 128 auf eine größere Zahl wie 256 oder 1024. Beachten Sie, dass Sie dann auch länger auf das Ergebnis warten müssen! 12. Speichern des Modells

Wir können das feinabgestimmte Modell jetzt als kleine 100MB-Datei speichern, genannt LoRA-Adapter, wie unten. Sie können es stattdessen auch auf den Hugging Face Hub hochladen, wenn Sie Ihr Modell veröffentlichen möchten! Denken Sie daran, ein Hugging Face-Token zu erhalten über https://huggingface.co/settings/tokens und fügen Sie Ihr Token hinzu!

Nach dem Speichern des Modells können wir erneut Unsloth verwenden, um das Modell selbst auszuführen! Verwenden Sie

FastLanguageModel

wieder, um es für die Inferenz aufzurufen!

13. Exportieren zu Ollama False Schließlich können wir unser feinabgestimmtes Modell zu Ollama exportieren! Zuerst müssen wir Ollama im Colab-Notebook installieren: True Dann exportieren wir das feinabgestimmte Modell in die GGUF-Formate von llama.cpp wie unten: TrueZur Erinnerung: konvertieren Sie Truezu für 1 Zeile, und ändern Sie nicht jede Zeile zu , sonst werden Sie sehr lange warten! Wir empfehlen normalerweise, die erste Zeile auf zu setzen, damit wir das feinabgestimmte Modell schnell nach.

Q8_0 exportieren können (8-Bit-Quantisierung). Wir erlauben Ihnen auch, in eine ganze Liste von Quantisierungsmethoden zu exportieren, wobei eine beliebte Methode q4_k_m ist.

Besuchen Sie

https://github.com/ggerganov/llama.cpp

um mehr über GGUF zu erfahren. Wir haben auch einige manuelle Anweisungen, wie man nach GGUF exportiert, hier: https://github.com/unslothai/unsloth/wiki#manually-saving-to-gguf Sie werden eine lange Textliste wie unten sehen – bitte warten Sie 5 bis 10 Minuten!! Und schließlich sieht es ganz am Ende wie unten aus: Dann müssen wir Ollama selbst im Hintergrund ausführen. Wir verwenden

subprocess `Modell-Datei` weil Colab asynchrone Aufrufe nicht mag, normalerweise startet man jedoch einfach

ollama serve Modell-Datei im Terminal / in der Eingabeaufforderung. Modell-Datei 14. Automatische

Erstellung Modell-Datei

Der Trick, den Unsloth bietet, ist, dass wir automatisch eine

erstellen, die Ollama benötigt! Dies ist nur eine Liste von Einstellungen und beinhaltet die Chat-Vorlage, die wir für den Feinabstimmungsprozess verwendet haben! Sie können auch das

generierte wie unten drucken:

Wir bitten dann Ollama, ein Modell zu erstellen, das mit Ollama kompatibel ist, indem wir das 15. Ollama-Inferenz

Und wir können das Modell jetzt zur Inferenz aufrufen, wenn Sie den Ollama-Server selbst anrufen möchten, der auf Ihrer eigenen lokalen Maschine / im kostenlosen Colab-Notebook im Hintergrund läuft. Denken Sie daran, dass Sie den gelb unterstrichenen Teil bearbeiten können. 16. Interaktiver ChatGPT-Stil Aber um das feinabgestimmte Modell tatsächlich wie ChatGPT auszuführen, müssen wir noch etwas mehr tun! Klicken Sie zuerst auf das Terminal-Symbol

und ein Terminal wird erscheinen. Es befindet sich in der linken Seitenleiste.

Dann müssen Sie möglicherweise zweimal ENTER drücken, um einige seltsame Ausgaben im Terminalfenster zu entfernen. Warten Sie ein paar Sekunden und geben Sie ein

ollama run unsloth_model

und drücken Sie dann ENTER. Und schließlich können Sie mit dem feinabgestimmten Modell genau wie mit einem echten ChatGPT interagieren! Drücken Sie STRG + D, um das System zu beenden, und drücken Sie ENTER, um mit dem Chatbot zu sprechen!.

Sie haben es geschafft! Sie haben erfolgreich ein Sprachmodell feinabgestimmt und mit Unsloth 2x schneller und mit 70% weniger VRAM nach Ollama exportiert! Und das alles kostenlos in einem Google Colab-Notebook!Wenn Sie lernen möchten, wie man Reward-Modellierung macht, fortgesetztes Pretraining durchführt, nach vLLM oder GGUF exportiert, Textvervollständigung macht oder mehr über Feinabstimmungs-Tipps und -Tricks lernen möchten, besuchen Sie unser Sie haben erfolgreich ein Sprachmodell feinabgestimmt und mit Unsloth 2x schneller und mit 70% weniger VRAM nach Ollama exportiert! Und das alles kostenlos in einem Google Colab-Notebook!.

Github

Wenn Sie Hilfe bei der Feinabstimmung benötigen, können Sie auch unserem Discord-Server Sie haben erfolgreich ein Sprachmodell feinabgestimmt und mit Unsloth 2x schneller und mit 70% weniger VRAM nach Ollama exportiert! Und das alles kostenlos in einem Google Colab-Notebook!hier Sie haben erfolgreich ein Sprachmodell feinabgestimmt und mit Unsloth 2x schneller und mit 70% weniger VRAM nach Ollama exportiert! Und das alles kostenlos in einem Google Colab-Notebook!.

VorherigeWhat Model Should I Use?NächsteReinforcement Learning Guide

Zuletzt aktualisiert vor 3 Tagen

War das hilfreich?

hashtag1. Was ist Unsloth?

hashtagSie müssen sich außerdem in Ihr Google-Konto einloggen!

hashtag2. Was ist Ollama?

hashtag3. Installieren Sie Unsloth

hashtag4. Auswahl eines Modells zum Feinabstimmen

hashtag5. Parameter für die Feinabstimmung

hashtag6. Alpaca-Datensatz

hashtag7. Mehrere Spalten für die Feinabstimmung

hashtagSein Alter ist 18. Sein Fahrpreis ist $7.25.

hashtagFunktion, um das Dataset in ein korrektes Format für die Feinabstimmung zu bringen! Rufen Sie dies immer auf!

hashtagOder in der Titanic-Vorhersageaufgabe, bei der Sie vorhersagen mussten, ob ein Passagier gestorben oder überlebt hat, in diesem Colab-Notebook, das CSV- und Excel-Uploads enthält:

hashtagReduzieren Sie die Lernrate, wenn Sie den Feinabstimmungsprozess verlangsamen, aber höchstwahrscheinlich zu einem genaueren Ergebnis konvergieren möchten. Wir empfehlen normalerweise 2e-4, 1e-4, 5e-5, 2e-5 als Werte zum Ausprobieren.

hashtagWenn Sie möchten, dass das Modell längere Antworten ausgibt, setzen Sie

hashtagNach dem Speichern des Modells können wir erneut Unsloth verwenden, um das Modell selbst auszuführen! Verwenden Sie

hashtagsubprocess Modell-Datei weil Colab asynchrone Aufrufe nicht mag, normalerweise startet man jedoch einfach

hashtagDer Trick, den Unsloth bietet, ist, dass wir automatisch eine

hashtaggenerierte wie unten drucken:

hashtagDann müssen Sie möglicherweise zweimal ENTER drücken, um einige seltsame Ausgaben im Terminalfenster zu entfernen. Warten Sie ein paar Sekunden und geben Sie ein

1. Was ist Unsloth?

Sie müssen sich außerdem in Ihr Google-Konto einloggen!

2. Was ist Ollama?

3. Installieren Sie Unsloth

4. Auswahl eines Modells zum Feinabstimmen

5. Parameter für die Feinabstimmung

6. Alpaca-Datensatz

7. Mehrere Spalten für die Feinabstimmung

Sein Alter ist 18. Sein Fahrpreis ist $7.25.

Funktion, um das Dataset in ein korrektes Format für die Feinabstimmung zu bringen! Rufen Sie dies immer auf!

Oder in der Titanic-Vorhersageaufgabe, bei der Sie vorhersagen mussten, ob ein Passagier gestorben oder überlebt hat, in diesem Colab-Notebook, das CSV- und Excel-Uploads enthält:

Reduzieren Sie die Lernrate, wenn Sie den Feinabstimmungsprozess verlangsamen, aber höchstwahrscheinlich zu einem genaueren Ergebnis konvergieren möchten. Wir empfehlen normalerweise 2e-4, 1e-4, 5e-5, 2e-5 als Werte zum Ausprobieren.

Wenn Sie möchten, dass das Modell längere Antworten ausgibt, setzen Sie

Nach dem Speichern des Modells können wir erneut Unsloth verwenden, um das Modell selbst auszuführen! Verwenden Sie

subprocess `Modell-Datei` weil Colab asynchrone Aufrufe nicht mag, normalerweise startet man jedoch einfach

Der Trick, den Unsloth bietet, ist, dass wir automatisch eine

generierte wie unten drucken:

Dann müssen Sie möglicherweise zweimal ENTER drücken, um einige seltsame Ausgaben im Terminalfenster zu entfernen. Warten Sie ein paar Sekunden und geben Sie ein