hat-chefUnsloth Data Recipes

Lerne, wie man Datensätze mit den Data Recipes von Unsloth Studio erstellt, aufbaut und bearbeitet.

Unsloth Studios Data Recipes ermöglicht Ihnen das Hochladen von Dokumenten wie PDFs oder CSV-Dateien und wandelt diese in brauchbare / synthetische Datensätze um. Erstellen und bearbeiten Sie Datensätze visuell über einen Graph-Knoten-Workflow. Dieser Leitfaden bringt Ihnen die Grundlagen bei, bevor Sie in Unsloth Data Recipes einsteigen.

Wie Data Recipes funktioniert

Data Recipes folgt dem gleichen grundlegenden Ablauf. Sie öffnen die Rezepte-Seite, erstellen oder wählen ein Rezept aus, bauen den Workflow im Editor auf, validieren ihn, führen eine Vorschau aus und starten dann den vollständigen Datensatzlauf, sobald die Ausgabe richtig aussieht. Fügen Sie Seed-Daten und Generierungsblöcke hinzu, validieren Sie den Workflow, sehen Sie sich eine Beispielausgabe an und führen Sie dann einen vollständigen Datensatzaufbau aus. Unsloth Data Recipes wird betrieben von NVIDIA DataDesignerarrow-up-right.

Beispiel zum Generieren eines Datensatzes und Feinabstimmen eines Modells

Auf einen Blick sollte ein üblicher Workflow so aussehen:

  1. Öffnen Sie die Rezepte-Seite.

  2. Erstellen Sie ein neues Rezept oder öffnen Sie ein bestehendes.

  3. Fügen Sie Blöcke hinzu, um Ihren Datensatz-Workflow zu definieren.

  4. Klicken Sie Validieren um Konfigurationsprobleme frühzeitig zu erkennen.

  5. Führen Sie eine Vorschau aus, um Beispielzeilen schnell zu überprüfen.

  6. Führen Sie einen vollständigen Datensatzaufbau durch, wenn das Rezept fertig ist.

  7. Überprüfen Sie Fortschritt und Ausgabe live im Graph oder in Ausführungen Ansicht für weitere Details.

  8. Wählen Sie den resultierenden Datensatz in Studio aus und stimmen Sie ein Modell fein ab.

Erste Schritte

Die Rezepte-Seite ist der Haupteinstiegspunkt. Rezepte werden lokal im Browser gespeichert, sodass Sie später zu gespeicherter Arbeit zurückkehren können. Von hier aus können Sie ein leeres Rezept erstellen oder ein Lern-Rezept öffnen.

circle-info

Rezepte können exportiert und importiert werden, sodass es einfach ist, Workflows mit anderen Unsloth-Benutzern zu teilen 🎉. Wenn Sie versuchen, ein bestimmtes Datensatzmuster zu erstellen, fragen Sie im Unsloth Discord. Jemand hat möglicherweise bereits ein Rezept, das er teilen kann.

Rezepte-Landingpage

Wenn Sie neu im Konzept von Workflows sind, sind Lernrezepte der schnellste Weg, um zu sehen, wie Seed-Daten, Prompts, Ausdrücke und Validatoren in einem funktionierenden Beispiel zusammenpassen. Wenn Sie bereits die Form des gewünschten Datensatzes kennen, ist es normalerweise schneller, leer zu beginnen.

Wählen Sie einen Startpfad

Wenn Sie möchten:
Beginnen mit:

Schnell einen benutzerdefinierten Workflow erstellen

Leer beginnen

Das Produkt anhand eines Beispiels kennenlernen

Mit Lernrezept beginnen

Vorherige Arbeit fortsetzen

Ein gespeichertes Rezept öffnen

Was Sie im Editor bauen

Der Editor ist der Ort, an dem das Rezept Gestalt annimmt. Sie fügen Blöcke aus dem Block-Sheet hinzu, konfigurieren sie in Dialogen, verbinden sie auf der Leinwand und validieren oder führen dann den Workflow aus.

Beispiel zum Erstellen eines Produktbeschreibungs-Workflows

Der Editor hat einige Kernbestandteile:

  • Der Rezept-Header, wo Sie das Rezept umbenennen und zwischen Editor und Ausführungen

  • Die Leinwand, auf der der Rezept-Graph angezeigt wird

  • Das Block-Sheet, in dem Sie neue Blöcke hinzufügen

  • Konfigurationsdialoge, in denen Sie Prompts, Verweise, Modell-Aliasnamen, Validatoren und Seed-Einstellungen definieren.

  • Das schwebende Ausführen und Validieren Steuerungen

  • müssen hier noch mehr hinzugefügt werden

Die häufigsten Blöcke im Rezept sind:

  • Seed für Eingabedaten von Hugging Face, lokalen strukturierten Dateien (oder unstrukturierten Dokumenten, die in Zeilen aufgeteilt werden).

  • LLM + Modelle für Anbieter, Modellkonfigurationen, LLM-Generierungsblöcke und geteilte Tool-Profile.

  • Expression für Jinja2-basierte Transformationen, die keinen LLM-Aufruf erfordern.

  • Validatoren zum Filtern schlecht generierten Codes mit eingebauten Linter für Python, SQL und Javascript/Typescript.

  • Sampler für deterministische Spalten wie Kategorien und Unterkategorien.

Wie Referenzen funktionieren

Die meisten Blöcke, die Daten erzeugen (mit einigen Ausnahmen), werden zu einer Referenz für spätere Blöcke. Das ist eine der Hauptideen hinter Data Recipes. Sie erstellen einen Wert einmal und verwenden ihn dann wieder in Prompts, Ausdrücken, strukturierten Ausgaben und Validierungsschritten.

circle-info

Jinja-Ausdrücke helfen Ihnen, mit Werten zu arbeiten, die bereits im Rezept existieren. Sie können verschachtelte Felder referenzieren wie {{customer.first_name}} , Werte zusammenfügen wie {{customer.first_name}} {{customer.last_name}} und bedingte Logik mit Mustern hinzufügen wie {% if condition %}...{% endif %}

Beispiel für Referenzen, die im Editor angezeigt werden

Zum Beispiel:

  • Ein Kategorieblock namens domain kann referenziert werden als {{ domain }}

  • eine Seed-Spalte kann direkt in einem LLM-Prompt verwendet werden, die Spalten in Ihren Seed-Daten (z. B. HF-Dataset-Spalten, CSV)

  • eine strukturierte LLM-Ausgabe kann Felder für spätere Prompts offenlegen

  • ein Expressions-Block kann frühere Werte ohne weiteren Modellaufruf kombinieren

Was passiert danach?

Vorschau-Läufe dienen der schnellen Iteration. Sie liefern Beispielzeilen und Analysen im Editor, sodass Sie die generierten Daten überprüfen können, bevor Sie sich für einen vollständigen Lauf entscheiden.

Vollständige Läufe erzeugen ein persistent gespeichertes lokales Datensatz-Artefakt. Diese Ausgabe erscheint später im lokalen Datensatz-Auswahlwerkzeug von Studio, wo Sie sie erneut prüfen und für Feinabstimmungen verwenden können. Optional können Sie Ihren Datensatz in Ihrem Hugging Face-Repository veröffentlichen.

Kernbausteine

Kernbausteine
Modell- und LLM-Blöcke

Die Modellerstellung ist in zwei nutzbare Ebenen unterteilt:

  • Modellanbieter definiert den Endpunkt und die Authentifizierung

  • Modellkonfiguration definiert den Modellnamen und Inferenz-Einstellungen

Diese Einrichtung funktioniert mit gehosteten Anbietern, selbstgehosteten Endpunkten, vLLM , llama.cpp oder jeder OpenAI-kompatiblen API, die Sie außerhalb von Studio betreiben.

circle-info

Rezepte sind nicht auf ein Modell beschränkt. Sie können mehrere Modellanbieter und Modellkonfiguration Blöcke hinzufügen und dann verschiedene Modelle für unterschiedliche Schritte verwenden, z. B. eines für Codierung und ein anderes für allgemeine Textaufgaben.

Nach der Modelleinrichtung können Sie vier LLM-Blocktypen verwenden:

Block
Ausgabe
Am besten für

LLM Text

Freier Text

Anweisungen, Erklärungen, Konversationen und Beschreibungen

LLM Strukturiert

JSON

Ausgabe, die feste Felder und vorhersehbare Struktur benötigt

LLM Code

Code

Python-, SQL-, Typescript- und andere Codegenerierungsaufgaben

LLM Judge

Bewertete Evaluation

Bewertung von Ausgaben mit einem oder mehreren benutzerdefinierten Scores

Tool-Profile

Tool-Profile-Blöcke definieren gemeinsamen MCP-basierten Tool-Zugriff für einen oder mehrere LLM-Blöcke. Verwenden Sie sie, wenn ein Generierungsschritt Werkzeuge benötigt, z. B. um Code-Dokumentation über Context7.

Das Bild links zeigt Context7 MCP, das im Tool-Profile-Block-Dialog hinzugefügt und konfiguriert wurde:

Validatoren

Der Validator-Block zielt primär auf LLM-Codeblöcke ab, indem er generierte Codeausgaben durch Linter und Syntaxvalidierung laufen lässt. Dies hilft Ihnen, schlechte oder ungültige Codezeilen aus dem endgültigen Datensatz herauszufiltern. Die eingebauten Optionen decken die Validierung von Python, SQL und JavaScript/TypeScript ab.

Validieren, Vorschau und Ausführen

Sobald der Rezept-Workflow steht, ist der nächste Schritt die Ausführung. Das empfohlene Muster ist: zuerst validieren, für schnelles Feedback eine Vorschau ausführen und die generierten Daten in der Ausführungsansicht prüfen, dann den vollständigen Datensatz ausführen, wenn Sie das Gefühl haben, dass die Ausgabe Ihren Vorstellungen entspricht.

Verwenden Sie die Ausführungssteuerungen in folgender Reihenfolge:

1

Validieren

Klicken Sie Validieren um Konfigurationsprobleme zu erkennen.

2

Vorschau

Führen Sie eine Vorschau aus, um Beispielzeilen und Analysen zu überprüfen

3

Verfeinern

Verfeinern Sie Prompts, Referenzen, Seed-Einstellungen oder Validatoren.

Iterieren Sie, bis Sie mit den generierten Daten zufrieden sind

4

Führen Sie den vollständigen Datensatzaufbau durch

Zuletzt aktualisiert

War das hilfreich?