Unsloth Data Recipes
Lerne, wie man Datensätze mit den Data Recipes von Unsloth Studio erstellt, aufbaut und bearbeitet.
Unsloth Studios Data Recipes ermöglicht Ihnen das Hochladen von Dokumenten wie PDFs oder CSV-Dateien und wandelt diese in brauchbare / synthetische Datensätze um. Erstellen und bearbeiten Sie Datensätze visuell über einen Graph-Knoten-Workflow. Dieser Leitfaden bringt Ihnen die Grundlagen bei, bevor Sie in Unsloth Data Recipes einsteigen.

Wie Data Recipes funktioniert
Data Recipes folgt dem gleichen grundlegenden Ablauf. Sie öffnen die Rezepte-Seite, erstellen oder wählen ein Rezept aus, bauen den Workflow im Editor auf, validieren ihn, führen eine Vorschau aus und starten dann den vollständigen Datensatzlauf, sobald die Ausgabe richtig aussieht. Fügen Sie Seed-Daten und Generierungsblöcke hinzu, validieren Sie den Workflow, sehen Sie sich eine Beispielausgabe an und führen Sie dann einen vollständigen Datensatzaufbau aus. Unsloth Data Recipes wird betrieben von NVIDIA DataDesigner.

Auf einen Blick sollte ein üblicher Workflow so aussehen:
Öffnen Sie die Rezepte-Seite.
Erstellen Sie ein neues Rezept oder öffnen Sie ein bestehendes.
Fügen Sie Blöcke hinzu, um Ihren Datensatz-Workflow zu definieren.
Klicken Sie Validieren um Konfigurationsprobleme frühzeitig zu erkennen.
Führen Sie eine Vorschau aus, um Beispielzeilen schnell zu überprüfen.
Führen Sie einen vollständigen Datensatzaufbau durch, wenn das Rezept fertig ist.
Überprüfen Sie Fortschritt und Ausgabe live im Graph oder in Ausführungen Ansicht für weitere Details.
Wählen Sie den resultierenden Datensatz in Studio aus und stimmen Sie ein Modell fein ab.
Erste Schritte
Die Rezepte-Seite ist der Haupteinstiegspunkt. Rezepte werden lokal im Browser gespeichert, sodass Sie später zu gespeicherter Arbeit zurückkehren können. Von hier aus können Sie ein leeres Rezept erstellen oder ein Lern-Rezept öffnen.
Rezepte können exportiert und importiert werden, sodass es einfach ist, Workflows mit anderen Unsloth-Benutzern zu teilen 🎉. Wenn Sie versuchen, ein bestimmtes Datensatzmuster zu erstellen, fragen Sie im Unsloth Discord. Jemand hat möglicherweise bereits ein Rezept, das er teilen kann.

Wenn Sie neu im Konzept von Workflows sind, sind Lernrezepte der schnellste Weg, um zu sehen, wie Seed-Daten, Prompts, Ausdrücke und Validatoren in einem funktionierenden Beispiel zusammenpassen. Wenn Sie bereits die Form des gewünschten Datensatzes kennen, ist es normalerweise schneller, leer zu beginnen.
Wählen Sie einen Startpfad
Schnell einen benutzerdefinierten Workflow erstellen
Leer beginnen
Das Produkt anhand eines Beispiels kennenlernen
Mit Lernrezept beginnen
Vorherige Arbeit fortsetzen
Ein gespeichertes Rezept öffnen
Was Sie im Editor bauen
Der Editor ist der Ort, an dem das Rezept Gestalt annimmt. Sie fügen Blöcke aus dem Block-Sheet hinzu, konfigurieren sie in Dialogen, verbinden sie auf der Leinwand und validieren oder führen dann den Workflow aus.

Der Editor hat einige Kernbestandteile:
Der Rezept-Header, wo Sie das Rezept umbenennen und zwischen Editor und Ausführungen
Die Leinwand, auf der der Rezept-Graph angezeigt wird
Das Block-Sheet, in dem Sie neue Blöcke hinzufügen
Konfigurationsdialoge, in denen Sie Prompts, Verweise, Modell-Aliasnamen, Validatoren und Seed-Einstellungen definieren.
Das schwebende Ausführen und Validieren Steuerungen
müssen hier noch mehr hinzugefügt werden
Die häufigsten Blöcke im Rezept sind:
Seed für Eingabedaten von Hugging Face, lokalen strukturierten Dateien (oder unstrukturierten Dokumenten, die in Zeilen aufgeteilt werden).
LLM + Modelle für Anbieter, Modellkonfigurationen, LLM-Generierungsblöcke und geteilte Tool-Profile.
Expression für Jinja2-basierte Transformationen, die keinen LLM-Aufruf erfordern.
Validatoren zum Filtern schlecht generierten Codes mit eingebauten Linter für Python, SQL und Javascript/Typescript.
Sampler für deterministische Spalten wie Kategorien und Unterkategorien.
Wie Referenzen funktionieren
Die meisten Blöcke, die Daten erzeugen (mit einigen Ausnahmen), werden zu einer Referenz für spätere Blöcke. Das ist eine der Hauptideen hinter Data Recipes. Sie erstellen einen Wert einmal und verwenden ihn dann wieder in Prompts, Ausdrücken, strukturierten Ausgaben und Validierungsschritten.
Jinja-Ausdrücke helfen Ihnen, mit Werten zu arbeiten, die bereits im Rezept existieren. Sie können verschachtelte Felder referenzieren wie {{customer.first_name}} , Werte zusammenfügen wie {{customer.first_name}} {{customer.last_name}} und bedingte Logik mit Mustern hinzufügen wie {% if condition %}...{% endif %}

Zum Beispiel:
Ein Kategorieblock namens
domainkann referenziert werden als{{ domain }}eine Seed-Spalte kann direkt in einem LLM-Prompt verwendet werden, die Spalten in Ihren Seed-Daten (z. B. HF-Dataset-Spalten, CSV)
eine strukturierte LLM-Ausgabe kann Felder für spätere Prompts offenlegen
ein Expressions-Block kann frühere Werte ohne weiteren Modellaufruf kombinieren
Was passiert danach?
Vorschau-Läufe dienen der schnellen Iteration. Sie liefern Beispielzeilen und Analysen im Editor, sodass Sie die generierten Daten überprüfen können, bevor Sie sich für einen vollständigen Lauf entscheiden.
Vollständige Läufe erzeugen ein persistent gespeichertes lokales Datensatz-Artefakt. Diese Ausgabe erscheint später im lokalen Datensatz-Auswahlwerkzeug von Studio, wo Sie sie erneut prüfen und für Feinabstimmungen verwenden können. Optional können Sie Ihren Datensatz in Ihrem Hugging Face-Repository veröffentlichen.
Kernbausteine


Die Modellerstellung ist in zwei nutzbare Ebenen unterteilt:
Modellanbieter definiert den Endpunkt und die Authentifizierung
Modellkonfiguration definiert den Modellnamen und Inferenz-Einstellungen
Diese Einrichtung funktioniert mit gehosteten Anbietern, selbstgehosteten Endpunkten, vLLM , llama.cpp oder jeder OpenAI-kompatiblen API, die Sie außerhalb von Studio betreiben.
Rezepte sind nicht auf ein Modell beschränkt. Sie können mehrere Modellanbieter und Modellkonfiguration Blöcke hinzufügen und dann verschiedene Modelle für unterschiedliche Schritte verwenden, z. B. eines für Codierung und ein anderes für allgemeine Textaufgaben.
Nach der Modelleinrichtung können Sie vier LLM-Blocktypen verwenden:
LLM Text
Freier Text
Anweisungen, Erklärungen, Konversationen und Beschreibungen
LLM Strukturiert
JSON
Ausgabe, die feste Felder und vorhersehbare Struktur benötigt
LLM Code
Code
Python-, SQL-, Typescript- und andere Codegenerierungsaufgaben
LLM Judge
Bewertete Evaluation
Bewertung von Ausgaben mit einem oder mehreren benutzerdefinierten Scores
Tool-Profile
Tool-Profile-Blöcke definieren gemeinsamen MCP-basierten Tool-Zugriff für einen oder mehrere LLM-Blöcke. Verwenden Sie sie, wenn ein Generierungsschritt Werkzeuge benötigt, z. B. um Code-Dokumentation über Context7.
Das Bild links zeigt Context7 MCP, das im Tool-Profile-Block-Dialog hinzugefügt und konfiguriert wurde:

Validatoren
Der Validator-Block zielt primär auf LLM-Codeblöcke ab, indem er generierte Codeausgaben durch Linter und Syntaxvalidierung laufen lässt. Dies hilft Ihnen, schlechte oder ungültige Codezeilen aus dem endgültigen Datensatz herauszufiltern. Die eingebauten Optionen decken die Validierung von Python, SQL und JavaScript/TypeScript ab.

Validieren, Vorschau und Ausführen
Sobald der Rezept-Workflow steht, ist der nächste Schritt die Ausführung. Das empfohlene Muster ist: zuerst validieren, für schnelles Feedback eine Vorschau ausführen und die generierten Daten in der Ausführungsansicht prüfen, dann den vollständigen Datensatz ausführen, wenn Sie das Gefühl haben, dass die Ausgabe Ihren Vorstellungen entspricht.
Verwenden Sie die Ausführungssteuerungen in folgender Reihenfolge:

Zuletzt aktualisiert
War das hilfreich?

