Unsloth データレシピ

Unsloth Studio のデータレシピを使ってデータセットを作成・構築・編集する方法を学びます。

Unsloth Studio の Data Recipes では、PDF や CSV ファイルのような文書をアップロードし、それらを使える／合成データセットへ変換できます。グラフノードのワークフローを使って、データセットを視覚的に作成・編集します。このガイドでは、Unsloth Data Recipes に入る前に基本を学べるようにします。

Data Recipes の仕組み

Data Recipes は同じ基本的な流れに従います。レシピページを開き、レシピを作成または選択し、エディタでワークフローを構築し、検証してプレビューを実行し、出力が適切であればフルデータセットを実行します。シードデータと生成ブロックを追加し、ワークフローを検証し、サンプル出力をプレビューしてから、フルデータセットのビルドを実行します。Unsloth Data Recipes は NVIDIA Nemo Data Designer.

全体を見ると、通常のワークフローは次のようになります:

レシピページを開きます。
新しいレシピを作成するか、既存のものを開きます。
ブロックを追加して、データセットのワークフローを定義します。
をクリックします検証して、設定の問題を早期に見つけます。
プレビューを実行して、サンプル行をすばやく確認します。
レシピの準備ができたら、フルデータセットのビルドを実行します。
進捗と出力をグラフ上、または実行ビューでリアルタイムに確認し、詳細を見ます。
結果のデータセットを Studio で選択し、モデルをファインチューニングします。

始める

レシピページが主な入口です。レシピはブラウザ内にローカル保存されるため、保存した作業に後で戻れます。ここから、空のレシピを作成するか、ガイド付きの学習用レシピを開けます。

レシピはエクスポートとインポートができるので、他の Unsloth ユーザーとワークフローを簡単に共有できます 🎉。特定のデータセットパターンを作りたい場合は、Unsloth Discord で質問してください。すでに共有できるレシピを持っている人がいるかもしれません。

ワークフローの概念に慣れていないなら、学習用レシピが、シードデータ、プロンプト、式、バリデーターが 1 つの動く例でどう組み合わさるかを最速で理解できます。すでに欲しいデータセットの形が分かっているなら、最初から空で始める方が通常は早いです。

開始方法を選ぶ

もし次のことをしたいなら:

開始は:

_{カスタムワークフローをすばやく構築する}

_{空から開始}

_{例を通して製品を学ぶ}

_{学習用レシピから開始}

_{前回の作業を続ける}

_{保存済みレシピを開く}

エディタで作るもの

エディタはレシピが形になる場所です。ブロックシートからブロックを追加し、ダイアログで設定し、キャンバス上で接続してから、ワークフローを検証または実行します。

エディタにはいくつかの主要部分があります:

レシピヘッダー。ここでレシピ名を変更し、 エディタ と実行
キャンバス。レシピのグラフが表示されます
ブロックシート。新しいブロックを追加します
設定ダイアログ。プロンプト、参照、モデルエイリアス、バリデーター、シード設定を定義します。
フローティング実行と検証コントロール
ここにさらに追加する必要があります

レシピで最も一般的なブロックは次のとおりです:

シード Hugging Face の入力データ、ローカルの構造化ファイル、または行に分割される非構造化文書用。
LLM + モデル プロバイダー、モデル設定、LLM 生成ブロック、共有ツールプロファイル用。
式 LLM 呼び出しを必要としない、Jinja2 ベースの変換用。
バリデーター Python、SQL、JavaScript/TypeScript 用の組み込みリンターで、生成された不正なコードをフィルタリングするため。
サンプラー カテゴリやサブカテゴリのような決定的な列用。

参照の仕組み

データを生成するほとんどのブロックは（いくつかの例外を除き）後続ブロックの参照になります。これが Data Recipes の中心的な考え方の 1 つです。値を一度作成し、それをプロンプト、式、構造化出力、検証ステップで再利用します。

Jinja の式を使うと、すでにレシピ内に存在する値を扱えます。のようなネストしたフィールドを参照できます {{customer.first_name}} 、のように値を結合できます {{customer.first_name}} {{customer.last_name}} さらに、次のようなパターンで条件分岐ロジックを追加できます {% if condition %}...{% endif %}

たとえば:

というカテゴリブロック domain は次のように参照できます {{ domain }}
シード列は LLM プロンプトに直接使えます。シードデータ内の列（例: HF データセット列、csv）
構造化された LLM 出力は、後続のプロンプト用のフィールドを公開できます
式ブロックは、別のモデル呼び出しなしで前段の値を組み合わせられます

その後は？

プレビュー実行は、素早く反復するためのものです。サンプル行と分析結果をエディタに返すので、完全な実行に進む前に生成データを確認できます。

フル実行は、永続化されたローカルデータセットの成果物を作成します。その出力は後で Studio のローカルデータセットピッカーに表示され、再確認やファインチューニングに使えます。必要に応じて、データセットを Hugging Face リポジトリに公開することもできます。

基本構成要素

モデル設定は 2 つの使いやすい層に分かれています:

モデルプロバイダー エンドポイントと認証を定義します
モデル設定 モデル名と推論設定を定義します

この構成は、ホスト型プロバイダー、セルフホストのエンドポイント、 vLLM , llama.cpp 、または Studio の外で実行する OpenAI 互換 API ならどれでも使えます。

レシピは 1 つのモデルに限定されません。複数の モデルプロバイダー と モデル設定 ブロックを追加し、コーディング用と一般テキスト用のように、異なるステップで異なるモデルを使えます。

モデル設定の後は、4 種類の LLM ブロックを使えます:

ブロック

出力

最適用途

LLM テキスト

自由形式テキスト

指示、説明、会話、記述

LLM 構造化

JSON

固定フィールドと予測可能な構造が必要な出力

LLM コード

コード

Python、SQL、TypeScript、その他のコード生成タスク

LLM ジャッジ

スコア付き評価

1 つ以上のユーザー定義スコアで出力を採点する

ツールプロファイル

ツールプロファイルブロックは、1 つ以上の LLM ブロック向けに共有される MCP ベースのツールアクセスを定義します。たとえば、 Context7.

左の画像は、Tool Profile ブロックのダイアログで Context7 MCP が追加・設定されている様子を示しています:

バリデーター

バリデーターブロックは、生成されたコード出力をリンターと構文検証に通すことで、主に LLM コードブロックを対象にします。これにより、無効または不正なコード行を最終データセットから除外できるため、品質を保てます。組み込みオプションは Python、SQL、JavaScript/TypeScript の検証をカバーします。

検証、プレビュー、実行

レシピのワークフローが整ったら、次は実行です。推奨パターンは、まず検証し、次に素早いフィードバックのためにプレビューし、実行ビューで生成データを確認し、その後、出力が計画に合っていると感じたらフルデータセットを実行することです。

実行コントロールは次の順序で使います:

検証

をクリックします検証設定の問題を見つけるために。

プレビュー

サンプル行と分析を確認するためにプレビューを実行します

改善

プロンプト、参照、シード設定、またはバリデーターを改善します。

生成されたデータに満足できるまで反復します

フルデータセットのビルドを実行します

前へInstallation 次へModel Export

最終更新 12 日前

役に立ちましたか？

hashtagData Recipes の仕組み

hashtag始める

hashtag開始方法を選ぶ

hashtagエディタで作るもの

hashtag参照の仕組み

hashtagその後は？

hashtag基本構成要素

hashtagモデル設定は 2 つの使いやすい層に分かれています:

hashtagツールプロファイル

hashtagバリデーター

hashtag検証、プレビュー、実行

hashtag検証

hashtagプレビュー

hashtag改善

hashtagフルデータセットのビルドを実行します