🦥Unsloth ドキュメント

Unsloth を使って独自のモデルをトレーニングしましょう。Unsloth は LLM のファインチューニングと強化学習のためのオープンソースフレームワークです。

Unslothでは、AIをできるだけ正確でアクセスしやすくすることを使命としています。DeepSeek、gpt-oss、Llama、Qwen、Gemmaモデルを70%少ないVRAMで2倍速く実行および訓練できます。

当社のドキュメントは、ローカルで自分のモデルを実行および訓練する方法を案内します。

始める 当社のGitHub

🦥 なぜUnsloth?

  • 私たちは次の背後にいるチームと直接協力しています gpt-ossarrow-up-right, Qwen3arrow-up-right, Llama 4arrow-up-right, Mistral, Gemma 1–3arrow-up-right および Phi-4arrow-up-right, そこで私たちは 重大なバグを修正しました それによりモデルの精度が大幅に向上しました。

  • Unslothは、Ollama、llama.cpp、vLLMを使ってローカルトレーニング、評価、デプロイを合理化します。

  • Unslothは500以上のモデルのトレーニングをサポートしています: ビジョン, TTS, 埋め込み, 強化学習 柔軟なチャットテンプレート、データセットのフォーマット、およびすぐに使えるノートブックによりカスタマイズ可能な状態を維持します。

⭐ 主な機能

  • サポート: 完全なファインチューニング, 事前学習、4ビット、16ビットおよび8ビットでの訓練。

  • サポート: すべてのモデルタイプ: TTS、arrow-up-right 埋め込み, ビジョン、その他。

  • 最も効率的な 強化学習 ライブラリで、80%少ないVRAMを使用します。GRPOをサポート、 FP8 など。

  • 精度の損失0% - 量子化や近似手法は使いません - すべて正確です。

  • マルチGPU 既に動作しますが、より良いバージョンが来ます!

クイックスタート

UnslothはLinux、 Windows, NVIDIA, AMD & Intelをご確認ください: Unsloth の要件

ローカルにpipでインストール(推奨) LinuxまたはWSLデバイス向け:

公式の Dockerイメージを使用: unsloth/unsloth。当社の Dockerガイドをお読みください。.

Windowsのインストール手順については、 こちらを参照してください.

新しいモデル

ファインチューニングと強化学習(RL)とは?なぜ行うのか?

ファインチューニング LLMは その振る舞いをカスタマイズし、ドメイン知識を強化し、特定のタスクに対する性能を最適化します。事前学習済みモデル(例:Llama-3.1-8B)をデータセットでファインチューニングすることにより、次のことができます:

  • 知識の更新: 新しいドメイン固有の情報を導入する。

  • 振る舞いのカスタマイズ: モデルの口調、性格、応答スタイルを調整する。

  • タスクへの最適化: 特定のユースケースに対する精度と関連性を向上させる。

強化学習(RL) は、エージェントが環境とやり取りし、 フィードバック という形で受け取ることで意思決定を学ぶ方法です。 報酬 または ペナルティ.

  • 行動: モデルが生成するもの(例:文)。

  • 報酬: モデルの行動がどれだけ良かったか悪かったかを示す信号(例:応答が指示に従っていたか、有用であったか)。

  • 環境: モデルが取り組んでいるシナリオやタスク(例:ユーザーの質問に答えること)。

ファインチューニングやRLの例となるユースケース:

  • 見出しが企業にとって好意的か否かをLLMが予測できるようにすることを可能にします。

  • 過去の顧客とのやり取りを利用して、より正確でカスタムな応答を行えます。

  • 契約分析、判例調査、コンプライアンスのために法的文書でLLMをファインチューニングします。

ファインチューニングされたモデルは、特定のタスクをより効果的かつ効率的に行うように設計された専門のエージェントと考えることができます。 ファインチューニングはRAGのすべての機能を再現できます, しかしその逆はできません。

最終更新

役に立ちましたか?