🦥Unsloth ドキュメント

Unsloth を使って独自のモデルをトレーニングしましょう。Unsloth は LLM のファインチューニングと強化学習のためのオープンソースフレームワークです。

Unslothの使命は、AIを可能な限り正確かつ利用しやすくすることです。DeepSeek、gpt-oss、Llama、TTS、Qwen、GemmaなどのLLMを、VRAMを70%削減して2倍速くトレーニングおよびデプロイします。

ドキュメントはローカルで自分のモデルを実行およびトレーニングする手順を案内します。

始める 当社のGitHub

🦥 なぜUnslothなのか?

⭐ 主な特徴

  • サポート フルファインチューニング、事前学習、4ビット、16ビット、8ビットのトレーニングをサポートします。

  • サポート あらゆるタイプのモデル: TTS、arrow-up-right 埋め込み, マルチモーダル、その他。

  • 最も効率的な 強化学習 ライブラリで、VRAMを80%削減して動作します。GRPO、GSPOなどをサポートします。

  • 精度の損失0% - 量子化や近似手法は使用せず、すべて正確です。

  • マルチGPU 既に動作しますが、より良いバージョンが来ます!

クイックスタート

UnslothはLinux、 Windows, NVIDIA、 AMD & Intelをご覧ください: Unsloth の要件

ローカルにpipでインストール(推奨) LinuxまたはWSLデバイス向け:

公式の Dockerイメージ: unsloth/unsloth。当社の Dockerガイド.

Windowsのインストール手順については、次を参照してください ここ.

新しいモデル

ファインチューニングと強化学習とは何か?なぜ行うのか?

ファインチューニング LLMは その振る舞いをカスタマイズし、ドメイン知識を強化し、特定のタスクに対する性能を最適化します。事前学習済みモデル(例:Llama-3.1-8B)をデータセットでファインチューニングすることで、次のことが可能になります:

  • 知識を更新:新しいドメイン固有の情報を導入します。

  • 振る舞いをカスタマイズ:モデルの口調、性格、応答スタイルを調整します。

  • タスクに最適化:特定のユースケースに対する精度や関連性を向上させます。

強化学習(RL) とは、エージェントが環境と相互作用し、 フィードバック の形で 報酬罰則.

  • 行動: モデルが生成するもの(例:文)。

  • 報酬: モデルの行動がどれだけ良かったか悪かったかを示す信号(例:応答が指示に従ったか、有益だったか)。

  • 環境: モデルが取り組んでいるシナリオやタスク(例:ユーザーの質問に答える)。

ファインチューニングまたはRLの使用例:

  • ヘッドラインが企業にとって好影響か悪影響かをLLMに予測させることができます。

  • より正確でカスタムな応答のために過去の顧客対話を利用できます。

  • 契約分析、判例調査、コンプライアンスのために法務文書でLLMをファインチューニングします。

ファインチューニングされたモデルは、特定のタスクをより効果的かつ効率的に行うよう設計された専門的なエージェントと考えることができます。 ファインチューニングはRAGのすべての機能を再現できます、しかしその逆はできません。

最終更新

役に立ちましたか?