🦥Unsloth ドキュメント

Unsloth を使って独自のモデルをトレーニングしましょう。Unsloth は LLM のファインチューニングと強化学習のためのオープンソースフレームワークです。

Unslothでは、AIをできるだけ正確かつ利用しやすくすることを使命としています。DeepSeek、gpt-oss、Llama、TTS、Qwen、GemmaなどのLLMを、VRAMを70%節約して2倍速くトレーニングおよびデプロイできます。

当社のドキュメントは、ローカルで独自のモデルを実行およびトレーニングする方法を案内します。

はじめる 当社のGitHub

🦥 なぜUnsloth?

⭐ 主な機能

  • サポートするのは フルファインチューニング、事前学習、4ビット、16ビット、8ビットのトレーニング。

  • サポートするのは すべてのモデルタイプ: TTS、arrow-up-right 埋め込み, マルチモーダル、など。

  • 最も効率的な 強化学習 ライブラリで、VRAMを80%節約して動作します。GRPO、GSPOなどをサポートします。

  • 精度の損失0% — 量子化や近似手法は使わず、すべて正確です。

  • マルチGPU すでに動作しますが、より良いバージョンが来る予定です!

クイックスタート

UnslothはLinuxをサポートしています、 Windows, NVIDIA、 AMD & Intel。参照: Unsloth の要件

ローカルにpipでインストール(推奨) LinuxまたはWSLデバイス向け:

公式の Dockerイメージ: unsloth/unsloth。当社の Dockerガイド.

Windowsのインストール手順については、こちらを参照してください こちら.

新しいモデル

ファインチューニングと強化学習とは?なぜ行うのか?

ファインチューニング LLMは その振る舞いをカスタマイズし、ドメイン知識を強化し、特定のタスクに対するパフォーマンスを最適化します。事前学習済みモデル(例:Llama-3.1-8B)をデータセットでファインチューニングすることで、あなたは:

  • 知識を更新する:新しいドメイン固有の情報を導入します。

  • 振る舞いをカスタマイズする:モデルの口調、性格、応答スタイルを調整します。

  • タスクに最適化する:特定のユースケースに対する精度と関連性を向上させます。

強化学習(RL) は、エージェントが環境と相互作用し、 フィードバック の形で受け取りながら意思決定を学ぶものです 報酬ペナルティ.

  • 行動: モデルが生成するもの(例:文)。

  • 報酬: モデルの行動が良いか悪いかを示す信号(例:応答が指示に従っていたか?役に立ったか?)。

  • 環境: モデルが取り組んでいるシナリオやタスク(例:ユーザーの質問に答える)。

ファインチューニングまたはRLの使用例:

  • ヘッドラインが企業にとって好影響か悪影響かを予測するようLLMに学習させることができます。

  • 過去の顧客とのやり取りを使用して、より正確でカスタムな応答を行えます。

  • 契約分析、判例調査、コンプライアンスのために法的文書でLLMをファインチューニングします。

ファインチューニングされたモデルは、特定のタスクをより効果的かつ効率的に実行するために設計された専門的なエージェントと考えることができます。 ファインチューニングはRAGの全ての機能を再現できます、しかしその逆はできません。

最終更新

役に立ちましたか?