🦥Unsloth ドキュメント

Unsloth を使って独自のモデルをトレーニングしましょう。Unsloth は LLM のファインチューニングと強化学習のためのオープンソースフレームワークです。

Unslothでは、AIをできるだけ正確かつ利用しやすくすることを使命としています。DeepSeek、gpt-oss、Llama、TTS、Qwen、GemmaなどのLLMを、VRAMを70%削減して2倍速く学習・デプロイできます。

ドキュメントではローカルで独自のモデルを実行・学習する方法を案内します。

始める 当社のGitHub

🦥 なぜUnsloth?

⭐ 主な機能

  • サポート: フルファインチューニング、事前学習、4ビット、16ビット、8ビット学習をサポートします。

  • サポート: あらゆる種類のモデル: TTS、arrow-up-right 埋め込み, マルチモーダル、その他。

  • 最も効率的な 強化学習 ライブラリで、VRAMを80%節約します。GRPO、GSPOなどをサポートします。

  • 精度の損失0% — 量子化や近似手法は使わず、すべて正確です。

  • マルチGPU すでに動作しますが、より良いバージョンがまもなく登場します!

クイックスタート

UnslothはLinux、 Windows, NVIDIA、 AMD & Intelをご利用いただけます。参照: Unsloth の要件

ローカルにpipでインストール(推奨) LinuxまたはWSLデバイス向け:

公式の Dockerイメージ: unsloth/unslothを使用してください。私たちの Dockerガイド.

Windowsのインストール手順については、 こちら.

新しいモデル

ファインチューニングとRLとは?なぜ行うのか?

ファインチューニング とはLLMが その振る舞いをカスタマイズし、ドメイン知識を強化し、特定のタスク向けに性能を最適化することです。例えば事前学習済みモデル(例:Llama-3.1-8B)をデータセットでファインチューニングすることで、次のことができます:

  • 知識の更新:新しいドメイン固有の情報を導入します。

  • 振る舞いのカスタマイズ:モデルの口調、人格、応答スタイルを調整します。

  • タスク向けの最適化:特定のユースケースに対する精度と関連性を向上させます。

強化学習(RL) とは、「エージェント」が環境と相互作用し、 フィードバック の形で 報酬 または ペナルティ.

  • を受けて意思決定を学ぶことです。 行動:

  • モデルが生成するもの(例:文)。 報酬:

  • モデルの行動が良いか悪いかを示す信号(例:応答が指示に従っていたか?役に立ったか?)。 環境:

モデルが取り組んでいるシナリオやタスク(例:ユーザーの質問に答える)。:

  • ファインチューニングやRLの例となるユースケース

  • 見出しが企業にとって肯定的か否定的かを予測するようLLMを可能にします。

  • 過去の顧客とのやり取りを使用して、より正確でカスタムな応答を行うことができます。

契約分析、判例調査、コンプライアンスのために法律文書でLLMをファインチューニングします。 ファインチューニングされたモデルは、特定のタスクをより効果的かつ効率的に実行するために設計された専門的なエージェントと考えることができます。ファインチューニングはRAGの機能をすべて再現できますが、その逆はできません。

最終更新

役に立ちましたか?