🦥Unsloth ドキュメント

Unsloth を使って独自のモデルをトレーニングしましょう。Unsloth は LLM のファインチューニングと強化学習のためのオープンソースフレームワークです。

Unslothの使命は、AIを可能な限り正確でアクセスしやすくすることです。DeepSeek、gpt-oss、Llama、TTS、Qwen、GemmaなどのLLMを70%少ないVRAMで2倍速く学習・デプロイできます。

当社のドキュメントは、ローカルで自分のモデルを実行・学習する方法を案内します。

始める 私たちのGitHub

🦥 なぜUnsloth?

⭐ 主な機能

  • サポートするのは フルファインチューニング、事前学習、4ビット、16ビット、8ビットのトレーニング。

  • サポートするのは あらゆるタイプのモデル: TTS、arrow-up-right 埋め込み, マルチモーダル、など。

  • 最も効率的な強化学習(RL)ライブラリで、80%少ないVRAMを使用します。GRPO、GSPOなどをサポートします。

  • 精度の損失0% — 量子化や近似手法は使用せず、すべて正確です。

  • マルチGPU すでに動作しますが、より良いバージョンが来ます!

  • UnslothはLinux、 Windows, WSL, NVIDIA そして AMD & Intelをサポートします。参照: Unsloth の要件

クイックスタート

ローカルにpipでインストール(推奨) LinuxまたはWSLデバイス向け:

公式の Dockerイメージ: unsloth/unslothを使用してください。私たちの Dockerガイド.

Windowsのインストール手順については、 こちら.

新着リリース

ファインチューニングとRLとは何か?なぜ行うのか?

ファインチューニング LLMは その挙動をカスタマイズし、ドメイン知識を強化し、特定のタスク向けに性能を最適化します。事前学習済みモデル(例:Llama-3.1-8B)をデータセットでファインチューニングすることで、以下が可能になります:

  • 知識の更新:新しいドメイン固有の情報を導入します。

  • 挙動のカスタマイズ:モデルの口調、性格、応答スタイルを調整します。

  • タスク向けの最適化:特定のユースケースに対する精度と関連性を向上させます。

強化学習(RL) は、エージェントが環境と相互作用し、 フィードバック報酬ペナルティ.

  • の形で受け取りながら意思決定を学ぶ手法です。 行動:

  • モデルが生成するもの(例:文)。 報酬:

  • 行動がどれだけ良かったか悪かったかを示す信号(例:応答は指示に従っていたか?役に立ったか?)。 環境:

モデルが取り組んでいるシナリオやタスク(例:ユーザーの質問に答えること)。:

  • ファインチューニングまたはRLの使用例

  • LLMが見出しが企業にとってポジティブかネガティブかを予測できるようになります。

  • 過去の顧客とのやり取りを利用して、より正確でカスタムな応答が可能になります。

契約分析、判例研究、コンプライアンスのために法務文書でLLMをファインチューニングできます。 ファインチューニングされたモデルは、特定のタスクをより効果的かつ効率的に実行するために設計された専門的なエージェントと考えることができます。ファインチューニングはRAGの機能をすべて再現できますが、逆はできません。

🤔FAQ + ファインチューニングは私に向いているか?chevron-right💡Reinforcement Learning Guidechevron-right

最終更新

役に立ちましたか?