🦥Unsloth ドキュメント

Unsloth を使って独自のモデルをトレーニングしましょう。Unsloth は LLM のファインチューニングと強化学習のためのオープンソースフレームワークです。

Unslothでは、AIをできるだけ正確でアクセスしやすくすることを使命としています。DeepSeek、gpt-oss、Llama、Qwen、Gemmaモデルを70%少ないVRAMで2倍速く実行および訓練できます。

当社のドキュメントは、ローカルで自分のモデルを実行および訓練する方法を案内します。

始める当社のGitHub

Cover

Qwen3.5

新しいQwen3.5のSmall＆Medium LLMが登場！

Cover

NVIDIA Nemotron-3-Super

NVIDIAによる新しい120Bハイブリッドモデルを実行します。

Cover

より高速なMoEが登場！

より少ないVRAMでMoE大規模言語モデルを12倍速く訓練します。

Cover

Claude Code & Codex

ClaudeとOpenAIを通じてローカルLLMの実行を学びます。

Cover

Qwen3-Coder-Next

新しい80Bのコーディングモデルを実行およびファインチューニングします。

Cover

GLM-4.7-Flash

エージェント的コーディングのための30Bモデルを実行およびファインチューニングします。

🧬Fine-tuning Guide 📒Unsloth ノートブック

🔮All Our Models 🚀Complete LLM Directory

🦥 なぜUnsloth？

私たちは次の背後にいるチームと直接協力しています gpt-oss, Qwen3, Llama 4, Mistral, Gemma 1–3 および Phi-4, そこで私たちは 重大なバグを修正しました それによりモデルの精度が大幅に向上しました。
Unslothは、Ollama、llama.cpp、vLLMを使ってローカルトレーニング、評価、デプロイを合理化します。
Unslothは500以上のモデルのトレーニングをサポートしています：ビジョン, TTS, 埋め込み, 強化学習柔軟なチャットテンプレート、データセットのフォーマット、およびすぐに使えるノートブックによりカスタマイズ可能な状態を維持します。

⭐ 主な機能

サポート： 完全なファインチューニング, 事前学習、4ビット、16ビットおよび8ビットでの訓練。
サポート： すべてのモデルタイプ: TTS、埋め込み, ビジョン、その他。
最も効率的な強化学習ライブラリで、80%少ないVRAMを使用します。GRPOをサポート、 FP8 など。
精度の損失0% - 量子化や近似手法は使いません - すべて正確です。
マルチGPU 既に動作しますが、より良いバージョンが来ます！

クイックスタート

UnslothはLinux、 Windows, NVIDIA, AMD & Intelをご確認ください： Unsloth の要件

ローカルにpipでインストール（推奨） LinuxまたはWSLデバイス向け：

公式の Dockerイメージを使用: unsloth/unsloth。当社の Dockerガイドをお読みください。.

Windowsのインストール手順については、こちらを参照してください.

📥Installation

新しいモデル

Cover

Kimi K2.5

Cover

MiniMax-M2.5

Cover

GLM-5

ファインチューニングと強化学習（RL）とは？なぜ行うのか？

ファインチューニング LLMはその振る舞いをカスタマイズし、ドメイン知識を強化し、特定のタスクに対する性能を最適化します。事前学習済みモデル（例：Llama-3.1-8B）をデータセットでファインチューニングすることにより、次のことができます：

知識の更新: 新しいドメイン固有の情報を導入する。
振る舞いのカスタマイズ: モデルの口調、性格、応答スタイルを調整する。
タスクへの最適化: 特定のユースケースに対する精度と関連性を向上させる。

強化学習（RL） は、エージェントが環境とやり取りし、 フィードバック という形で受け取ることで意思決定を学ぶ方法です。報酬または ペナルティ.

行動： モデルが生成するもの（例：文）。
報酬： モデルの行動がどれだけ良かったか悪かったかを示す信号（例：応答が指示に従っていたか、有用であったか）。
環境： モデルが取り組んでいるシナリオやタスク（例：ユーザーの質問に答えること）。

ファインチューニングやRLの例となるユースケース:

見出しが企業にとって好意的か否かをLLMが予測できるようにすることを可能にします。
過去の顧客とのやり取りを利用して、より正確でカスタムな応答を行えます。
契約分析、判例調査、コンプライアンスのために法的文書でLLMをファインチューニングします。

ファインチューニングされたモデルは、特定のタスクをより効果的かつ効率的に行うように設計された専門のエージェントと考えることができます。 ファインチューニングはRAGのすべての機能を再現できます, しかしその逆はできません。

🤔FAQ + ファインチューニングは私に向いているか？🖥️推論とデプロイ

💡Reinforcement Learning Guide 🦥Dynamic 2.0 GGUFs

次へBeginner? Start here!

最終更新 2 日前

役に立ちましたか？