# FAQ + ファインチューニングは自分に適している？

## ファインチューニングの理解

LLMをファインチューニングすることで、その振る舞いをカスタマイズし、ドメイン知識を深め、特定のタスク向けに性能を最適化できます。事前学習済みモデル（例： *Llama-3.1-8B*）を専門化されたデータで調整することで、次のことが可能になります：

* **知識の更新** – ベースモデルが元々含んでいなかった新しいドメイン固有の情報を導入する。
* **振る舞いのカスタマイズ** – モデルのトーン、パーソナリティ、応答スタイルを特定のニーズやブランドの声に合わせて調整する。
* **タスクへの最適化** – ユースケースが要求する特定のタスクやクエリに対する精度と関連性を向上させる。

ファインチューニングは、汎用モデルから専門家を作り出すようなものだと考えてください。RAG（Retrieval-Augmented Generation）を使うべきかファインチューニングを使うべきか議論されることがありますが、ファインチューニングはRAGでは不可能な形で知識や振る舞いをモデル内部に直接組み込むことができます。実際には、両方のアプローチを組み合わせることで最良の結果が得られ、精度向上、使いやすさの改善、そして幻覚（hallucination）の減少につながります。

### ファインチューニングの実世界での応用

ファインチューニングはさまざまなドメインやニーズに適用できます。以下はいくつかの実用的な例です：

* **金融向けセンチメント分析** – ニュース見出しが企業にとってプラスかマイナスかを判断するようにLLMを訓練し、金融コンテキストに特化した理解を持たせる。
* **カスタマーサポートチャットボット** – 過去の顧客対応データでファインチューニングして、企業のスタイルや用語に沿った、より正確でパーソナライズされた応答を提供する。
* **法的文書支援** – 契約書、判例、規制といった法的テキストでファインチューニングし、契約分析、判例調査、コンプライアンス支援などで正確な法的表現を使えるようにする。

## ファインチューニングの利点

ファインチューニングは、ベースモデルや純粋な検索ベースのシステムでは得られないいくつかの顕著な利点を提供します：

#### ファインチューニングとRAG：違いは何か？

ファインチューニングはRAGができるほとんどのことを行えますが、逆は必ずしも真ではありません。トレーニング中にファインチューニングは外部の知識をモデル内部に直接埋め込みます。これにより、ニッチなクエリの処理、文書の要約、外部の検索システムに頼らずにコンテキストを維持することが可能になります。とはいえ、RAGにも利点があり、外部データベースから最新の情報にアクセスする点で優れています。ファインチューニングでも新しいデータを取り扱うことは可能ですが、効率のためにはRAGとファインチューニングを組み合わせるのが望ましいです。

#### タスク固有の習熟

ファインチューニングはドメイン知識をモデルに深く統合します。これにより、構造化された繰り返しの多い問いや微妙なニュアンスを含むクエリの処理に非常に効果的になり、RAG単独のシステムが苦手とする場面で強みを発揮します。つまり、ファインチューニングされたモデルは訓練されたタスクやコンテンツの専門家になります。

#### 検索依存からの独立

ファインチューニングされたモデルは推論時に外部データソースに依存しません。接続された検索システムが故障したり不完全であっても、必要な情報がモデル自身のパラメータ内にあるため信頼性が保たれます。この自己完結性は本番環境での故障点を減らします。

#### 高速な応答

ファインチューニングされたモデルは生成時に外部の知識ベースを呼び出す必要がありません。検索ステップを飛ばすことでより速く回答を生成できます。この速度は時間が重要なアプリケーションにおいて大きな利点です。

#### 挙動とトーンのカスタマイズ

ファインチューニングにより、モデルのコミュニケーション方法を精密に制御できます。これにより、モデルの応答がブランドの声と一貫性を保ち、規制要件に従い、特定のトーンの好みに合うようになります。モデルは単に *何を* 言うかだけでなく、 *どのように* 望ましいスタイルでそれを言うかまで備えます。

#### 信頼性のある性能

ファインチューニングとRAGの両方を用いるハイブリッド構成でも、ファインチューニングされたモデルは信頼できるバックアップを提供します。検索コンポーネントが正しい情報を見つけられない、あるいは誤ったデータを返す場合でも、モデル内蔵の知識は有用な回答を生成できます。これによりシステムの一貫性と堅牢性が保証されます。

## よくある誤解

ファインチューニングの利点にもかかわらず、いくつかの誤解が残っています。ここではファインチューニングに関する最も一般的な誤解のうち二つに対処します：

### ファインチューニングはモデルに新しい知識を追加するのか？

**はい—絶対に可能です。** ファインチューニングが新しい知識を導入しないという誤解がありますが、実際には導入します。あなたのファインチューニングデータセットに新しいドメイン固有の情報が含まれていれば、モデルはトレーニング中にその内容を学習し、応答に取り入れます。実質的に、ファインチューニングは *でき、そして実際に* モデルに新しい事実やパターンを一から教えます。

### RAGは常にファインチューニングより優れているのか？

**必ずしもそうではありません。** 多くの人はRAGが常にファインチューニング済みモデルより優れると考えますが、これはファインチューニングが適切に行われた場合には当てはまりません。実際、十分にチューニングされたモデルは専門的なタスクでRAGベースのシステムに匹敵するか、上回ることがよくあります。「RAGが常に優れている」という主張は、例えば不適切な [LoRAパラメータ](https://unsloth.ai/docs/jp/meru/fine-tuning-llms-guide/lora-hyperparameters-guide) や不十分な学習など、最適に構成されていないファインチューニングの試みに起因することが多いです。

Unslothはこれらの複雑さを解決し、最適なパラメータ構成を自動的に選択します。あなたが用意するのは質の高いデータセットだけで、最大の性能を発揮するファインチューニング済みモデルが得られます。

### ファインチューニングは高価ですか？

**まったくそんなことはありません！** フルファインチューニングや事前学習はコストがかかる場合がありますが、これらは必ずしも必要ではありません（特に事前学習は必要ありません）。多くの場合、LoRAやQLoRAによるファインチューニングは最小限の費用で行えます。実際、Unslothの [無料ノートブック](https://docs.unsloth.ai/get-started/unsloth-notebooks) （ColabやKaggle向け）を使えば、一銭も使わずにモデルをファインチューニングできます。さらに、自分のローカル環境でファインチューニングすることも可能です。

## よくある質問：

### なぜRAGとファインチューニングを組み合わせるべきか

RAGとファインチューニングのどちらかを選ぶ代わりに、 **両方** を組み合わせて使うことを検討してください。検索システムとファインチューニング済みモデルを組み合わせることで、それぞれのアプローチの強みを引き出せます。理由は次の通りです：

* **タスク固有の専門知識** – ファインチューニングは専門的なタスクやフォーマットに優れ（モデルを特定分野の専門家にする）、一方でRAGは最新の外部知識をモデルに取り入れ続けます。
* **適応性の向上** – 検索コンポーネントが失敗したり不完全な情報を返した場合でも、ファインチューニング済みモデルは有用な回答を与えることができます。一方でRAGは、新しいデータごとにモデルを再学習する必要なくシステムを最新の状態に保ちます。
* **効率性** – ファインチューニングはモデル内部に強固な基礎知識を提供し、RAGは動的で急速に変化する詳細を取り扱います。これにより効率的なワークフローが構築され、総合的な計算コストが削減されます。

### LoRAとQLoRA：どちらを使うべきか？

ファインチューニングを実装する際、計算量とメモリ要件を大幅に削減できる二つの一般的な手法があります： **LoRA** および **QLoRA**。以下はそれぞれの簡単な比較です：

* **LoRA（低ランク適応）** – 追加の少数の「アダプタ」重み行列のみ（16ビット精度で）をファインチューニングし、元のモデルの大部分は変更しません。これによりトレーニング中に更新が必要なパラメータ数が大幅に減ります。
* **QLoRA（量子化LoRA）** – モデル重みの4ビット量子化とLoRAを組み合わせることで、最小限のハードウェアで非常に大きなモデルの効率的なファインチューニングを可能にします。4ビット精度を可能な箇所で使用することで、メモリ使用量と計算オーバーヘッドを劇的に減らします。

当社は **QLoRA**、これは最も効率的かつアクセスしやすい方法の一つです。Unslothの [動的4ビット](https://unsloth.ai/blog/dynamic-4bit) 量子化により、標準的な16ビットLoRAファインチューニングと比較して精度損失はほとんど無視できるレベルになっています。

### 実験が重要

ファインチューニングにおいて唯一の「最良」のアプローチは存在しません—シナリオに応じたベストプラクティスがあるだけです。データセットとユースケースに最適な方法と設定を見つけるために、さまざまな手法や構成を試すことが重要です。良い出発点は **QLoRA（4ビット）**、計算資源をあまり必要とせずコスト効率の高いモデルファインチューニングの方法を提供します。

{% content-ref url="../fine-tuning-llms-guide/lora-hyperparameters-guide" %}
[lora-hyperparameters-guide](https://unsloth.ai/docs/jp/meru/fine-tuning-llms-guide/lora-hyperparameters-guide)
{% endcontent-ref %}


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/jp/meru/fine-tuning-for-beginners/faq-+-is-fine-tuning-right-for-me.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
