# Anleitung zur Feinabstimmung von LLMs

## 1. Was ist Fine-Tuning?

Fine-Tuning / Training / Post-Training von Modellen passt deren Verhalten an, erweitert und injiziert Wissen und optimiert die Leistung für Domänen und spezifische Aufgaben. Zum Beispiel:

* OpenAIs **GPT-5** wurde nachtrainiert, um die Befolgung von Anweisungen und hilfreiches Chatverhalten zu verbessern.
* Die Standardmethode des Post-Trainings heißt Supervised Fine-Tuning (SFT). Andere Methoden umfassen Präferenzoptimierung (DPO, ORPO), Distillation und [Reinforcement Learning (RL)](/docs/de/los-gehts/reinforcement-learning-rl-guide.md) (GRPO, GSPO), wobei ein „Agent“ durch Interaktion mit einer Umgebung lernt, Entscheidungen zu treffen, und **Feedback** in Form von **Belohnungen** oder **Strafen**.

Mit [Unsloth](https://github.com/unslothai/unsloth)kannst du kostenlos auf Colab, Kaggle oder lokal mit nur 3 GB VRAM fine-tunen oder RL durchführen, indem du unsere [Notebooks](https://docs.unsloth.ai/get-started/unsloth-notebooks). Durch Fine-Tuning eines vortrainierten Modells auf einem Datensatz kannst du:

* **Wissen aktualisieren + neu erlernen**: Domänenspezifische Informationen injizieren und erlernen.
* **Verhalten anpassen**: Ton, Persönlichkeit oder Antwortstil des Modells anpassen.
* **Für Aufgaben optimieren**: Genauigkeit und Relevanz für bestimmte Anwendungsfälle verbessern.

**Beispielanwendungsfälle für Fine-Tuning oder RL**:

* Ermöglicht LLMs vorherzusagen, ob eine Schlagzeile ein Unternehmen positiv oder negativ beeinflusst.
* Kann historische Kundeninteraktionen für genauere und individuellere Antworten nutzen.
* Fine-Tune LLMs auf juristischen Texten für Vertragsanalyse, Recherche zu Rechtsprechung und Compliance.

Du kannst ein feinabgestimmtes Modell als spezialisierten Agenten betrachten, der bestimmte Aufgaben effektiver und effizienter ausführt. **Fine-Tuning kann alle Fähigkeiten von RAG replizieren**, aber nicht umgekehrt.

{% columns %}
{% column %}

#### :question:Was ist LoRA/QLoRA?

In LLMs haben wir Modellgewichte. Llama 70B hat 70 Milliarden Zahlen. Anstatt alle 70B Zahlen zu ändern, fügen wir dünne Matrizen A und B zu jedem Gewicht hinzu und optimieren diese. Das bedeutet, dass wir nur 1 % der Gewichte optimieren. LoRA ist, wenn das ursprüngliche Modell 16-Bit unquantisiert ist, während QLoRA auf 4-Bit quantisiert, um 75 % Speicher zu sparen.
{% endcolumn %}

{% column %}

<figure><img src="/files/3c6679c7d54e75332a4bf0b8e5885f6fc228addf" alt=""><figcaption><p>Anstatt die Modellgewichte (gelb) zu optimieren, optimieren wir 2 dünne Matrizen A und B.</p></figcaption></figure>
{% endcolumn %}
{% endcolumns %}

#### Missverständnisse über Fine-Tuning:

Du hast vielleicht gehört, dass Fine-Tuning einem Modell kein neues Wissen beibringt oder dass RAG besser ist als Fine-Tuning. Das ist **false**. Du kannst ein spezialisiertes Coding-Modell mit Fine-Tuning und RL trainieren, während RAG die Gewichte des Modells nicht ändern kann und nur das ergänzt, was das Modell zur Inferenzzeit sieht. Lies mehr FAQ + Missverständnisse [hier](https://unsloth.ai/docs/de/los-gehts/pages/247e762fc931f96d3998ecfa1a4402cf524e9e97#fine-tuning-vs.-rag-whats-the-difference):

{% content-ref url="/pages/247e762fc931f96d3998ecfa1a4402cf524e9e97" %}
[FAQ + Ist Feintuning das Richtige für mich?](/docs/de/los-gehts/fine-tuning-for-beginners/faq-+-is-fine-tuning-right-for-me.md)
{% endcontent-ref %}

> [**Vorstellung von Unsloth Studio:** ](/docs/de/neu/studio.md) Unsere neue Open-Source-Web-UI zum Trainieren und Ausführen von Modellen. Das bedeutet, dass du jetzt Modelle ohne Code feinabstimmen kannst und Beobachtbarkeit sowie automatische Datensatz-Erstellungsfunktionen hast.

<div data-with-frame="true"><figure><img src="/files/6b07b9b6b4ff58fd32422350493080a8d1a03b2a" alt="" width="563"><figcaption></figcaption></figure></div>

## 2. Wähle das richtige Modell + die richtige Methode

Wenn du Anfänger bist, ist es am besten, mit einem kleinen Instruct-Modell wie Llama 3.1 (8B) zu beginnen und von dort aus zu experimentieren. Du musst dich auch zwischen normalem Fine-Tuning, RL, QLoRA oder LoRA-Training entscheiden:

* **Reinforcement Learning (RL)** wird verwendet, wenn du ein Modell brauchst, das in einem bestimmten Verhalten (z. B. Tool-Aufrufe) mit einer Umgebung und einer Belohnungsfunktion statt mit gelabelten Daten hervorragend sein soll. Wir haben mehrere [Notebook-Beispiele](/docs/de/los-gehts/unsloth-notebooks.md#grpo-reasoning-rl-notebooks), aber für die meisten Anwendungsfälle ist standardmäßiges SFT ausreichend.
* **LoRA** ist eine parameter-effiziente Trainingsmethode, bei der typischerweise die Gewichte des Basismodells eingefroren bleiben und eine kleine Menge hinzugefügter Low-Rank-Adaptergewichte (in 16-Bit-Präzision) trainiert wird.
* **QLoRA** kombiniert LoRA mit 4-Bit-Präzision, um sehr große Modelle mit minimalen Ressourcen zu handhaben.
* Unsloth unterstützt außerdem vollständiges Fine-Tuning (FFT) und Pretraining, die deutlich mehr Ressourcen erfordern, aber FFT ist normalerweise nicht notwendig. Richtig ausgeführt kann LoRA mit FFT mithalten.
* Unsloth **alle Modelltypen**: [Text-zu-Sprache](/docs/de/grundlagen/text-to-speech-tts-fine-tuning.md), [Embedding](/docs/de/grundlagen/embedding-finetuning.md), GRPO, RL, [Vision](/docs/de/grundlagen/vision-fine-tuning.md), multimodal und mehr.

{% hint style="info" %}
Forschung zeigt, dass **Training und Serving in derselben Präzision** dazu beiträgt, die Genauigkeit zu erhalten. Das bedeutet: Wenn du in 4-Bit bereitstellen willst, trainiere in 4-Bit und umgekehrt.
{% endhint %}

Wir empfehlen, mit QLoRA zu beginnen, da es eine der zugänglichsten und effektivsten Methoden zum Trainieren von Modellen ist. Unsere [dynamischen 4-Bit](https://unsloth.ai/blog/dynamic-4bit) Quants, der Genauigkeitsverlust bei QLoRA im Vergleich zu LoRA ist nun größtenteils wieder ausgeglichen.

<figure><img src="/files/d43fe9a422c22588ecb8d15e2b6110192be79507" alt="" width="563"><figcaption></figcaption></figure>

Du kannst den Modellnamen in jeden gewünschten Modellnamen ändern, indem du ihn mit dem Namen des Modells auf Hugging Face abgleichst, z. B. '`unsloth/llama-3.1-8b-unsloth-bnb-4bit`'.

Wir empfehlen, mit **Instruct-Modellen**zu beginnen, da sie direktes Fine-Tuning mit konversationellen Chat-Templates (ChatML, ShareGPT usw.) ermöglichen und im Vergleich zu **Basismodellen** (die Alpaca, Vicuna usw. verwenden) weniger Daten erfordern. Erfahre mehr über die Unterschiede zwischen [Instruct- und Basismodellen hier](/docs/de/los-gehts/fine-tuning-llms-guide/what-model-should-i-use.md#instruct-or-base-model).

* Modellnamen, die auf **`unsloth-bnb-4bit`** enden, [**zeigen an, dass sie**](https://unsloth.ai/blog/dynamic-4bit) **Unsloth-dynamische 4-Bit**Quants
* sind. Diese Modelle verbrauchen etwas mehr VRAM als standardmäßige BitsAndBytes 4-Bit-Modelle, bieten jedoch deutlich höhere Genauigkeit. **`Wenn ein Modellname nur mit`**&#x62;nb-4bit
* endet, ohne „unsloth“, bezieht sich das auf eine standardmäßige BitsAndBytes 4-Bit-Quantisierung. **Modelle ohne** Suffix **befinden sich in ihrem ursprünglichen**16-Bit- oder 8-Bit-Format

. Während sie die Originalmodelle der offiziellen Ersteller sind, fügen wir manchmal wichtige Korrekturen ein – wie Chat-Template- oder Tokenizer-Fixes. Es wird daher empfohlen, unsere Versionen zu verwenden, wenn verfügbar.

* **`Es gibt weitere Einstellungen, die du umschalten kannst:`** max\_seq\_length = 2048
* **`– Steuert die Kontextlänge. Während Llama-3 8192 unterstützt, empfehlen wir 2048 zum Testen. Unsloth ermöglicht 4× längeres Kontext-Fine-Tuning.`** dtype = None `– Standardmäßig None; verwende` oder `torch.float16` torch.bfloat16
* **`für neuere GPUs.`** load\_in\_4bit = True `– Aktiviert 4-Bit-Quantisierung und reduziert den Speicherbedarf beim Fine-Tuning um das Vierfache. Das Deaktivieren ermöglicht LoRA 16-Bit-Fine-Tuning. Du kannst auch 16-Bit-LoRA mit`
* load\_in\_16bit = True `aktivieren. Um vollständiges Fine-Tuning (FFT) zu aktivieren, setze`full\_finetuning = True `. Für 8-Bit-Fine-Tuning setze`.
* **load\_in\_8bit = True** Hinweis: `Nur eine Trainingsmethode kann gleichzeitig auf` True

{% hint style="info" %}
gesetzt werden.
{% endhint %}

Ein häufiger Fehler ist, sofort mit vollständigem Fine-Tuning (FFT) zu beginnen, das rechenintensiv ist. Beginne zuerst mit Tests mit LoRA oder QLoRA; wenn es dort nicht funktioniert, wird es mit FFT höchstwahrscheinlich auch nicht funktionieren. Und wenn LoRA scheitert, gehe nicht davon aus, dass FFT das Problem magisch löst. [Du kannst auch](/docs/de/grundlagen/text-to-speech-tts-fine-tuning.md), [Text-zu-Sprache (TTS)](/docs/de/los-gehts/reinforcement-learning-rl-guide.md), [Vision](/docs/de/grundlagen/vision-fine-tuning.md), [Reasoning (GRPO)](/docs/de/los-gehts/reinforcement-learning-rl-guide/preference-dpo-orpo-and-kto.md) RL [(GRPO, DPO),](/docs/de/grundlagen/continued-pretraining.md)fortgesetztes Pretraining

{% columns %}
{% column %}
, Textvervollständigung und andere Trainingsmethoden mit Unsloth durchführen.

{% content-ref url="/pages/e74e48e68b0d725224ca82d9e12183f70ec3dd62" %}
[What Model Should I Use?](/docs/de/los-gehts/fine-tuning-llms-guide/what-model-should-i-use.md)
{% endcontent-ref %}
{% endcolumn %}

{% column %}
Lies unseren Leitfaden zur Modellauswahl:

{% content-ref url="/pages/9b29615ab338f1d1924174468718cfeab406f641" %}
[Complete LLM Directory](/docs/de/modelle/tutorials.md)
{% endcontent-ref %}
{% endcolumn %}
{% endcolumns %}

## Für einzelne Tutorials zu Modellen:

3\. Dein Datensatz

* Für LLMs sind Datensätze Sammlungen von Daten, die zum Trainieren unserer Modelle verwendet werden können. Damit sie für das Training nützlich sind, müssen Textdaten in einem Format vorliegen, das tokenisiert werden kann.
* Du musst normalerweise einen Datensatz mit 2 Spalten erstellen – Frage und Antwort. Qualität und Menge spiegeln weitgehend das Endergebnis deines Fine-Tunings wider, daher ist es entscheidend, diesen Teil richtig zu machen. [Du kannst](/docs/de/los-gehts/fine-tuning-llms-guide/datasets-guide.md#synthetic-data-generation) synthetisch Daten generieren
* und deinen Datensatz (in QA-Paare) mit ChatGPT oder lokalen LLMs strukturieren. [Du kannst auch unser neues Synthetic Dataset-Notebook verwenden, das Dokumente (PDFs, Videos usw.) automatisch parst, QA-Paare generiert und Daten mit lokalen Modellen wie Llama 3.2 automatisch bereinigt.](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Meta_Synthetic_Data_Llama3_2_\(3B\).ipynb)
* Greife hier auf das Notebook zu.
* Fine-Tuning kann aus einem bestehenden Dokumentenbestand lernen und seine Wissensbasis kontinuierlich erweitern, aber einfach nur Daten hineinzukippen funktioniert nicht so gut. Für optimale Ergebnisse kuratiere einen gut strukturierten Datensatz, idealerweise als Frage-Antwort-Paare. Das verbessert Lernen, Verständnis und Antwortgenauigkeit.

***Aber das ist nicht immer der Fall, z. B. wenn du ein LLM für Code feinabstimmst: Einfach alle Code-Daten hineinzukippen kann deinem Modell tatsächlich erhebliche Leistungsverbesserungen ermöglichen, auch ohne strukturierte Formatierung. Es hängt also stark vom Anwendungsfall ab.***

{% content-ref url="/pages/079b6ad30e8c25b4a6caae0d2dc5378a166d54c9" %}
[Datensätze-Anleitung](/docs/de/los-gehts/fine-tuning-llms-guide/datasets-guide.md)
{% endcontent-ref %}

Lies mehr darüber, wie du deinen Datensatz erstellst: [Für die meisten unserer Notebook-Beispiele verwenden wir das](https://docs.unsloth.ai/basics/tutorial-how-to-finetune-llama-3-and-use-in-ollama#id-6.-alpaca-dataset) Alpaca-Dataset

### , andere Notebooks wie Vision verwenden jedoch unterschiedliche Datensätze, die möglicherweise auch Bilder in der Antwortausgabe benötigen.

4\. Verstehe Trainings-Hyperparameter [Lerne, wie du die richtigen](/docs/de/los-gehts/fine-tuning-llms-guide/lora-hyperparameters-guide.md) Hyperparameter

**wählst, basierend auf Best Practices aus Forschung und realen Experimenten – und verstehe, wie jeder einzelne die Leistung deines Modells beeinflusst.**

{% content-ref url="/pages/ce825bbf83c91ef73a7fc71d696bd3d1ecc78590" %}
[Hyperparameters Guide](/docs/de/los-gehts/fine-tuning-llms-guide/lora-hyperparameters-guide.md)
{% endcontent-ref %}

## Für einen vollständigen Leitfaden dazu, wie Hyperparameter das Training beeinflussen, siehe:

5\. Installation + Anforderungen

### Du kannst Unsloth auf zwei Hauptwegen nutzen: unsere kostenlosen Notebooks oder lokal.

Unsloth-Notebooks [Notebooks](/docs/de/los-gehts/unsloth-notebooks.md) Wir empfehlen Anfängern, zunächst unsere vorkonfigurierten

erst zu nutzen, da es der einfachste Weg ist, mit geführten Schritten zu beginnen. Du kannst die Notebooks später exportieren, um sie lokal zu verwenden. [Text-zu-Sprache](/docs/de/grundlagen/text-to-speech-tts-fine-tuning.md), [Embedding](/docs/de/grundlagen/embedding-finetuning.md), GRPO, RL, [Vision](/docs/de/grundlagen/vision-fine-tuning.md)Unsloth hat Schritt-für-Schritt-Notebooks für

### , multimodal, verschiedene Anwendungsfälle und mehr.

Lokale Installation [Docker](/docs/de/los-gehts/install/docker.md) oder `pip install unsloth` Du kannst Unsloth auch lokal über [Windows](/docs/de/los-gehts/install/windows-installation.md)installieren (mit Linux, WSL oder

). Je nach verwendetem Modell benötigst du außerdem ausreichend VRAM und Ressourcen.

{% columns %}
{% column %}
{% content-ref url="/pages/53df1382354c7ace1c37120c4af6ed50511854dd" %}
[Unsloth-Anforderungen](/docs/de/los-gehts/fine-tuning-for-beginners/unsloth-requirements.md)
{% endcontent-ref %}
{% endcolumn %}

{% column %}
{% content-ref url="/pages/fd362a47f0e8cc55190dad52421d6fe66df3a5cb" %}
[Installation](/docs/de/los-gehts/install.md)
{% endcontent-ref %}
{% endcolumn %}
{% endcolumns %}

## Die Installation von Unsloth erfordert ein Windows- oder Linux-Gerät. Sobald du Unsloth installiert hast, kannst du unsere Notebooks kopieren und in deiner eigenen lokalen Umgebung verwenden. Siehe:

6\. Training + Evaluation

Sobald alles bereit ist, ist es Zeit zu trainieren! Wenn etwas nicht funktioniert, denke daran, dass du Hyperparameter, deinen Datensatz usw. jederzeit ändern kannst.

<figure><img src="/files/1d3397af9376f9a68bd662a4ee08670cff2b55ba" alt="" width="375"><figcaption><p>Du siehst während des Trainings ein Protokoll mit Zahlen. Dies ist der Trainingsverlust, der zeigt, wie gut das Modell aus deinem Datensatz lernt. In vielen Fällen ist ein Verlust um 0,5 bis 1,0 ein gutes Zeichen, aber es hängt von Datensatz und Aufgabe ab. Wenn der Verlust nicht sinkt, musst du möglicherweise deine Einstellungen anpassen. Wenn der Verlust gegen 0 geht, kann das Überanpassung bedeuten, daher ist es wichtig, auch die Validierung zu prüfen.</p></figcaption></figure>

Der Trainingsverlust wird als Zahlen angezeigt

* **`Wir empfehlen generell, die Standardeinstellungen beizubehalten, es sei denn, du benötigst längeres Training oder größere Batch-Größen.`** per\_device\_train\_batch\_size = 2 `– Erhöhe für bessere GPU-Auslastung, aber beachte langsamere Trainingszeiten durch Padding. Erhöhe stattdessen` gradient\_accumulation\_steps
* **`für ein gleichmäßigeres Training.`** gradient\_accumulation\_steps = 4
* **`– Simuliert eine größere Batch-Größe, ohne den Speicherverbrauch zu erhöhen.`** max\_steps = 60 `– Beschleunigt das Training. Für vollständige Läufe ersetze es durch` num\_train\_epochs = 1
* **`(1–3 Epochen werden empfohlen, um Überanpassung zu vermeiden).`** learning\_rate = 2e-4 `– Niedriger für langsameres, aber präziseres Fine-Tuning. Probiere Werte wie`, `1e-4`5e-5 `, oder`.

#### 2e-5

Evaluation `Um zu evaluieren, kannst du manuell evaluieren, indem du einfach mit dem Modell chattest und prüfst, ob es dir zusagt. Du kannst auch die Evaluation für Unsloth aktivieren, beachte jedoch, dass dies je nach Datensatzgröße zeitaufwändig sein kann. Um die Evaluation zu beschleunigen, kannst du: die Evaluations-Datensatzgröße reduzieren oder`.

evaluation\_steps = 100

## Für Tests kannst du auch 20 % deiner Trainingsdaten nehmen und diese für Tests verwenden. Wenn du bereits alle Trainingsdaten verwendet hast, musst du manuell evaluieren. Du kannst auch automatische Evaluierungstools verwenden, aber bedenke, dass automatisierte Tools möglicherweise nicht perfekt mit deinen Evaluierungskriterien übereinstimmen.

7\. Modell ausführen + bereitstellen

<div><figure><img src="/files/3c16d749153db6a2ac866175c9e198aa6510a160" alt=""><figcaption></figcaption></figure> <figure><img src="/files/b035b6778b0f614cfbcc4ebb0b3d600e99900b93" alt=""><figcaption></figcaption></figure></div>

Jetzt lass uns das Modell ausführen, nachdem wir den Trainingsprozess abgeschlossen haben! Du kannst den gelb unterstrichenen Teil bearbeiten! Tatsächlich können wir, weil wir einen Multi-Turn-Chatbot erstellt haben, das Modell jetzt auch so aufrufen, als hätte es in der Vergangenheit einige Gespräche gesehen, wie unten: **Zur Erinnerung: Unsloth selbst bietet** 2× schnellere Inferenz `nativ, also vergiss nicht,`FastLanguageModel.for\_inference(model) `aufzurufen. Wenn du möchtest, dass das Modell längere Antworten ausgibt, setze` max\_new\_tokens = 128

### auf eine größere Zahl wie 256 oder 1024. Beachte, dass du dann auch länger auf das Ergebnis warten musst!

Speichern + Deployment

{% content-ref url="/pages/03532de69dfe0230fe5114e809721d8b7dd74ca6" %}
[Inferenz & Bereitstellung](/docs/de/grundlagen/inference-and-deployment.md)
{% endcontent-ref %}

{% columns %}
{% column %}
Um dein Modell in gewünschten Inferenz-Engines wie Ollama, vLLM, Open WebUI zu speichern und bereitzustellen, musst du den LoRA-Adapter zusätzlich zum Basismodell verwenden. Wir haben spezielle Anleitungen für jedes Framework:

{% content-ref url="/pages/9cfeafb2cc359999e3a7f6ba6ffa5468e4752653" %}
[GGUF & llama.cpp](/docs/de/grundlagen/inference-and-deployment/saving-to-gguf.md)
{% endcontent-ref %}
{% endcolumn %}

{% column %}
Wenn du die Inferenz auf einem einzelnen Gerät (wie einem Laptop oder Mac) ausführst, verwende llama.cpp, um in das GGUF-Format zu konvertieren, um es in Ollama, llama.cpp, LM Studio usw. zu verwenden:

{% content-ref url="/pages/af094159d1c157db0d9afc00bd98b849fcdb8f0c" %}
[vLLM](/docs/de/grundlagen/inference-and-deployment/vllm-guide.md)
{% endcontent-ref %}
{% endcolumn %}
{% endcolumns %}

Wenn du ein LLM für Unternehmens- oder Multi-User-Inferenz für FP8, AWQ bereitstellst, verwende vLLM: [Wir können das feinabgestimmte Modell nun als kleine 100-MB-Datei namens LoRA-Adapter speichern, wie unten. Du kannst stattdessen auch zum Hugging Face-Hub pushen, wenn du dein Modell hochladen möchtest! Denk daran, ein Hugging Face-](https://huggingface.co/settings/tokens) Token

<div><figure><img src="/files/31cb7529449b552d7e65bf053ff3acc4ec2e5e67" alt=""><figcaption></figcaption></figure> <figure><img src="/files/94214239570142a967d03ac535d30cab2f63152f" alt=""><figcaption></figcaption></figure></div>

zu besorgen und dein Token hinzuzufügen! `Nachdem du das Modell gespeichert hast, können wir wieder Unsloth verwenden, um das Modell selbst auszuführen! Verwende` FastLanguageModel

## erneut, um es für die Inferenz aufzurufen!

8\. Wir sind fertig!

Du hast erfolgreich ein Sprachmodell feinabgestimmt und mit Unsloth in deine gewünschte Inferenz-Engine exportiert! [Um mehr über Fine-Tuning-Tipps und -Tricks zu erfahren, besuche unsere Blogs, die enormen und lehrreichen Wert bieten:](https://unsloth.ai/blog/)

<https://unsloth.ai/blog/> [hier](https://discord.gg/unsloth) oder [Wenn du Hilfe beim Fine-Tuning benötigst, kannst du auch unserem Discord-Server beitreten](https://www.reddit.com/r/unsloth/)Reddit r/unsloth

<figure><img src="/files/2468e7a269bc0eb3d55c194691768e39b90f2951" alt="" width="188"><figcaption></figcaption></figure>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/de/los-gehts/fine-tuning-llms-guide.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.