👾Training von KI-Agenten mit RL

Lerne, wie man KI-Agenten für realweltliche Aufgaben mit Reinforcement Learning (RL) trainiert.

„Agentische“ KI wird im Laufe der Zeit immer beliebter. In diesem Kontext ist ein „Agent“ ein LLM, dem ein übergeordnetes Ziel und eine Menge Werkzeuge gegeben werden, um dieses zu erreichen. Agenten sind typischerweise auch „mehrstufig“ — sie können eine Aktion ausführen, sehen, welche Auswirkung sie auf die Umgebung hatte, und dann wiederholt eine weitere Aktion ausführen, bis sie ihr Ziel erreicht haben oder beim Versuch scheitern.

Leider fällt es selbst sehr fähigen LLMs oft schwer, komplexe mehrstufige agentische Aufgaben zuverlässig auszuführen. Interessanterweise haben wir festgestellt, dass das Training von Agenten mit einem RL-Algorithmus namens GRPO (Group Relative Policy Optimization) sie deutlich zuverlässiger machen kann! In diesem Leitfaden lernen Sie, wie man zuverlässige KI-Agenten mit Open-Source-Tools baut.

🎨 RL-Agenten mit ART trainieren

ART (Agent Reinforcement Trainer)arrow-up-right aufgebaut auf Unslotharrow-up-rights GRPOTrainer ist ein Werkzeug, das das Training mehrstufiger Agenten möglich und einfach macht. Wenn Sie bereits Unsloth für GRPO verwenden und Agenten trainieren müssen, die komplexe, mehrstufige Interaktionen bewältigen können, vereinfacht ART den Prozess.

Mit Unsloth+ART trainierte Agentenmodelle können in agentischen Workflows häufig bessere Leistungen erzielen als durch Prompting gesteuerte Modelle.

ART + Unsloth

ART baut auf Unsloths speicher- und rechen-effizienter GRPO-Implementierung auf. Zusätzlich fügt es die folgenden Funktionen hinzu:

1. Training mehrstufiger Agenten

ART führt das Konzept einer „Trajektorie“ ein, die aufgebaut wird, während Ihr Agent ausgeführt wird. Diese Trajektorien können dann bewertet und für GRPO verwendet werden. Trajektorien können komplex sein und sogar nicht-lineare Verläufe, Unteragent-Aufrufe usw. enthalten. Sie unterstützen außerdem Tool-Aufrufe und -Antworten.

2. Flexible Integration in vorhandene Codebasen

Wenn Sie bereits einen Agenten mit einem promptgesteuerten Modell haben, versucht ART, die Anzahl der Änderungen, die Sie vornehmen müssen, um Ihre bestehende Agentenschleife zu umschließen und für das Training zu verwenden, zu minimieren.

Architektonisch ist ART in einen „Frontend“-Client aufgeteilt, der in Ihrer Codebasis lebt und per API mit einem „Backend“ kommuniziert, in dem das eigentliche Training stattfindet (diese können bei Bedarf auch auf derselben Maschine zusammen betrieben werden, wenn Sie lieber ARTs LocalBackend) verwenden. Das bietet einige wesentliche Vorteile:

  • Minimale Einrichtung erforderlich: Das ART-Frontend hat minimale Abhängigkeiten und kann leicht zu bestehenden Python-Codebasen hinzugefügt werden.

  • Training von überall: Sie können den ART-Client auf Ihrem Laptop ausführen und den ART-Server eine flüchtige GPU-fähige Umgebung starten lassen oder lokal auf einer GPU ausführen

  • OpenAI-kompatible API: Das ART-Backend stellt Ihr während des Trainings befindliches Modell über eine OpenAI-kompatible API bereit, die mit den meisten bestehenden Codebasen kompatibel ist.

3. RULER: Zero-Shot-Agenten-Belohnungen

ART bietet außerdem eine eingebaute, allgemeine Belohnungsfunktion namens RULERarrow-up-right (Relative Universal LLM-Elicited Rewards), die die Notwendigkeit handgefertigter Belohnungsfunktionen eliminieren kann. Überraschenderweise erreichen Agenten, die mit der automatischen RULER-Belohnungsfunktion per RL trainiert wurden, oft die gleiche oder eine bessere Leistung als Agenten, die mit handgeschriebenen Belohnungsfunktionen trainiert wurden. Das erleichtert den Einstieg in RL.

Wann man ART wählen sollte

ART könnte gut geeignet sein für Projekte, die benötigen:

  1. Mehrstufige Agentenfähigkeiten: Wenn Ihr Anwendungsfall Agenten erfordert, die mehrere Aktionen ausführen, Werkzeuge nutzen oder längere Gespräche führen müssen

  2. Schnelles Prototyping ohne Belohnungs-Engineering: RULERs automatische Belohnungsbewertung kann die Entwicklungszeit Ihres Projekts um das 2–3‑Fache verkürzen

  3. Integration in bestehende Systeme: Wenn Sie RL-Fähigkeiten in eine bestehende agentische Codebasis mit minimalen Änderungen hinzufügen müssen

Codebeispiel: ART in Aktion

Erste Schritte

Um ART zu Ihrem Unsloth-basierten Projekt hinzuzufügen:

Sehen Sie sich dann die Beispiel-Notebooksarrow-up-right an, um ART in Aktion bei Aufgaben wie:

  • E-Mail-Abruf-Agenten, die o3 übertreffen

  • Spielspielende Agenten (2048, Tic-Tac-Toe, Codenames)

  • Komplexe Denkaufgaben (Temporal Clue)

Zuletzt aktualisiert

War das hilfreich?