👾Training von KI-Agenten mit RL
Lerne, wie man KI-Agenten für realweltliche Aufgaben mit Reinforcement Learning (RL) trainiert.
„Agentische“ KI wird im Laufe der Zeit immer beliebter. In diesem Kontext ist ein „Agent“ ein LLM, dem ein übergeordnetes Ziel und eine Menge Werkzeuge gegeben werden, um dieses zu erreichen. Agenten sind typischerweise auch „mehrstufig“ — sie können eine Aktion ausführen, sehen, welche Auswirkung sie auf die Umgebung hatte, und dann wiederholt eine weitere Aktion ausführen, bis sie ihr Ziel erreicht haben oder beim Versuch scheitern.
Leider fällt es selbst sehr fähigen LLMs oft schwer, komplexe mehrstufige agentische Aufgaben zuverlässig auszuführen. Interessanterweise haben wir festgestellt, dass das Training von Agenten mit einem RL-Algorithmus namens GRPO (Group Relative Policy Optimization) sie deutlich zuverlässiger machen kann! In diesem Leitfaden lernen Sie, wie man zuverlässige KI-Agenten mit Open-Source-Tools baut.
🎨 RL-Agenten mit ART trainieren
ART (Agent Reinforcement Trainer) aufgebaut auf Unsloths GRPOTrainer ist ein Werkzeug, das das Training mehrstufiger Agenten möglich und einfach macht. Wenn Sie bereits Unsloth für GRPO verwenden und Agenten trainieren müssen, die komplexe, mehrstufige Interaktionen bewältigen können, vereinfacht ART den Prozess.

ART + Unsloth
ART baut auf Unsloths speicher- und rechen-effizienter GRPO-Implementierung auf. Zusätzlich fügt es die folgenden Funktionen hinzu:
1. Training mehrstufiger Agenten
ART führt das Konzept einer „Trajektorie“ ein, die aufgebaut wird, während Ihr Agent ausgeführt wird. Diese Trajektorien können dann bewertet und für GRPO verwendet werden. Trajektorien können komplex sein und sogar nicht-lineare Verläufe, Unteragent-Aufrufe usw. enthalten. Sie unterstützen außerdem Tool-Aufrufe und -Antworten.
2. Flexible Integration in vorhandene Codebasen
Wenn Sie bereits einen Agenten mit einem promptgesteuerten Modell haben, versucht ART, die Anzahl der Änderungen, die Sie vornehmen müssen, um Ihre bestehende Agentenschleife zu umschließen und für das Training zu verwenden, zu minimieren.
Architektonisch ist ART in einen „Frontend“-Client aufgeteilt, der in Ihrer Codebasis lebt und per API mit einem „Backend“ kommuniziert, in dem das eigentliche Training stattfindet (diese können bei Bedarf auch auf derselben Maschine zusammen betrieben werden, wenn Sie lieber ARTs LocalBackend) verwenden. Das bietet einige wesentliche Vorteile:
Minimale Einrichtung erforderlich: Das ART-Frontend hat minimale Abhängigkeiten und kann leicht zu bestehenden Python-Codebasen hinzugefügt werden.
Training von überall: Sie können den ART-Client auf Ihrem Laptop ausführen und den ART-Server eine flüchtige GPU-fähige Umgebung starten lassen oder lokal auf einer GPU ausführen
OpenAI-kompatible API: Das ART-Backend stellt Ihr während des Trainings befindliches Modell über eine OpenAI-kompatible API bereit, die mit den meisten bestehenden Codebasen kompatibel ist.
3. RULER: Zero-Shot-Agenten-Belohnungen
ART bietet außerdem eine eingebaute, allgemeine Belohnungsfunktion namens RULER (Relative Universal LLM-Elicited Rewards), die die Notwendigkeit handgefertigter Belohnungsfunktionen eliminieren kann. Überraschenderweise erreichen Agenten, die mit der automatischen RULER-Belohnungsfunktion per RL trainiert wurden, oft die gleiche oder eine bessere Leistung als Agenten, die mit handgeschriebenen Belohnungsfunktionen trainiert wurden. Das erleichtert den Einstieg in RL.

Wann man ART wählen sollte
ART könnte gut geeignet sein für Projekte, die benötigen:
Mehrstufige Agentenfähigkeiten: Wenn Ihr Anwendungsfall Agenten erfordert, die mehrere Aktionen ausführen, Werkzeuge nutzen oder längere Gespräche führen müssen
Schnelles Prototyping ohne Belohnungs-Engineering: RULERs automatische Belohnungsbewertung kann die Entwicklungszeit Ihres Projekts um das 2–3‑Fache verkürzen
Integration in bestehende Systeme: Wenn Sie RL-Fähigkeiten in eine bestehende agentische Codebasis mit minimalen Änderungen hinzufügen müssen
Codebeispiel: ART in Aktion
Erste Schritte
Um ART zu Ihrem Unsloth-basierten Projekt hinzuzufügen:
Sehen Sie sich dann die Beispiel-Notebooks an, um ART in Aktion bei Aufgaben wie:
E-Mail-Abruf-Agenten, die o3 übertreffen
Spielspielende Agenten (2048, Tic-Tac-Toe, Codenames)
Komplexe Denkaufgaben (Temporal Clue)
Zuletzt aktualisiert
War das hilfreich?

