Die Arbeit schlägt drei neue Algorithmen für Offline Reinforcement Learning vor, die aus statischen Datensätzen ohne direkte Umgebungsinteraktion Policies trainieren können. Es wird gezeigt, dass die Methoden unter Verwendung von modellbasierter Return-Schätzung und neuen Methoden zur Policy Regularisierung auf anspruchsvollen Benchmarks zuverlässig gut funktionierende Policies erzeugen. Der letzte Algorithmus, LION, ermöglicht Nutzern sogar die Anpassung des Trade-offs zwischen Vertrautheit und Performanz zur Laufzeit, was das Vertrauen in die Lösung erhöht.
«
Die Arbeit schlägt drei neue Algorithmen für Offline Reinforcement Learning vor, die aus statischen Datensätzen ohne direkte Umgebungsinteraktion Policies trainieren können. Es wird gezeigt, dass die Methoden unter Verwendung von modellbasierter Return-Schätzung und neuen Methoden zur Policy Regularisierung auf anspruchsvollen Benchmarks zuverlässig gut funktionierende Policies erzeugen. Der letzte Algorithmus, LION, ermöglicht Nutzern sogar die Anpassung des Trade-offs zwischen Vertrautheit und...
»