Diese Thesis wendet Reinforcement Learning zum Erlernen von Verhaltensstrategien für autonome Fahrzeuge an, wertet diese aus und optimiert diese nach, um reibungslose Verhalten zu erhalten. Es schlägt Belohnungsformungsfunktionen vor, diskutiert Eingabedarstellungen und führt eine Graph Neural Network Actor-Critic Architektur ein, die invariant gegenüber der Anzahl und Reihenfolge der Fahrzeuge ist. Die Verhaltensstrategien werden zur Laufzeit unter Verwendung der Counterfactual Behavior Policy Evaluation evaluiert. Das Verhalten wird von einer Nachoptimierung geglättet, welche die Interaktionen mit anderen bewahrt und gleichzeitig die gleichen Einschränkungen garantiert.
«
Diese Thesis wendet Reinforcement Learning zum Erlernen von Verhaltensstrategien für autonome Fahrzeuge an, wertet diese aus und optimiert diese nach, um reibungslose Verhalten zu erhalten. Es schlägt Belohnungsformungsfunktionen vor, diskutiert Eingabedarstellungen und führt eine Graph Neural Network Actor-Critic Architektur ein, die invariant gegenüber der Anzahl und Reihenfolge der Fahrzeuge ist. Die Verhaltensstrategien werden zur Laufzeit unter Verwendung der Counterfactual Behavior Policy...
»