Accelerated Gradient Algorithms for Robust Temporal Difference Learning
Übersetzter Titel:
Beschleunigte Gradientenalgorithmen für robustes Temporal Difference Learning
Autor:
Meyer, Dominik Jakob
Jahr:
2021
Dokumenttyp:
Dissertation
Fakultät/School:
Fakultät für Elektrotechnik und Informationstechnik
Betreuer:
Diepold, Klaus (Prof. Dr.)
Gutachter:
Diepold, Klaus (Prof. Dr.); Althoff, Matthias (Prof. Dr.)
Sprache:
en
Fachgebiet:
DAT Datenverarbeitung, Informatik
TU-Systematik:
DAT 001d
Kurzfassung:
This thesis deals with linearly approximated gradient temporal difference learning. The applicability of the underlying cost functions are discussed and investigated with respect to strong convexity and L-Lipschitz continuity. The cost functions are extended with l1-regularization and the accelerated gradient descent optimization technique is applied to improve noise robustness and convergence behavior. All algorithms of this work perform well in off-policy sampling and multi-step application scenarios.
«
This thesis deals with linearly approximated gradient temporal difference learning. The applicability of the underlying cost functions are discussed and investigated with respect to strong convexity and L-Lipschitz continuity. The cost functions are extended with l1-regularization and the accelerated gradient descent optimization technique is applied to improve noise robustness and convergence behavior. All algorithms of this work perform well in off-policy sampling and multi-step application sc...
»
Übersetzte Kurzfassung:
Diese Arbeit diskutiert linear approximierte, gradientenbasierte Temporal Difference Learning Algorithmen. Zugrundeliegende Kostenfunktionen werden bezüglich ihrer Anwendbarkeit und bezüglich starker Konvexität und L-Lipschitzstetigkeit untersucht sowie mit einer l1-Regularisierung erweitert. Um die Robustheit gegenüber Störeinflüssen und das Konvergenzverhalten zu verbessern, werden beschleunigte Gradientenverfahren zur Optimierung angewendet. Alle Algorithmen dieser Arbeit sind auch in off-policy und mehrschrittig abgetasteten Anwendungen einsetzbar.
«
Diese Arbeit diskutiert linear approximierte, gradientenbasierte Temporal Difference Learning Algorithmen. Zugrundeliegende Kostenfunktionen werden bezüglich ihrer Anwendbarkeit und bezüglich starker Konvexität und L-Lipschitzstetigkeit untersucht sowie mit einer l1-Regularisierung erweitert. Um die Robustheit gegenüber Störeinflüssen und das Konvergenzverhalten zu verbessern, werden beschleunigte Gradientenverfahren zur Optimierung angewendet. Alle Algorithmen dieser Arbeit sind auch in off-pol...
»