Accelerated Gradient Algorithms for Robust Temporal Difference Learning

Meyer, Dominik Jakob

Benutzer: Gast

Datenverarbeitung, Informatik

Zurück
Zurück zum Anfang der Trefferliste
Dauerhafter Link zum angezeigten Objekt

Wenn Sie Schwierigkeiten haben, das Dokument zu öffnen, versuchen Sie auch bitte diesen Link

Originaltitel:: Accelerated Gradient Algorithms for Robust Temporal Difference Learning
Übersetzter Titel:: Beschleunigte Gradientenalgorithmen für robustes Temporal Difference Learning
Autor:: Meyer, Dominik Jakob
Jahr:: 2021
Dokumenttyp:: Dissertation
Fakultät/School:: Fakultät für Elektrotechnik und Informationstechnik
Betreuer:: Diepold, Klaus (Prof. Dr.)
Gutachter:: Diepold, Klaus (Prof. Dr.); Althoff, Matthias (Prof. Dr.)
Sprache:: en
Fachgebiet:: DAT Datenverarbeitung, Informatik
TU-Systematik:: DAT 001d
Kurzfassung:: This thesis deals with linearly approximated gradient temporal difference learning. The applicability of the underlying cost functions are discussed and investigated with respect to strong convexity and L-Lipschitz continuity. The cost functions are extended with l1-regularization and the accelerated gradient descent optimization technique is applied to improve noise robustness and convergence behavior. All algorithms of this work perform well in off-policy sampling and multi-step application scenarios. «
This thesis deals with linearly approximated gradient temporal difference learning. The applicability of the underlying cost functions are discussed and investigated with respect to strong convexity and L-Lipschitz continuity. The cost functions are extended with l1-regularization and the accelerated gradient descent optimization technique is applied to improve noise robustness and convergence behavior. All algorithms of this work perform well in off-policy sampling and multi-step application sc... »
Übersetzte Kurzfassung:: Diese Arbeit diskutiert linear approximierte, gradientenbasierte Temporal Difference Learning Algorithmen. Zugrundeliegende Kostenfunktionen werden bezüglich ihrer Anwendbarkeit und bezüglich starker Konvexität und L-Lipschitzstetigkeit untersucht sowie mit einer l1-Regularisierung erweitert. Um die Robustheit gegenüber Störeinflüssen und das Konvergenzverhalten zu verbessern, werden beschleunigte Gradientenverfahren zur Optimierung angewendet. Alle Algorithmen dieser Arbeit sind auch in off-policy und mehrschrittig abgetasteten Anwendungen einsetzbar. «
Diese Arbeit diskutiert linear approximierte, gradientenbasierte Temporal Difference Learning Algorithmen. Zugrundeliegende Kostenfunktionen werden bezüglich ihrer Anwendbarkeit und bezüglich starker Konvexität und L-Lipschitzstetigkeit untersucht sowie mit einer l1-Regularisierung erweitert. Um die Robustheit gegenüber Störeinflüssen und das Konvergenzverhalten zu verbessern, werden beschleunigte Gradientenverfahren zur Optimierung angewendet. Alle Algorithmen dieser Arbeit sind auch in off-pol... »
WWW:: https://mediatum.ub.tum.de/?id=1575826
Eingereicht am:: 09.10.2020
Mündliche Prüfung:: 02.06.2021
Dateigröße:: 8482042 bytes
Seiten:: 155
Urn (Zitierfähige URL):: https://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:91-diss-20210602-1575826-1-8
Letzte Änderung:: 16.07.2021
BibTeX