Accelerated Gradient Algorithms for Robust Temporal Difference Learning

Meyer, Dominik Jakob

Datenverarbeitung (Prof. Diepold)

Back
Back to start of result list
Permanent link for displayed object

If you experience problems opening the document, please try this link.

Original title:: Accelerated Gradient Algorithms for Robust Temporal Difference Learning
Translated title:: Beschleunigte Gradientenalgorithmen für robustes Temporal Difference Learning
Author:: Meyer, Dominik Jakob
Year:: 2021
Document type:: Dissertation
Faculty/School:: Fakultät für Elektrotechnik und Informationstechnik
Advisor:: Diepold, Klaus (Prof. Dr.)
Referee:: Diepold, Klaus (Prof. Dr.); Althoff, Matthias (Prof. Dr.)
Language:: en
Subject group:: DAT Datenverarbeitung, Informatik
TUM classification:: DAT 001d
Abstract:: This thesis deals with linearly approximated gradient temporal difference learning. The applicability of the underlying cost functions are discussed and investigated with respect to strong convexity and L-Lipschitz continuity. The cost functions are extended with l1-regularization and the accelerated gradient descent optimization technique is applied to improve noise robustness and convergence behavior. All algorithms of this work perform well in off-policy sampling and multi-step application scenarios. «
This thesis deals with linearly approximated gradient temporal difference learning. The applicability of the underlying cost functions are discussed and investigated with respect to strong convexity and L-Lipschitz continuity. The cost functions are extended with l1-regularization and the accelerated gradient descent optimization technique is applied to improve noise robustness and convergence behavior. All algorithms of this work perform well in off-policy sampling and multi-step application sc... »
Translated abstract:: Diese Arbeit diskutiert linear approximierte, gradientenbasierte Temporal Difference Learning Algorithmen. Zugrundeliegende Kostenfunktionen werden bezüglich ihrer Anwendbarkeit und bezüglich starker Konvexität und L-Lipschitzstetigkeit untersucht sowie mit einer l1-Regularisierung erweitert. Um die Robustheit gegenüber Störeinflüssen und das Konvergenzverhalten zu verbessern, werden beschleunigte Gradientenverfahren zur Optimierung angewendet. Alle Algorithmen dieser Arbeit sind auch in off-policy und mehrschrittig abgetasteten Anwendungen einsetzbar. «
Diese Arbeit diskutiert linear approximierte, gradientenbasierte Temporal Difference Learning Algorithmen. Zugrundeliegende Kostenfunktionen werden bezüglich ihrer Anwendbarkeit und bezüglich starker Konvexität und L-Lipschitzstetigkeit untersucht sowie mit einer l1-Regularisierung erweitert. Um die Robustheit gegenüber Störeinflüssen und das Konvergenzverhalten zu verbessern, werden beschleunigte Gradientenverfahren zur Optimierung angewendet. Alle Algorithmen dieser Arbeit sind auch in off-pol... »
WWW:: https://mediatum.ub.tum.de/?id=1575826
Date of submission:: 09.10.2020
Oral examination:: 02.06.2021
File size:: 8482042 bytes
Pages:: 155
Urn (citeable URL):: https://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:91-diss-20210602-1575826-1-8
Last change:: 16.07.2021
BibTeX