Accelerated Gradient Algorithms for Robust Temporal Difference Learning

Meyer, Dominik Jakob

User: Guest

Datenverarbeitung, Informatik

Back
Back to start of result list
Permanent link for displayed object

If you experience problems opening the document, please try this link.

Original title:: Accelerated Gradient Algorithms for Robust Temporal Difference Learning
Translated title:: Beschleunigte Gradientenalgorithmen für robustes Temporal Difference Learning
Author:: Meyer, Dominik Jakob
Year:: 2021
Document type:: Dissertation
Faculty/School:: Fakultät für Elektrotechnik und Informationstechnik
Advisor:: Diepold, Klaus (Prof. Dr.)
Referee:: Diepold, Klaus (Prof. Dr.); Althoff, Matthias (Prof. Dr.)
Language:: en
Subject group:: DAT Datenverarbeitung, Informatik
TUM classification:: DAT 001d
Abstract:: This thesis deals with linearly approximated gradient temporal difference learning. The applicability of the underlying cost functions are discussed and investigated with respect to strong convexity and L-Lipschitz continuity. The cost functions are extended with l1-regularization and the accelerated gradient descent optimization technique is applied to improve noise robustness and convergence behavior. All algorithms of this work perform well in off-policy sampling and multi-step application scenarios. «
This thesis deals with linearly approximated gradient temporal difference learning. The applicability of the underlying cost functions are discussed and investigated with respect to strong convexity and L-Lipschitz continuity. The cost functions are extended with l1-regularization and the accelerated gradient descent optimization technique is applied to improve noise robustness and convergence behavior. All algorithms of this work perform well in off-policy sampling and multi-step application sc... »
Translated abstract:: Diese Arbeit diskutiert linear approximierte, gradientenbasierte Temporal Difference Learning Algorithmen. Zugrundeliegende Kostenfunktionen werden bezüglich ihrer Anwendbarkeit und bezüglich starker Konvexität und L-Lipschitzstetigkeit untersucht sowie mit einer l1-Regularisierung erweitert. Um die Robustheit gegenüber Störeinflüssen und das Konvergenzverhalten zu verbessern, werden beschleunigte Gradientenverfahren zur Optimierung angewendet. Alle Algorithmen dieser Arbeit sind auch in off-policy und mehrschrittig abgetasteten Anwendungen einsetzbar. «
Diese Arbeit diskutiert linear approximierte, gradientenbasierte Temporal Difference Learning Algorithmen. Zugrundeliegende Kostenfunktionen werden bezüglich ihrer Anwendbarkeit und bezüglich starker Konvexität und L-Lipschitzstetigkeit untersucht sowie mit einer l1-Regularisierung erweitert. Um die Robustheit gegenüber Störeinflüssen und das Konvergenzverhalten zu verbessern, werden beschleunigte Gradientenverfahren zur Optimierung angewendet. Alle Algorithmen dieser Arbeit sind auch in off-pol... »
WWW:: https://mediatum.ub.tum.de/?id=1575826
Date of submission:: 09.10.2020
Oral examination:: 02.06.2021
File size:: 8482042 bytes
Pages:: 155
Urn (citeable URL):: https://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:91-diss-20210602-1575826-1-8
Last change:: 16.07.2021
BibTeX