User: Guest  Login
Original title:
Analysing Neuro-Dynamic Programming Through Non-Convex Optimisation
Translated title:
Analyse der Neuro-Dynamischen Programmierung mittels nicht-konvexer Optimierung
Author:
Gottwald, Martin
Year:
2024
Document type:
Dissertation
Faculty/School:
TUM School of Computation, Information and Technology
Institution:
Datenverarbeitung (Prof. Diepold)
Advisor:
Diepold, Klaus (Prof. Dr.)
Referee:
Diepold, Klaus (Prof. Dr.); Shen, Hao (Priv.-Doz. Dr.)
Language:
en
Subject group:
DAT Datenverarbeitung, Informatik
Keywords:
Actor-Critic, Critical Point Analysis, Gauss Newton Residual Gradient, Local Quadratic Convergence, Mean Squared Bellman Error, Neuro-Dynamic Programming
TUM classification:
DAT 001
Abstract:
Dynamic Programming and a Neural Network-based value-function approximation approach have demonstrated superior performance in solving sequential decision making problems, but issues of common algorithms are well-known. This work investigates optimisation of the Bellman Error and the entire Actor-Critic framework from the perspective of non-convex optimisation. A critical point analysis results in a convergent Gauss Newton Residual Gradient algorithm.
Translated abstract:
Dynamische Programmierung und eine auf neuronalen Netzen basierenden Werte-Funktion-Annäherung haben sich bei der Lösung von sequentiellen Entscheidungsproblemen als besonders leistungsfähig erwiesen, aber Probleme gängiger Algorithmen sind bekannt. Diese Arbeit untersucht die Optimierung des Bellman-Fehlers und vollständiger Actor-Critic-Methoden aus der Perspektive nicht-konvexer Optimierung. Eine Analyse der kritischen Punkte resultiert in einem konvergenten Gauß-Newton-Residuen-Gradienten-Al...     »
WWW:
https://mediatum.ub.tum.de/?id=1719187
Date of submission:
25.09.2023
Oral examination:
19.03.2024
File size:
7498646 bytes
Pages:
166
Urn (citeable URL):
https://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:91-diss-20240319-1719187-1-7
Last change:
03.05.2024
 BibTeX