Analysing Neuro-Dynamic Programming Through Non-Convex Optimisation

Gottwald, Martin

User: Guest

Datenverarbeitung, Informatik

Back
Back to start of result list
Permanent link for displayed object

If you experience problems opening the document, please try this link.

Original title:: Analysing Neuro-Dynamic Programming Through Non-Convex Optimisation
Translated title:: Analyse der Neuro-Dynamischen Programmierung mittels nicht-konvexer Optimierung
Author:: Gottwald, Martin
Year:: 2024
Document type:: Dissertation
Faculty/School:: TUM School of Computation, Information and Technology
Institution:: Datenverarbeitung (Prof. Diepold)
Advisor:: Diepold, Klaus (Prof. Dr.)
Referee:: Diepold, Klaus (Prof. Dr.); Shen, Hao (Priv.-Doz. Dr.)
Language:: en
Subject group:: DAT Datenverarbeitung, Informatik
Keywords:: Actor-Critic, Critical Point Analysis, Gauss Newton Residual Gradient, Local Quadratic Convergence, Mean Squared Bellman Error, Neuro-Dynamic Programming
TUM classification:: DAT 001
Abstract:: Dynamic Programming and a Neural Network-based value-function approximation approach have demonstrated superior performance in solving sequential decision making problems, but issues of common algorithms are well-known. This work investigates optimisation of the Bellman Error and the entire Actor-Critic framework from the perspective of non-convex optimisation. A critical point analysis results in a convergent Gauss Newton Residual Gradient algorithm.
Translated abstract:: Dynamische Programmierung und eine auf neuronalen Netzen basierenden Werte-Funktion-Annäherung haben sich bei der Lösung von sequentiellen Entscheidungsproblemen als besonders leistungsfähig erwiesen, aber Probleme gängiger Algorithmen sind bekannt. Diese Arbeit untersucht die Optimierung des Bellman-Fehlers und vollständiger Actor-Critic-Methoden aus der Perspektive nicht-konvexer Optimierung. Eine Analyse der kritischen Punkte resultiert in einem konvergenten Gauß-Newton-Residuen-Gradienten-Algorithmus. «
Dynamische Programmierung und eine auf neuronalen Netzen basierenden Werte-Funktion-Annäherung haben sich bei der Lösung von sequentiellen Entscheidungsproblemen als besonders leistungsfähig erwiesen, aber Probleme gängiger Algorithmen sind bekannt. Diese Arbeit untersucht die Optimierung des Bellman-Fehlers und vollständiger Actor-Critic-Methoden aus der Perspektive nicht-konvexer Optimierung. Eine Analyse der kritischen Punkte resultiert in einem konvergenten Gauß-Newton-Residuen-Gradienten-Al... »
WWW:: https://mediatum.ub.tum.de/?id=1719187
Date of submission:: 25.09.2023
Oral examination:: 19.03.2024
File size:: 7498646 bytes
Pages:: 166
Urn (citeable URL):: https://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:91-diss-20240319-1719187-1-7
Last change:: 03.05.2024
BibTeX