Benutzer: Gast  Login
Originaltitel:
Analysing Neuro-Dynamic Programming Through Non-Convex Optimisation
Übersetzter Titel:
Analyse der Neuro-Dynamischen Programmierung mittels nicht-konvexer Optimierung
Autor:
Gottwald, Martin
Jahr:
2024
Dokumenttyp:
Dissertation
Fakultät/School:
TUM School of Computation, Information and Technology
Institution:
Datenverarbeitung (Prof. Diepold)
Betreuer:
Diepold, Klaus (Prof. Dr.)
Gutachter:
Diepold, Klaus (Prof. Dr.); Shen, Hao (Priv.-Doz. Dr.)
Sprache:
en
Fachgebiet:
DAT Datenverarbeitung, Informatik
Stichworte:
Actor-Critic, Critical Point Analysis, Gauss Newton Residual Gradient, Local Quadratic Convergence, Mean Squared Bellman Error, Neuro-Dynamic Programming
TU-Systematik:
DAT 001
Kurzfassung:
Dynamic Programming and a Neural Network-based value-function approximation approach have demonstrated superior performance in solving sequential decision making problems, but issues of common algorithms are well-known. This work investigates optimisation of the Bellman Error and the entire Actor-Critic framework from the perspective of non-convex optimisation. A critical point analysis results in a convergent Gauss Newton Residual Gradient algorithm.
Übersetzte Kurzfassung:
Dynamische Programmierung und eine auf neuronalen Netzen basierenden Werte-Funktion-Annäherung haben sich bei der Lösung von sequentiellen Entscheidungsproblemen als besonders leistungsfähig erwiesen, aber Probleme gängiger Algorithmen sind bekannt. Diese Arbeit untersucht die Optimierung des Bellman-Fehlers und vollständiger Actor-Critic-Methoden aus der Perspektive nicht-konvexer Optimierung. Eine Analyse der kritischen Punkte resultiert in einem konvergenten Gauß-Newton-Residuen-Gradienten-Al...     »
WWW:
https://mediatum.ub.tum.de/?id=1719187
Eingereicht am:
25.09.2023
Mündliche Prüfung:
19.03.2024
Dateigröße:
7498646 bytes
Seiten:
166
Urn (Zitierfähige URL):
https://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:91-diss-20240319-1719187-1-7
Letzte Änderung:
03.05.2024
 BibTeX