TUM School of Computation, Information and Technology
Institution:
Datenverarbeitung (Prof. Diepold)
Advisor:
Diepold, Klaus (Prof. Dr.)
Referee:
Diepold, Klaus (Prof. Dr.); Shen, Hao (Priv.-Doz. Dr.)
Language:
en
Subject group:
DAT Datenverarbeitung, Informatik
Keywords:
Actor-Critic, Critical Point Analysis, Gauss Newton Residual Gradient, Local Quadratic Convergence, Mean Squared Bellman Error, Neuro-Dynamic Programming
TUM classification:
DAT 001
Abstract:
Dynamic Programming and a Neural Network-based value-function approximation approach have demonstrated superior performance in solving sequential decision making problems, but issues of common algorithms are well-known. This work investigates optimisation of the Bellman Error and the entire Actor-Critic framework from the perspective of non-convex optimisation. A critical point analysis results in a convergent Gauss Newton Residual Gradient algorithm.
Translated abstract:
Dynamische Programmierung und eine auf neuronalen Netzen basierenden Werte-Funktion-Annäherung haben sich bei der Lösung von sequentiellen Entscheidungsproblemen als besonders leistungsfähig erwiesen, aber Probleme gängiger Algorithmen sind bekannt. Diese Arbeit untersucht die Optimierung des Bellman-Fehlers und vollständiger Actor-Critic-Methoden aus der Perspektive nicht-konvexer Optimierung. Eine Analyse der kritischen Punkte resultiert in einem konvergenten Gauß-Newton-Residuen-Gradienten-Algorithmus.
«
Dynamische Programmierung und eine auf neuronalen Netzen basierenden Werte-Funktion-Annäherung haben sich bei der Lösung von sequentiellen Entscheidungsproblemen als besonders leistungsfähig erwiesen, aber Probleme gängiger Algorithmen sind bekannt. Diese Arbeit untersucht die Optimierung des Bellman-Fehlers und vollständiger Actor-Critic-Methoden aus der Perspektive nicht-konvexer Optimierung. Eine Analyse der kritischen Punkte resultiert in einem konvergenten Gauß-Newton-Residuen-Gradienten-Al...
»