Dynamische Programmierung und eine auf neuronalen Netzen basierenden Werte-Funktion-Annäherung haben sich bei der Lösung von sequentiellen Entscheidungsproblemen als besonders leistungsfähig erwiesen, aber Probleme gängiger Algorithmen sind bekannt. Diese Arbeit untersucht die Optimierung des Bellman-Fehlers und vollständiger Actor-Critic-Methoden aus der Perspektive nicht-konvexer Optimierung. Eine Analyse der kritischen Punkte resultiert in einem konvergenten Gauß-Newton-Residuen-Gradienten-Algorithmus.
«
Dynamische Programmierung und eine auf neuronalen Netzen basierenden Werte-Funktion-Annäherung haben sich bei der Lösung von sequentiellen Entscheidungsproblemen als besonders leistungsfähig erwiesen, aber Probleme gängiger Algorithmen sind bekannt. Diese Arbeit untersucht die Optimierung des Bellman-Fehlers und vollständiger Actor-Critic-Methoden aus der Perspektive nicht-konvexer Optimierung. Eine Analyse der kritischen Punkte resultiert in einem konvergenten Gauß-Newton-Residuen-Gradienten-Al...
»