Diese Arbeit diskutiert linear approximierte, gradientenbasierte Temporal Difference Learning Algorithmen. Zugrundeliegende Kostenfunktionen werden bezüglich ihrer Anwendbarkeit und bezüglich starker Konvexität und L-Lipschitzstetigkeit untersucht sowie mit einer l1-Regularisierung erweitert. Um die Robustheit gegenüber Störeinflüssen und das Konvergenzverhalten zu verbessern, werden beschleunigte Gradientenverfahren zur Optimierung angewendet. Alle Algorithmen dieser Arbeit sind auch in off-policy und mehrschrittig abgetasteten Anwendungen einsetzbar.
«
Diese Arbeit diskutiert linear approximierte, gradientenbasierte Temporal Difference Learning Algorithmen. Zugrundeliegende Kostenfunktionen werden bezüglich ihrer Anwendbarkeit und bezüglich starker Konvexität und L-Lipschitzstetigkeit untersucht sowie mit einer l1-Regularisierung erweitert. Um die Robustheit gegenüber Störeinflüssen und das Konvergenzverhalten zu verbessern, werden beschleunigte Gradientenverfahren zur Optimierung angewendet. Alle Algorithmen dieser Arbeit sind auch in off-pol...
»