A Study in Direct Policy Search

Wierstra, Daniel

Daniel Wierstra

Wenn Sie Schwierigkeiten haben, das Dokument zu öffnen, versuchen Sie auch bitte diesen Link

Originaltitel:: A Study in Direct Policy Search
Übersetzter Titel:: Eine Studie im Bereich Direct Policy Search
Autor:: Wierstra, Daniel
Jahr:: 2010
Dokumenttyp:: Dissertation
Fakultät/School:: Fakultät für Informatik
Betreuer:: Schmidhuber, H. Jürgen (Prof. Dr.)
Gutachter:: Bungartz, Hans-Joachim (Prof. Dr.)
Sprache:: en
Fachgebiet:: DAT Datenverarbeitung, Informatik
Stichworte:: reinforcement learning, black box optimization, policy gradients, POMDPs,
Übersetzte Stichworte:: partiell observable Umgebungen, Black Box Optimierung
Kurzfassung:: Reinforcement learning in partially observable environments is an important and challenging problem. Since many value function-based methods have been shown to perform poorly, we study direct policy search methods instead. The aim of this work is to advance the state-of-the-art in direct policy search and black box optimization. Its contributions include four new algorithms: (1) a novel algorithm which backpropagates recurrent policy gradients through time, as such learning both memory and a policy at the same time; (2) an instantiation of the well-known EM algorithm adapted to learning policies in partially observable environments; (3) Fitness Expectation-Maximization, a black box search method derived from EM; (4) Natural Evolution Strategies, an alternative to conventional evolutionary methods that uses a natural gradient to perform stochastic search. Experimental results with these four methods demonstrate competitive performance on a variety of test problems and benchmarks. «
Reinforcement learning in partially observable environments is an important and challenging problem. Since many value function-based methods have been shown to perform poorly, we study direct policy search methods instead. The aim of this work is to advance the state-of-the-art in direct policy search and black box optimization. Its contributions include four new algorithms: (1) a novel algorithm which backpropagates recurrent policy gradients through time, as such learning both memory an... »
Übersetzte Kurzfassung:: Reinforcement Learning (RL) in partiell observablen Umgebungen ist ein wichtiges und schwieriges Problem für adaptive Roboter und andere situierte Agenten. Methoden zur direkten Suche im Raum der möglichen Verhaltensweisen sind hier vielversprechender als traditionelle RL-Verfahren, die erreichte Zustände mit Value Functions bewerten, was in Nicht-Markov-Szenarien nur selten funktioniert. Ziel dieser Arbeit ist daher, den Stand der Kunst in den Bereichen Direct Policy Search und Black Box Optimierung zu erweitern, und zwar durch eine Taxonomie bestehender RL-Methoden sowie der Einführung von vier neuen Algorithmen. Experimente weisen deren hohe Konkurrenzfähigkeit bei einer Vielzahl von Testproblemen nach, von Standard Benchmarks bis hin zur feinregulierten Motoriksteuerung in Fahrsimulationen. «
Reinforcement Learning (RL) in partiell observablen Umgebungen ist ein wichtiges und schwieriges Problem für adaptive Roboter und andere situierte Agenten. Methoden zur direkten Suche im Raum der möglichen Verhaltensweisen sind hier vielversprechender als traditionelle RL-Verfahren, die erreichte Zustände mit Value Functions bewerten, was in Nicht-Markov-Szenarien nur selten funktioniert. Ziel dieser Arbeit ist daher, den Stand der Kunst in den Bereichen Direct Policy Search und Black Box Opti... »
WWW:: https://mediatum.ub.tum.de/?id=885959
Eingereicht am:: 22.12.2009
Mündliche Prüfung:: 10.05.2010
Seiten:: 106
Urn (Zitierfähige URL):: https://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:91-diss-20100510-885959-1-8
Letzte Änderung:: 11.08.2010
BibTeX

Vorkommen:

mediaTUM Gesamtbestand Elektronische Prüfungsarbeiten School TUM School of Computation, Information and Technology

mediaTUM Gesamtbestand Einrichtungen Schools TUM School of Computation, Information and Technology Prüfungsarbeiten Dissertationen

mediaTUM Gesamtbestand Elektronische Prüfungsarbeiten Fachgebiet Datenverarbeitung, Informatik