Benutzer: Gast  Login
Originaltitel:
A Study in Direct Policy Search
Übersetzter Titel:
Eine Studie im Bereich Direct Policy Search
Autor:
Wierstra, Daniel
Jahr:
2010
Dokumenttyp:
Dissertation
Fakultät/School:
Fakultät für Informatik
Betreuer:
Schmidhuber, H. Jürgen (Prof. Dr.)
Gutachter:
Bungartz, Hans-Joachim (Prof. Dr.)
Sprache:
en
Fachgebiet:
DAT Datenverarbeitung, Informatik
Stichworte:
reinforcement learning, black box optimization, policy gradients, POMDPs,
Übersetzte Stichworte:
partiell observable Umgebungen, Black Box Optimierung
Kurzfassung:
Reinforcement learning in partially observable environments is an important and challenging problem. Since many value function-based methods have been shown to perform poorly, we study direct policy search methods instead. The aim of this work is to advance the state-of-the-art in direct policy search and black box optimization. Its contributions include four new algorithms: (1) a novel algorithm which backpropagates recurrent policy gradients through time, as such learning both memory an...     »
Übersetzte Kurzfassung:
Reinforcement Learning (RL) in partiell observablen Umgebungen ist ein wichtiges und schwieriges Problem für adaptive Roboter und andere situierte Agenten. Methoden zur direkten Suche im Raum der möglichen Verhaltensweisen sind hier vielversprechender als traditionelle RL-Verfahren, die erreichte Zustände mit Value Functions bewerten, was in Nicht-Markov-Szenarien nur selten funktioniert. Ziel dieser Arbeit ist daher, den Stand der Kunst in den Bereichen Direct Policy Search und Black Box Opti...     »
WWW:
https://mediatum.ub.tum.de/?id=885959
Eingereicht am:
22.12.2009
Mündliche Prüfung:
10.05.2010
Seiten:
106
Urn (Zitierfähige URL):
https://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:91-diss-20100510-885959-1-8
Letzte Änderung:
11.08.2010
 BibTeX