User: Guest  Login
Original title:
A Study in Direct Policy Search
Translated title:
Eine Studie im Bereich Direct Policy Search
Author:
Wierstra, Daniel
Year:
2010
Document type:
Dissertation
Faculty/School:
Fakultät für Informatik
Advisor:
Schmidhuber, H. Jürgen (Prof. Dr.)
Referee:
Bungartz, Hans-Joachim (Prof. Dr.)
Language:
en
Subject group:
DAT Datenverarbeitung, Informatik
Keywords:
reinforcement learning, black box optimization, policy gradients, POMDPs,
Translated keywords:
partiell observable Umgebungen, Black Box Optimierung
Abstract:
Reinforcement learning in partially observable environments is an important and challenging problem. Since many value function-based methods have been shown to perform poorly, we study direct policy search methods instead. The aim of this work is to advance the state-of-the-art in direct policy search and black box optimization. Its contributions include four new algorithms: (1) a novel algorithm which backpropagates recurrent policy gradients through time, as such learning both memory an...     »
Translated abstract:
Reinforcement Learning (RL) in partiell observablen Umgebungen ist ein wichtiges und schwieriges Problem für adaptive Roboter und andere situierte Agenten. Methoden zur direkten Suche im Raum der möglichen Verhaltensweisen sind hier vielversprechender als traditionelle RL-Verfahren, die erreichte Zustände mit Value Functions bewerten, was in Nicht-Markov-Szenarien nur selten funktioniert. Ziel dieser Arbeit ist daher, den Stand der Kunst in den Bereichen Direct Policy Search und Black Box Opti...     »
WWW:
https://mediatum.ub.tum.de/?id=885959
Date of submission:
22.12.2009
Oral examination:
10.05.2010
Pages:
106
Urn (citeable URL):
https://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:91-diss-20100510-885959-1-8
Last change:
11.08.2010
 BibTeX