Parameter Exploring Policy Gradients and their Implications

Sehnke, Frank

Frank Sehnke

Wenn Sie Schwierigkeiten haben, das Dokument zu öffnen, versuchen Sie auch bitte diesen Link

Originaltitel:: Parameter Exploring Policy Gradients and their Implications
Übersetzter Titel:: Parameter-explorierende Policy Gradients und ihre Implikationen
Autor:: Sehnke, Frank
Jahr:: 2012
Dokumenttyp:: Dissertation
Fakultät/School:: Fakultät für Informatik
Betreuer:: van der Smagt, Patrick (Prof. Dr.); Schmidhuber, Jürgen (Prof. Dr.)
Gutachter:: van der Smagt, Patrick (Prof. Dr.); Schmidhuber, Jürgen (Prof. Dr.)
Sprache:: en
Fachgebiet:: DAT Datenverarbeitung, Informatik
Stichworte:: Reinforcement Learning, Policy Gradients, Parameter Exploration, Robotics
Übersetzte Stichworte:: Reinforcement Learning, Policy Gradients, Parameter Exploration, Robotik
Schlagworte (SWD):: Bestärkendes Lernen Künstliche Intelligenz; Robotik
TU-Systematik:: DAT 708d; DAT 815d
Kurzfassung:: Reinforcement Learning is the most commonly used class of learning algorithms which lets robots or other systems autonomously learn their behaviour. Learning is enabled solely through interaction with the environment. Today’s learning systems are often confronted with high dimensional and continuous problems. To solve those, so-called Policy Gradient methods are used more and more often. The PGPE algorithm developed in this thesis, a new type of Policy Gradient algorithm, allows model-free learning in complex, continuous, partially observable and high dimensional environments. We show that tasks like grasping of glasses and plates with an human-like arm can be learned with this method without prior knowledge, solely with pure model-free reinforcement learning in a simulation environment. Also, the balancing of a humanoid robot perturbed by external forces, as well as dynamic walking behaviour of a mass-spring system could be learned. In all experiments, PGPE learned the given tasks more efficiently than well-established methods. In addition, the use of PGPE is not restricted to robotics. Among several investigated methods, it was the most successful in cracking non-differentiable physical cryptography systems. PGPE is suitable for training multidimensional recurrent neural networks to play Go, or for fine-tuning deep neural nets for computer vision. In the scope of this thesis, the principles used, the advantages and disadvantages as well as the differences with regard to well-established methods are derived and analysed in detail. «
Reinforcement Learning is the most commonly used class of learning algorithms which lets robots or other systems autonomously learn their behaviour. Learning is enabled solely through interaction with the environment. Today’s learning systems are often confronted with high dimensional and continuous problems. To solve those, so-called Policy Gradient methods are used more and more often. The PGPE algorithm developed in this thesis, a new type of Policy Gradient algorithm, allows model-fre... »
Übersetzte Kurzfassung:: Reinforcement Learning (Bestärkendes Lernen) ist die am häufigsten verwendete Klasse von Lernalgorithmen, um Robotern oder anderen Systemen das selbständige Erlernen ihres Verhalten zu ermöglichen. Lernen geschieht hierbei allein durch Interaktion des Systems mit seiner Umwelt. Heutige lernende Systeme haben es oft mit hochdimensionalen und kontinuierlichen Problemen zu tun. Hierfür kommen vermehrt die so genannten Policy Gradient Methoden zum Einsatz. Der in dieser Arbeit entwickelte PGPE-Algorithms, ein neuer Typ von Policy Gradients, ermöglicht modellfreies Lernen in komplexen, kontinuierlichen, nur teilweise beobachtbaren und hochdimensionalen Umgebungen. Wir zeigen, dass hiermit ohne Vorwissen, durch reines modellfreies bestärkendes Lernen in einer Simulationsumgebung, Aufgaben wie das Greifen von Gläsern und Tellern mit einem dem menschlichen Arm nachempfundenen Roboter erlernt werden. Auch das Balancieren eines humanoiden Roboters der von externen Kräften gestört wird, sowie das dynamische Laufen eines Masse-Feder Systems wurden erlernt. In allen Experimenten lernte PGPE die Aufgaben effizienter als etablierte Methoden. Der Einsatz von PGPE beschränkt sich dabei nicht auf die Robotik. Sie ist die erfolgreichste Methode unter den untersuchten um nicht differenzierbare physikalische Kryptographie Systeme zu brechen. Sie ist geeignet um multidimensionale rekurrente neuronale Netze zu trainieren, Go zu spielen oder um tiefe neuronale Netze für die Bildverarbeitung nachzutrainieren. Die Prinzipien, welche hierbei zur Anwendung kamen, die Vor- und Nachteile sowie die Unterschiede gegenüber den etablierten Methoden werden im Rahmen der Arbeit im Detail hergeleitet und analysiert. «
Reinforcement Learning (Bestärkendes Lernen) ist die am häufigsten verwendete Klasse von Lernalgorithmen, um Robotern oder anderen Systemen das selbständige Erlernen ihres Verhalten zu ermöglichen. Lernen geschieht hierbei allein durch Interaktion des Systems mit seiner Umwelt. Heutige lernende Systeme haben es oft mit hochdimensionalen und kontinuierlichen Problemen zu tun. Hierfür kommen vermehrt die so genannten Policy Gradient Methoden zum Einsatz. Der in dieser Arbeit entwickelte PGP... »
WWW:: https://mediatum.ub.tum.de/?id=1099128
Eingereicht am:: 03.05.2012
Mündliche Prüfung:: 30.10.2012
Dateigröße:: 13148936 bytes
Seiten:: 158
Urn (Zitierfähige URL):: https://nbn-resolving.org/urn:nbn:de:bvb:91-diss-20121030-1099128-0-7
Letzte Änderung:: 11.04.2013
BibTeX

Vorkommen:

mediaTUM Gesamtbestand Elektronische Prüfungsarbeiten School TUM School of Computation, Information and Technology

mediaTUM Gesamtbestand Einrichtungen Schools TUM School of Computation, Information and Technology Prüfungsarbeiten Dissertationen