Reinforcement Learning (RL) in partiell observablen Umgebungen ist ein wichtiges und schwieriges Problem für adaptive Roboter und andere situierte Agenten. Methoden zur direkten Suche im Raum der möglichen Verhaltensweisen sind hier vielversprechender als traditionelle RL-Verfahren, die erreichte Zustände mit Value Functions bewerten, was in Nicht-Markov-Szenarien nur selten funktioniert. Ziel dieser Arbeit ist daher, den Stand der Kunst in den Bereichen Direct Policy Search und Black Box Optimierung zu erweitern, und zwar durch eine Taxonomie bestehender RL-Methoden
sowie der Einführung von vier neuen Algorithmen.
Experimente weisen deren hohe Konkurrenzfähigkeit bei einer Vielzahl von Testproblemen nach, von Standard Benchmarks bis hin zur feinregulierten Motoriksteuerung in Fahrsimulationen.
«
Reinforcement Learning (RL) in partiell observablen Umgebungen ist ein wichtiges und schwieriges Problem für adaptive Roboter und andere situierte Agenten. Methoden zur direkten Suche im Raum der möglichen Verhaltensweisen sind hier vielversprechender als traditionelle RL-Verfahren, die erreichte Zustände mit Value Functions bewerten, was in Nicht-Markov-Szenarien nur selten funktioniert. Ziel dieser Arbeit ist daher, den Stand der Kunst in den Bereichen Direct Policy Search und Black Box Opti...
»