Viele Maschinensteuerungsaufgaben sind so komplex, dass es zu aufwändig wäre, sie von Hand zu programmieren. Im Idealfall wird hier das gewünschte Verhalten durch Lernalgorithmen erreicht. Geeignete Algorithmen müssen automatisch und basierend auf Erfahrungen aus der Interaktion mit der Umwelt der Maschine lernen. Leider zeigen viele gängige Lernalgorithmen für reale Maschinensteuerungsaufgaben einige Probleme: Sehr große und hochdimensionale Zustandsräume erschweren induktives Lernen, und es kann schwierig sein, eine ausreichende Menge geeigneter Trainingsdaten zu bekommen. Ursache dafür kann einerseits ein Mangel an Zeit sein; andererseits ist es vielleicht schwierig, überhaupt gute Beispiele zum Lernen zu finden. Darber hinaus basieren die meisten gebräuchlichen Lernalgorithmen auf einem diskreten MDP-Modell des kontinuierlichen Zustandsraumes, leiden unter der inkrementellen Summierung von Fehlern während des Lernens und vernachlässigen die Existenz von unerwünschten Zuständen. Die Idee, die dem vorgestellten Ansatz für erfahrungsbasierte Regelung zugrunde liegt, basiert auf der Ausnutzung von Trajektorien erfolgreicher Explorationen zur Approximation einer Bewertungsfunktion für den Zustandsraum. Um auch mit wenigen Trainingsdaten zum Erfolg zu gelangen, wird eine realistische neuronale Simulation der Dynamik der Maschine verwendet. Weiter werden intelligente Explorationstechniken wie z.B. Rückwrtsexploration eingesetzt, um an Trainingsdaten zu gelangen. Die Kombination verschiedener Explorationstechniken erlaubt die Integration verschiedensten initialen Wissens, und unerwünschte Zustände können vorab spezifiziert werden. Da die Mehrheit der technischen Maschinensteuerungsaufgaben deterministisches Verhalten - oder zumindest eine unimodale Verteilung mit kleiner Varianz - zeigt, ist es möglich, das komplexe MDP-Modell, das ohnehin für diskrete Zustände entwickelt wurde, durch eine einfache Projektionsfunktion zu ersetzen. Die vorgestellten Algorithmen arbeiten direkt in einem kontinuierlichen Zustandsraum und führen eine Anzahl von Explorationen durch, bevor die gesammelten Daten zum Lernen eingesetzt werden. Das ist auch der Hauptgrund, warum der vorgestellte Ansatz gegen die inkrementelle Summierung von Fehlern robust ist, die in konventionellen Lernalgorithmen weit verbreitet ist. Zur praktikablen und effizienten Approximation kontinuierlicher Funktionen werden neuronale Netze und Netze von radialen Basisfunktionen eingesetzt. Die vorgestellten Methoden wurden erfolgreich in mehreren Navigationsaufgaben sowie in der situationsabhängigen Algorithmenauswahl eingesetzt.
«
Viele Maschinensteuerungsaufgaben sind so komplex, dass es zu aufwändig wäre, sie von Hand zu programmieren. Im Idealfall wird hier das gewünschte Verhalten durch Lernalgorithmen erreicht. Geeignete Algorithmen müssen automatisch und basierend auf Erfahrungen aus der Interaktion mit der Umwelt der Maschine lernen. Leider zeigen viele gängige Lernalgorithmen für reale Maschinensteuerungsaufgaben einige Probleme: Sehr große und hochdimensionale Zustandsräume erschweren induktives Lernen, und es ka...
»