Um das Eintreten des Kessler-Syndroms zu verhindern und die operationale Lebenszeit von Satelliten zu verlängern, sind Active Debris Removal- und On Orbit Servicing- Missionen geplant. Für beide ist ein unkooperatives Rendezvous-Manöver zwischen den Verfolger und dem Ziel notwendig. Häufig steht kein exaktes 3D-Modell des Ziels zur Verfügung, was die Aufgabe weiter erschwert. Viele Forschungsgruppen und Firmen aus der Weltraumindustrie entwickeln Systeme für unkooperative Rendezvous- Manöver.
Das RACOON-Lab an der TUM ist eine dieser Forschungsgruppen. In ihrem Hardwarein- the-loop-Teststand können Rendezvous-Missionen simuliert werden. In vorangegangenen Arbeiten wurde eine Toolchain entwickelt, die die Trajektorie des Verfolgers um das Ziel sowie eine 3D-Rekonstruktion des Ziels berechnet und dabei ausschließlich auf Daten von Sensoren, die auf dem Verfolger montiert sind, zurückgreift. Dafür wird der DIFODO-Algorithmus eingesetzt. Die Toolchain ist noch nicht für eine reale Mission geeignet, wobei Reflektionen in den verwendeten Bildern die meisten Probleme verursachen.
Diese Arbeit schlägt eine Toolchain zur Evaluation von Reinforcement Learning (RL) zur Verbesserung von Tiefenbildern, die von den auf dem Verfolger monierten Sensoren aufgezeichnet wurden, vor, um die Genauigkeit der 3D-Rekonstruktion und der Trajektorie zu verbessern. Der RL-Agent wählt einen Tiefenbildfilter aus, der auf die Eingabebilder angewendet wird, bevor diese vom DIFODO-Algorithmus verarbeitet werden. Für diese Toolchain wurden ein PPO-Algorithmus sowie eine dichte Belohnungsfunktion ausgewählt. Die RL-Umgebung wurde gemäß OpenAIs Gym-Schnittstelle implementiert. Sie kann daher unabhängig vom in dieser Arbeit genutzten RL-Agenten oder der in dieser Arbeit genutzten Implementierung desselben verwendet werden.
Es wurden aussagekräftige Diagrammarten entwickelt, die mit Funktionen, die als Teil dieser Arbeit implementiert wurden, erstellt werden können. Diese ermöglichen eine Evaluation der Performance des RL-Agenten und der Toolchain selbst. Die Aussagekraft der Diagrammarten wurde in drei Kategorien bewertet: als einzelnes Diagramm, im Vergleich mit anderen Diagrammen der gleichen Art und im Vergleich oder in Kombination mit Diagrammen anderer Art. Zusätzlich wurden Funktionen zur Optimierung zweier Parameter – der Anzahl an parallelen Umgebungen und der Lerngeschwindigkeit – implementiert und getestet. Diese ermölichen eine schnelle Optimierung der Parameter. Die Kombination der Toolchain, der Diagramme und der Funktionen zur Parameteroptimierungbilden ein Werkzeug, das genutzt werden kann, um den Einsatz von RL in künftigen Studien des RACOON-Labs zu evaluieren.
Außerdem wurde die Belohnungsfunktion mit Hilfe einer zuvor im RACOON-Lab aufgezeichneten Trajektorie getestet. Dabei zeigten sich Probleme in allen Komponenten der Belohnungsfunktion, die vor allem von Schwankungen in den Koordinaten und Orientierungen, die der DIFODO-Algorithmus berechnet, hervorgerufen werden. Eine Möglichkeit, dieses Problem in künftigen Arbeiten zur Evaluierung von RL im RACOON-Lab anzugehen, wurde vorgeschlagen.
«
Um das Eintreten des Kessler-Syndroms zu verhindern und die operationale Lebenszeit von Satelliten zu verlängern, sind Active Debris Removal- und On Orbit Servicing- Missionen geplant. Für beide ist ein unkooperatives Rendezvous-Manöver zwischen den Verfolger und dem Ziel notwendig. Häufig steht kein exaktes 3D-Modell des Ziels zur Verfügung, was die Aufgabe weiter erschwert. Viele Forschungsgruppen und Firmen aus der Weltraumindustrie entwickeln Systeme für unkooperative Rendezvous- Manöver.
D...
»