Ein Roboter, der mit einem Menschen interagieren soll, muss in der Lage sein Daten aus unterschiedlichen Eingabekanälen zu verarbeiten: Er muss die Äußerungen des Menschen verstehen und verarbeiten können, mit Sensoren seine Umgebung überwachen und er muss mit Kontextinformationen über die Aufgabe, für die er programmiert wurde, umgehen können. Üblicherweise werden diese unterschiedlichen Fähigkeiten in einem Mensch-Roboter-Interaktionssystem durch spezialisierte Einzelteile realisiert. Daher muss der Roboter auch in der Lage sein die Informationen aus seinen Eingabekanälen zu integrieren. Diese Integration von Informationen aus Eingabekanälen wird multimodale Fusion genannt.
In dieser Arbeit werden zwei Ansätze für multimodale Fusion für einen Roboter, der mit einem Menschen zusammenarbeitet, vorgestellt. Der erste Ansatz, die sogenannte classical multimodal fusion, ist auf die Verarbeitung von menschlichen Äußerungen fokussiert. Hier verarbeitet der Roboter die Sprache und Gesten seines menschlichen Partners mit klassischen Methoden der künstlichen Intelligenz um eine logische Repräsentation der Äußerungen zu erstellen. Anschließend wird diese Repräsentation mit Kontextinformationen von anderen Eingabemodalitäten des Roboter angereichert. Im Gegensatz dazu generiert der Roboter bei dem zweiten Ansatz, der sogennanten embodied multimodal fusion, Repräsentationen die seine eigenen Handlungen in Bezug zu Objekten in seiner Umgebung stellen. Die Informationen aus den Eingabekanälen des Roboters, zu denen auch die menschlichen Äußerungen gehören, verwendet der Roboter dazu, die Relevanz seiner eigenen Aktionen für einen gegebenen Kontext zu bewerten.
Nach einer Literaturrecherche werden in dieser Arbeit zunächst die theoretischen Grundlagen für die beiden vorgestellten Ansätze zur multimodalen Fusion diskutiert und eine Implementierung auf einem Roboter vorgestellt, der in der Lage ist mit einem Menschen zusammen an einer gemeinsamen Aufgabe zu arbeiten und dabei multimodale Eingaben verarbeitet und auch multimodale Äußerungen generiert. Die vorgestellten Implementierungen werden dazu verwendet um drei Mensch-Roboter-Interaktionsexperimente durchzuführen, in denen unbefangene Versuchspersonen mit dem Roboter zusammenarbeiten. Diese Experimente dienen dazu verschiedene Aspekte der Zusammenarbeit zwischen Mensch und Roboter zu erforschen.
Die Experimente zeigen mehrere interessante Ergebnisse: Das erste Experiment zeigt, dass die Benutzer es bevorzugen, wenn der Roboter beim Erklären von Bauplänen zuerst das zu bauende Zielobjekt benennt und erst danach die einzelnen Bauschritte erklärt und nicht umgekehrt. Sowohl das erste als auch das zweite Experiment zeigen, dass die Menschen den Roboter als besseren Dialogpartner wahrnehmen, wenn dieser beim Benennen von Objekten in seiner Umgebung Ausdrücke verwendet, die Kontextinformation mit einbeziehen. Dies konnte in zwei verschiedenen Kontexten gezeigt werden. Das dritte Experiment zeigt, dass die Versuchspersonen keine klare Präferenz haben, welche Rolle der Roboter in der Interaktion einnimmt (sei es als Instrukteur oder als gleichberechtigter Partner), sondern einfach das eigene Verhalten an das des Roboters anpassen.
«
Ein Roboter, der mit einem Menschen interagieren soll, muss in der Lage sein Daten aus unterschiedlichen Eingabekanälen zu verarbeiten: Er muss die Äußerungen des Menschen verstehen und verarbeiten können, mit Sensoren seine Umgebung überwachen und er muss mit Kontextinformationen über die Aufgabe, für die er programmiert wurde, umgehen können. Üblicherweise werden diese unterschiedlichen Fähigkeiten in einem Mensch-Roboter-Interaktionssystem durch spezialisierte Einzelteile realisiert. Daher mu...
»