For Learning from Demonstrations, the most intuitive way to show human demonstrations to a robot is through computer vision. Human hand and objects are two major components to understand the human demonstrations, observing them accurately is a vital precondition for the robot to successfully imitate human. This thesis provides a fast and accurate camera localization pipeline for object scanning applications and proposes several accurate deep learning-based methods for hand pose estimation.
Übersetzte Kurzfassung:
Für Lernen aus Demonstrationen durch Computer Vision, Hand und Objekte sind zwei Hauptkomponenten, um die menschliche Aktionen zu verstehen. Eine genaue Beobachtung ist eine wichtige Voraussetzung für die erfolgreiche Nachahmung menschlicher Demonstrationen durch den Roboter. Diese Arbeit bietet eine schnelle und genaue Kamera-Lokalisierungs-Pipeline für Objekt-Scanning und schlägt mehrere präzise Deep-Learning-basierte Methoden für Handposenschätzung.