The main goal of this thesis is to automatically capture visual and audio information from videos by using deep learning algorithms and keeping efficiency as a primary concern. Specifically, this thesis focuses on the high-level task of human activity recognition spanning the tasks of action recognition, hand gesture recognition, spatiotemporal action localization, and audio-visual active speaker detection. We present several deep learning architectures for the aforementioned tasks.
Translated abstract:
Das Hauptziel dieser Arbeit ist die automatische Erfassung visueller und akustischer Informationen aus Videos, mithilfe möglichst effizienter Deep-Learning-Algorithmen. Insbesondere konzentriert sich diese Arbeit auf die übergeordnete Aufgabe der menschlichen Aktivitätserkennung, welche Aktionserkennung, Handgestenerkennung, raumzeitliche Aktionslokalisierung und audiovisuelle Aktivsprechererkennung umfasst. Für diese Aufgaben stellen wir mehrere Deep-Learning-Architekturen vor.