Die computergestützte Analyse von Bild- und Videodaten gewinnt seit nunmehr zwei Jahrzehnten immer mehr an Bedeutung. Als ein Teilgebiet stellt dabei die automatische Detektion und Verfolgung von Objekten die fundamentale Grundlage für zahlreiche weiterführende Aufgaben aus dem Bereich der Videoanalyse dar.
Die vorliegende Arbeit beschäftigt sich mit der Entwicklung einer neuartigen Architektur zur automatisierten Personenverfolgung mit Fokus auf Besprechungsszenarien. Angelehnt an das physiologische Verständnis der menschlichen Szenenanalyse wird hierzu die Problemstellung des Personentrackings sowohl aus der bottom-up sowie gleichzeitig aus der top-down Sichtweise betrachtet. Ziel hierbei ist eine hybride Systemarchitektur, welche basierend auf einer datengetriebenen Optimierung von Zustandshypothesen eine effiziente Technik zur simultanen Verfolgung mehrerer Personen anhand deren Köpfen realisiert. Unter Nutzung von verschiedenen Objektmodellierungen werden im Rahmen dieser Arbeit diverse Architekturen implementiert, gegeneinander evaluiert und die erzielten Ergebnisse anhand definierter Metriken diskutiert.
Die erhaltenen Trackingergebnisse bilden die Basisinformation für die weiterführende Gestenerkennung. In realen Besprechungen werden Personen häufig von anderen Teilnehmern verdeckt, so dass die ausgeführten Gesten in der zweidimensionalen Bildebene vom System nur partikulär erfasst werden können. Aus diesem Grund wird in dieser Arbeit weiter untersucht, wie sich unterschiedliche Störungen auf die Erkennungsrate von Gesten auswirken. Darauf aufbauend werden Systemkonzepte, die eine Kompensation dieser Störungen erlauben, entworfen und evaluiert.
«