Die videobasierte Objektlokalisation ist aus Anwendungen zur Vermessung in der industriellen Inspektion, der Navigation von autonomen Systemen und bei Greifvorgängen in der Robotik bekannt. Hierbei stützen sich die Systeme meist auf starre Objektmodelle, die aus CAD-Daten generiert werden. Im Gegensatz hierzu sind auch nicht-starre Objekte und deren Bewegung mit Bildinterpretationssystemen zu beobachten, wobei die Objekte entsprechend ihrer Beweglichkeit noch weiter klassifiziert werden. Eine solche Klasse sind die artikularen Objekte, die sich aus mehreren einzelnen Objektmodellteilen zusammensetzen, die durch Gelenke miteinander verbunden sind. Es wird daher ein dreischichtiges generisches Modell zur Repräsentation von artikularen Objekten vorgestellt. Über eine hierarchische, innere Struktur des Modells kann ein beliebiger innerer Zusammenhang zwischen Objektmodellteilen beschrieben werden. Mit einer geometrischen Struktur ist die 3D Lage der einzelnen Objektmodellteile zueinander bestimmt, so daß sich die Kinematik der Objekte beschreiben läßt. In einer äußeren Struktur wird schließlich die Erscheinung der einzelnen Objektmodellteile über 3D Volumenkörper und über, im Videobild zu detektierende, Merkmale repräsentiert. Im Unterschied zu anderen Ansätzen wird kein Bewegungsmodell vorausgesetzt, um die Konfiguration / Haltung der Objekte vorherzusagen. Daher wird bei der Interpretation kein 2D-2D Vergleich von einem projizierten 3D Modell mit extrahierten Bildmerkmalen, sondern die Interpretation im 3D Raum vorgenommen. Hierzu wird ein Interpretationsbaum verwendet, dessen Aufbau durch die innere Objektmodellstruktur bestimmt ist. Restriktionen, die sich aus der geometrischen und äußeren Modellstruktur ergeben, begrenzen die Suche im Baum. Werden Objekte und deren Bewegung nach einer initialen Detektion verfolgt, wird die Suche darüber hinaus durch 3D Suchräume eingeschränkt, die aus der erfaßten Bewegung der einzelnen Objektmodellteile heraus prädiziert werden. Das Objektmodell ist derart gestaltet, daß die für die Interpretation notwendigen 3D Positionen der Merkmale sowohl über einen monokularen Ansatz geschätzt, als auch durch die Verwendung von mehreren Ansichten mit einem Stereoansatz vermessen werden können. Die bei der Interpretation zu verwendenden Kameras werden entsprechend der Sichtbarkeit der 3D Suchräume ausgewählt, wobei die Kameras zu einem 3D Bezugssystem kalibriert sind. Hierüber und durch die konsequente 3D Modellierung ist implizit eine Verfolgung des Objektes über mehrere Kameras realisiert, sowie bei aktiven Kamerasystemen eine Optimierung der Sichtbereiche durch gezielte Positionierung der Kameras möglich. Die Beobachtung artikularer Bewegung wird meist mit der Beobachtung menschlicher Bewegung gleichgesetzt, dementsprechend werden auch hier Anwendungen auf Personen gezeigt. Hierzu realisiert das modellbasierte Bildinterpretationssystem STABIL++ das dargestellte Konzept. Die Flexibilität der Modellierung erlaubt es, neben einer 3D Personendetektion und -verfolgung für Anwendungen in der Sicherheitstechnik, Anwendungen zur 3D Bewegungserfassung für die Analyse von Bewegungsabläufen unter z.B. ergonomischen Gesichtspunkten zu realisieren.
«
Die videobasierte Objektlokalisation ist aus Anwendungen zur Vermessung in der industriellen Inspektion, der Navigation von autonomen Systemen und bei Greifvorgängen in der Robotik bekannt. Hierbei stützen sich die Systeme meist auf starre Objektmodelle, die aus CAD-Daten generiert werden. Im Gegensatz hierzu sind auch nicht-starre Objekte und deren Bewegung mit Bildinterpretationssystemen zu beobachten, wobei die Objekte entsprechend ihrer Beweglichkeit noch weiter klassifiziert werden. Eine so...
»