ACTION-OBJECT RECOGNITION IN CLUTTERED VIDEO SCENES USING TEXT

A mechanism is provided to implement an action-object interaction detection mechanism for recognizing actions in cluttered video scenes. An object bounding box is computed around an object of interest identified in a corresponding label in an initial frame where the object of interest appears in the...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: GATTIKER, Anne, JAGANNATHAN, Anupama
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:A mechanism is provided to implement an action-object interaction detection mechanism for recognizing actions in cluttered video scenes. An object bounding box is computed around an object of interest identified in a corresponding label in an initial frame where the object of interest appears in the frame. The object bounding box is propagated from the initial frame to a subsequent frame. For the initial frame and the subsequent frame: the object bounding boxes of the initial frame and the subsequent frame are refined and cropped based on the associated refined object bounding boxes. The set of cropped frames are processed to determine a probability that an action that is to be verified from the corresponding label is being performed. Responsive to determining the probability is equal to or exceeds a verification threshold, a confirmation is provided that the action-object interaction video performs the action that is to be verified. L'invention concerne un mécanisme pour mettre en œuvre un mécanisme de détection d'interaction action-objet pour reconnaître des actions dans des scènes vidéo encombrées. Un cadre de contour d'objet est calculé autour d'un objet d'intérêt identifié dans une étiquette correspondante dans une trame initiale où l'objet d'intérêt apparaît dans le cadre. Le cadre de contour d'objet est propagé de la trame initiale vers une trame suivante. Pour la trame initiale et la trame suivante : les cadres de contour d'objet de la trame initiale et de la trame suivante sont affinés et recadrés sur la base des cadres de contour d'objet affinés associés. L'ensemble de trames recadrées est traité pour déterminer une probabilité qu'une action qui doit être vérifiée à partir de l'étiquette correspondante est effectuée. En réponse à la détermination d'une probabilité égale ou supérieure à un seuil de vérification, une confirmation est donnée que la vidéo d'interaction objet d'action réalise l'action qui doit être vérifiée.