SYSTEM AND METHOD FOR VISUAL EVENT DESCRIPTION AND EVENT ANALYSIS

A system and method are provided for analyzing a video. The method comprises: sampling the video to generate a plurality of spatio-temporal video volumes; clustering similar ones of the plurality of spatio-temporal video volumes to generate a low-level codebook of video volumes; analyzing the low-le...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: JAVAN ROSHTKHARI, MEHRSAN, LEVINE, MARTIN D
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:A system and method are provided for analyzing a video. The method comprises: sampling the video to generate a plurality of spatio-temporal video volumes; clustering similar ones of the plurality of spatio-temporal video volumes to generate a low-level codebook of video volumes; analyzing the low-level codebook of video volumes to generate a plurality of ensembles of volumes surrounding pixels in the video; and clustering the plurality of ensembles of volumes by determining similarities between the ensembles of volumes, to generate at least one high-level codebook. Multiple high-level codebooks can be generated by repeating steps of the method. The method can further include performing visual event retrieval by using the at least one high- level codebook to make an inference from the video, for example comparing the video to a dataset and retrieving at least one similar video, activity and event labeling, and performing abnormal and normal event detection. L'invention concerne un système et un procédé d'analyse d'une vidéo. Le procédé comprend les étapes suivantes : échantillonner la vidéo pour produire une pluralité de volumes spatio-temporels de vidéo ; regrouper des volumes similaires de la pluralité de volumes spatio-temporels de vidéo pour produire un livre de codes de bas niveau de volumes de vidéo ; analyser le livre de codes de bas niveau de volumes de vidéo pour produire une pluralité d'ensembles de pixels entourant des volumes dans la vidéo ; et regrouper la pluralité d'ensembles de volumes en déterminant des similitudes entre les ensembles de volumes, pour produire au moins un livre de codes de haut niveau. De multiples livres de codes de haut niveau peuvent être produits en répétant les étapes du procédé. Le procédé peut aussi consister à effectuer une récupération d'évènement visuel en utilisant ledit livre de codes de haut niveau pour effectuer une inférence à partir de la vidéo, par exemple comparer la vidéo à un ensemble de données et récupérer au moins une vidéo similaire, étiqueter des activités et des évènements, et effectuer une détection d'évènements normaux et anormaux.