DYNAMIC TEMPORAL FUSION FOR VIDEO RECOGNITION

Systems and techniques are described herein for performing dynamic temporal fusion for video classification, such as recognition, detection, and/or other form of classification. For example, a computing device can generate, via a first network, frame-level features obtained from a set of input frame...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	YUN, Sungrack, LEE, Juntae
Format:	Patent
Sprache:	eng ; fre
Schlagworte:	CALCULATING COMPUTING COUNTING PHYSICS
Online-Zugang:	Volltext bestellen
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Beschreibung
Zusammenfassung:	Systems and techniques are described herein for performing dynamic temporal fusion for video classification, such as recognition, detection, and/or other form of classification. For example, a computing device can generate, via a first network, frame-level features obtained from a set of input frames. The computing device can generate, via a first multi-scale temporal feature fusion engine, first local temporal context features from a first neighboring sub-sequence of the set of input frames. The computing device can generate, via a second multi-scale temporal feature fusion engine, second local temporal context features from a second neighboring sub-sequence of the set of input frames. The computing device can further classify the set of input frames based on the first local temporal context features and the second local temporal context features. L'invention concerne des systèmes et des techniques pour effectuer une fusion temporelle dynamique pour une classification vidéo, telle qu'une reconnaissance, une détection et/ou une autre forme de classification. Par exemple, un dispositif informatique peut générer, par le biais d'un premier réseau, des caractéristiques de niveau de trame obtenues à partir d'un ensemble de trames d'entrée. Le dispositif informatique peut générer, par le biais d'un premier moteur de fusion de caractéristiques temporelles à échelles multiples, des premières caractéristiques de contexte temporel local à partir d'une première sous-séquence voisine de l'ensemble de trames d'entrée. Le dispositif informatique peut générer, par le biais d'un second moteur de fusion de caractéristiques temporelles à échelles multiples, des secondes caractéristiques de contexte temporel local à partir d'une seconde sous-séquence voisine de l'ensemble de trames d'entrée. Le dispositif informatique peut en outre classer l'ensemble de trames d'entrée sur la base des premières caractéristiques de contexte temporel local et des secondes caractéristiques de contexte temporel local.