SYSTEMS AND METHODS FOR ENCODING TEMPORAL INFORMATION FOR VIDEO INSTANCE SEGMENTATION AND OBJECT DETECTION

Embodiments disclosed herein relate to video instance segmentation and video object detection, and more particularly to encoding of temporal information for stable video instance segmentation and video object detection. A neural network analyzes an input frame of a video to output a prediction templ...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: IYER, Kiran Nanjunda, DAS, Shouvik, DAS, Biplab Ch, BANDYOPADHYAY, Himadri Sekhar
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Embodiments disclosed herein relate to video instance segmentation and video object detection, and more particularly to encoding of temporal information for stable video instance segmentation and video object detection. A neural network analyzes an input frame of a video to output a prediction template. The prediction template either has segmentation masks of the objects in the input frame or has bounding boxes surrounding the objects in the input frame. The prediction template is then colour coded by a template generator. The colour coded template, along with the frame subsequent to the input frame, is fed to a template encoder such that temporal information from the input frame is encoded into the output of the temporal encoder. Les modes de réalisation divulgués concernent la segmentation d'une instance vidéo et la détection d'un objet vidéo, plus précisément le codage d'informations temporelles permettant une segmentation d'une instance vidéo stable et une détection d'un objet vidéo. Un réseau neuronal analyse une image d'entrée d'une vidéo de façon à délivrer en sortie un modèle de prédiction. Le modèle de prédiction contient des masques de segmentation des objets dans l'image d'entrée ou des cadres de délimitation entourant les objets dans l'image d'entrée. Le modèle de prédiction est ensuite codé par couleurs par un générateur de modèle. Le modèle codé par couleurs est délivré à un codeur de modèle en même temps que l'image consécutive à l'image d'entrée, de sorte que les informations temporelles provenant de l'image d'entrée sont codées dans la sortie du codeur temporel.