DEPTH MAPS PREDICTION SYSTEM AND TRAINING METHOD FOR SUCH A SYSTEM

A depth maps prediction system comprising a neural network (1000) configured to receive images (I) of a scene at successive time steps (t-1,t,t+1,...) and comprising three sub-networks: an encoder (100), a ConvLSTM (200) and a decoder- (300). The neural network (1000) is configured so that at each t...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: VAN GOOL, Luc, VIGNARD, Nicolas, DAI, Dengxin, PATIL, Vaishakh
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:A depth maps prediction system comprising a neural network (1000) configured to receive images (I) of a scene at successive time steps (t-1,t,t+1,...) and comprising three sub-networks: an encoder (100), a ConvLSTM (200) and a decoder- (300). The neural network (1000) is configured so that at each time step: a) the encoder sub-network (100) processes an image (I) and outputs a low resolution initial image representation (X); b) the CONVLSTM sub-network (200) processes the initial image representation (X), values for a previous time step (t-1) of an internal state (C(t-1)) and of an LSTM hidden variable data (H(t-1)) of the ConvLSTM sub-network, and outputs updated values of the internal state (C(t)) and of the LSTM hidden variable data (H(t)); and c) the decoder sub-network (300) inputs the LSTM output data (LOD) and generates a predicted dense depth map (D'') for the inputted image (I). L'invention concerne un système de prédiction de cartes de profondeur qui comprend un réseau neuronal (1000) configuré pour recevoir des images (I) d'une scène à des étapes temporelles successives (t-1,t,t+1,...) et comprenant trois sous-réseaux : un codeur (100), un ConvLSTM (200) et un décodeur (300). Le réseau neuronal (1000) est configuré de telle sorte qu'à chaque étape temporelle : a) le sous-réseau de codage (100) traite une image (I) et délivre en sortie une représentation d'image initiale à faible résolution (X) ; b) le sous-réseau CONVLSTM (200) traite la représentation d'image initiale (X), des valeurs pour une étape précédente (t-1) d'un état interne (C(t-1)) et d'une donnée variable cachée LSTM (H (t-1)) du sous-réseau concave, et délivre des valeurs mises à jour de l'état interne (C(t)) et des données variables cachées LSTM (H (t)) ; et c) le sous-réseau de décodeur (300) entre les données de sortie LSTM (LOD) et génère une carte de profondeur dense prédite (D'') pour l'image entrée (I).