Deep-Learning in 3D View

The main idea of this project is to investigate the use of novel deep learning techniques and to apply them in the reconstruction of virtual views in multi-view scenarios. Using a set of discrete views of the scene recorded with real cameras, deep learning techniques will be used to compute views fr...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
1. Verfasser: Marí Pardo, Juan Luis
Format: Dissertation
Sprache:eng
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:The main idea of this project is to investigate the use of novel deep learning techniques and to apply them in the reconstruction of virtual views in multi-view scenarios. Using a set of discrete views of the scene recorded with real cameras, deep learning techniques will be used to compute views from virtual cameras. This project arose in response to the tremendous growth in the use of Deep Learning techniques in different fields of research in recent years. The main goal consists on integrating a neural network in a system to generate stereo images. Specifically, the aim of this work is the synthesis of a virtual view at a distance of 6 cm from an incoming image, according to the separation between eyes so both images could be able to perform binocular vision. To do this, an estimation of the depth map of the input image is needed, performed by a Convolutional Neural Network (CNN) used to extract features and thereby be able to compute depths. This procedure generates a 3D point cloud from which to render the new view by geometric reprojections based on Image-Based Rendering Techniques (IBRT). The results have been similar to those expected without achieving improvements over the state-of-art but considerably close. Este proyecto nace dado el gran crecimiento en el uso de técnicas de Deep Learning en distintos campos de investigación producido en los últimos años, con la intención de integrar una red neuronal en un sistema para la generación de imágenes estéreo. Concretamente, el objetivo del trabajo es la síntesis de una vista virtual situada a una distancia de 6 cm de una imagen entrante, de acuerdo con la separación aproximada entre ojos de manera que ambas imágenes generen visión binocular. Para ello, es necesaria una estimación del mapa de profundidad de la imagen entrante, la cual ha sido realizada mediante una red neuronal convolucional (CNN) capaz de extraer sus características y así estimar profundidades. Con esto obtendremos una nube de puntos 3D a partir de la cual generar la nueva vista mediante reproyecciones geométricas basadas en Image-Based Rendering Techniques (IBRT). Los resultados obtenidos han sido similares a los esperados, sin lograr mejoras respecto el estado del arte actual, pero considerablemente cercanos. Aquest projecte neix donat el gran creixement en l'ús de tècniques de Deep Learning en diferents camps d'investigació produït en els últims anys, amb la intenció d'integrar una xarxa neuronal en un sistema per a la generació d'