Towards audio-visual deep learning methods for singing voice separation and lip synchronization

A typical music audio consists of different sounds spread across voices and musical instruments. We propose a low-cost deep learning (DL) method for simultaneously isolating multiple sound sources present in a music audio. The specific case of isolating a voice in a music audio containing more than...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
1. Verfasser: Shenoy Kadandale, Venkatesh
Format: Dissertation
Sprache:eng
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:A typical music audio consists of different sounds spread across voices and musical instruments. We propose a low-cost deep learning (DL) method for simultaneously isolating multiple sound sources present in a music audio. The specific case of isolating a voice in a music audio containing more than one overlapping singing voice is particularly challenging. The existing source separation methods operating in audio modality alone do not perform well in isolating a particular singing voice in such multi-voice settings. To address this problem, we present an audio-visual DL method that makes use of motion features sourced from the visual modality to assist in the singing voice separation task. Finally, we develop a new DL model to detect the synchronization between lip motion and a voice audio. We show that the visual features learned by our lip synchronization detector serves as a useful means in guiding the singing voice separation in multi-voice music videos. Un àudio musical típic està format per diferents sons repartits en veus i instruments musicals. Proposem un mètode d’aprenentatge profund (DL) de baix cost per aïllar simultàniament diverses fonts de so presents en un àudio musical. El cas concret d’aïllar una veu en un àudio musical que conté més d’una veu cantada superposada és especialment difícil. Els mètodes de separació de fonts existents que funcionen només en la modalitat d’àudio no funcionen bé a l’hora d’aïllar una veu cantada concreta en aquest escenari de diverses veus. Per solucionar aquest problema, presentem un mètode DL audiovisual que fa ús de característiques de moviment procedents de la modalitat visual per ajudar en la tasca de separació de la veu cantada. Finalment, desenvolupem un nou model DL per detectar la sincronització entre el moviment dels llavis i un àudio de veu. Mostrem que les característiques visuals apreses pel nostre detector de sincronització de llavis serveixen com a mitjà útil per guiar la separació de la veu cantada en vídeos musicals amb diverses veus. Un audio musical típico se compone de diferentes sonidos repartidos entre voces e instrumentos musicales. Proponemos un método de aprendizaje profundo (DL) de bajo coste para aislar simultáneamente múltiples fuentes de sonido presentes en un audio musical. El caso específico de aislar una voz en un audio musical que contiene más de una voz cantada superpuesta es particularmente desafiante. Los métodos de separación de fuentes existentes que funcionan solo en la mo