Towards audio-visual deep learning methods for singing voice separation and lip synchronization
A typical music audio consists of different sounds spread across voices and musical instruments. We propose a low-cost deep learning (DL) method for simultaneously isolating multiple sound sources present in a music audio. The specific case of isolating a voice in a music audio containing more than...
Gespeichert in:
1. Verfasser: | |
---|---|
Format: | Dissertation |
Sprache: | eng |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | A typical music audio consists of different sounds spread across voices
and musical instruments. We propose a low-cost deep learning (DL)
method for simultaneously isolating multiple sound sources present in
a music audio.
The specific case of isolating a voice in a music audio containing more
than one overlapping singing voice is particularly challenging. The existing
source separation methods operating in audio modality alone do not
perform well in isolating a particular singing voice in such multi-voice
settings. To address this problem, we present an audio-visual DL method
that makes use of motion features sourced from the visual modality to
assist in the singing voice separation task.
Finally, we develop a new DL model to detect the synchronization
between lip motion and a voice audio. We show that the visual features
learned by our lip synchronization detector serves as a useful means in
guiding the singing voice separation in multi-voice music videos.
Un àudio musical típic està format per diferents sons repartits en veus i
instruments musicals. Proposem un mètode d’aprenentatge profund (DL)
de baix cost per aïllar simultàniament diverses fonts de so presents en un
àudio musical.
El cas concret d’aïllar una veu en un àudio musical que conté més
d’una veu cantada superposada és especialment difícil. Els mètodes de
separació de fonts existents que funcionen només en la modalitat d’àudio
no funcionen bé a l’hora d’aïllar una veu cantada concreta en aquest escenari
de diverses veus. Per solucionar aquest problema, presentem un
mètode DL audiovisual que fa ús de característiques de moviment procedents
de la modalitat visual per ajudar en la tasca de separació de la veu
cantada.
Finalment, desenvolupem un nou model DL per detectar la sincronització entre el moviment dels llavis i un àudio de veu. Mostrem que les
característiques visuals apreses pel nostre detector de sincronització de
llavis serveixen com a mitjà útil per guiar la separació de la veu cantada
en vídeos musicals amb diverses veus.
Un audio musical típico se compone de diferentes sonidos repartidos entre
voces e instrumentos musicales. Proponemos un método de aprendizaje
profundo (DL) de bajo coste para aislar simultáneamente múltiples
fuentes de sonido presentes en un audio musical.
El caso específico de aislar una voz en un audio musical que contiene
más de una voz cantada superpuesta es particularmente desafiante. Los
métodos de separación de fuentes existentes que funcionan solo en la mo |
---|