AUDIO GENERATOR AND METHODS FOR GENERATING AN AUDIO SIGNAL AND TRAINING AN AUDIO GENERATOR

There are disclosed techniques for generating an audio signal and training an audio generator. An audio generator (10) may generate an audio signal (16) from an input signal (14) and target data (12) representing the audio signal (16). The target data (12) is derived from text. The audio generator c...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: KORSE, Srikanth, BÜTHE, Jan, MULTRUS, Markus, FUCHS, Guillaume, AHMED, Ahmed Mustafa Mahmoud, PIA, Nicola, GUPTA, Kishan
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:There are disclosed techniques for generating an audio signal and training an audio generator. An audio generator (10) may generate an audio signal (16) from an input signal (14) and target data (12) representing the audio signal (16). The target data (12) is derived from text. The audio generator comprises: a first processing block (40, 50, 50a-50h), receiving first data (15, 59a) derived from the input signal (14) and outputting first output data (69); a second processing block (45), receiving, as second data, the first output data (69) or data derived from the first output data (69). The first processing block (50) comprises: a conditioning set of learnable layers (71, 72, 73) configured to process the target data (12) to obtain conditioning features parameters (74, 75); and a styling element (77), configured to apply the conditioning feature parameters (74, 75) to the first data (15, 59a) or normalized first data (59, 76'). La divulgation concerne des techniques de génération d'un signal audio et d'entraînement d'un générateur audio. Un générateur audio (10) peut générer un signal audio (16) à partir d'un signal d'entrée (14) et des données cibles (12) représentant le signal audio (16). Les données cibles (12) sont dérivées du texte. Le générateur audio comprend : un premier bloc de traitement (40, 50, 50a-50h), recevant de premières données (15, 59a) dérivées du signal d'entrée (14) et délivrant de premières données de sortie (69) ; un second bloc de traitement (45), recevant, en tant que secondes données, les premières données de sortie (69) ou des données dérivées des premières données de sortie (69). Le premier bloc de traitement (50) comprend : un ensemble de conditionnement de couches pouvant être apprises (71, 72, 73) conçu pour traiter les données cibles (12) afin d'obtenir des paramètres de caractéristiques de conditionnement (74, 75) ; et un élément de mise en forme (77), conçu pour appliquer les paramètres de caractéristiques de conditionnement (74, 75) aux premières données (15, 59a) ou aux premières données normalisées (59, 76').