MACHINE LEARNING (ML) BASED EMOTION AND VOICE CONVERSION IN AUDIO USING VIRTUAL DOMAIN MIXING AND FAKE PAIR-MASKING
An electronic device and method for machine learning (ML) based emotion and voice conversion in audio using virtual domain mixing and fake pair-masking is disclosed. The electronic device receives a source audio associated with a first user, a reference-speaker audio associated with a second user, a...
Gespeichert in:
Hauptverfasser: | , , , |
---|---|
Format: | Patent |
Sprache: | eng ; fre |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | An electronic device and method for machine learning (ML) based emotion and voice conversion in audio using virtual domain mixing and fake pair-masking is disclosed. The electronic device receives a source audio associated with a first user, a reference-speaker audio associated with a second user, and a reference-emotion audio associated with a third user. The electronic device applies a set of ML models to generate a converted audio. The generated converted audio is associated with content of the source audio, an identity of the second user and an emotion of the third user. The electronic device applies each of a source speaker classifier and a source emotion classifier on the converted audio, and re-trains an adversarial model. Based on the re-training, the adversarial model may allow conversion of an input audio to an output audio associated with the identity of the second user and the emotion of the third user.
L'invention concerne un dispositif électronique et un procédé de conversion, basée sur l'apprentissage automatique (ML), de l'émotion et de la voix en audio à l'aide d'un mixage dans le domaine virtuel et d'un masquage des fausses paires. Le dispositif électronique reçoit un audio source associé à un premier utilisateur, un audio de locuteur de référence associé à un deuxième utilisateur, et un audio d'émotion de référence associé à un troisième utilisateur. Le dispositif électronique applique un ensemble de modèles d'apprentissage automatique pour générer un audio converti. L'audio converti généré est associé au contenu de l'audio source, à une identité du deuxième utilisateur et à une émotion du troisième utilisateur. Le dispositif électronique applique chacun d'un classificateur de locuteur source et d'un classificateur d'émotion de source sur l'audio converti, et ré-entraîne un modèle contradictoire. Sur la base du ré-entraînement, le modèle contradictoire peut permettre la conversion d'un audio d'entrée en un audio de sortie associé à l'identité du deuxième utilisateur et à l'émotion du troisième utilisateur. |
---|