REDUCING BIAS IN VISUAL SPEECH RECOGNITION

Systems, methods, and computer-readable media for reducing a bias in visual speech recognition (VSR). In the present embodiments, a comprehensive analysis of the bias (e.g., determining type and severity of the bias) can be performed for each sample in the training data, such as age, gender, and eth...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: COJOCARU, Elena-Ruxandra, ALMAZROUEI, Ebtesam, WU, Kebin
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Systems, methods, and computer-readable media for reducing a bias in visual speech recognition (VSR). In the present embodiments, a comprehensive analysis of the bias (e.g., determining type and severity of the bias) can be performed for each sample in the training data, such as age, gender, and ethnicity, for example. Further, synthetic training data can be generated for under-represented groups using various techniques, such as generative adversarial networks (GANs), for example. Additionally, synthetic video generation can be performed using different modes (e.g., six modes) to ensure quantities and diversity in the synthetic samples. A combination of the real data and the synthetic training data generated can be used to train a VSR model. L'invention concerne des systèmes, des procédés et des supports lisibles par ordinateur pour réduire un biais dans une reconnaissance vocale visuelle (VSR). Dans les modes de réalisation de la présente invention, une analyse complète du biais (par exemple, détermination du type et de la gravité du biais) peut être effectuée pour chaque échantillon dans les données d'apprentissage, telles que l'âge, le sexe et l'ethnicité, par exemple. En outre, des données d'apprentissage synthétiques peuvent être générées pour des groupes sous-représentés à l'aide de diverses techniques, telles que des réseaux antagonistes génératifs (GAN), par exemple. De plus, une génération de vidéo synthétique peut être effectuée à l'aide de différents modes (par exemple, six modes) pour assurer des quantités et une diversité dans les échantillons synthétiques. Une combinaison des données réelles et des données d'apprentissage synthétiques générées peut être utilisée pour entraîner un modèle de VSR.