NEURAL NETWORK VOICE ACTIVITY DETECTION EMPLOYING RUNNING RANGE NORMALIZATION

A "running range normalization" method includes computing running estimates of the range of values of features useful for voice activity detection (VAD) and normalizing the features by mapping them to a desired range. Running range normalization includes computation of running estimates of...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
1. Verfasser: VICKERS, EARL
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:A "running range normalization" method includes computing running estimates of the range of values of features useful for voice activity detection (VAD) and normalizing the features by mapping them to a desired range. Running range normalization includes computation of running estimates of the minimum and maximum values of VAD features and normalizing the feature values by mapping the original range to a desired range. Smoothing coefficients are optionally selected to directionally bias a rate of change of at least one of the running estimates of the minimum and maximum values. The normalized VAD feature parameters are used to train a machine learning algorithm to detect voice activity and to use the trained machine learning algorithm to isolate or enhance the speech component of the audio data. L'invention concerne un procédé de "normalisation de plage d'exécution" comprenant le calcul d'estimées d'exécution de la plage de valeurs de caractéristiques utiles pour la détection d'activité vocale (VAD) et la normalisation des caractéristiques par mise en correspondance de celles-ci avec une plage souhaitée. La normalisation de plage d'exécution comprend le calcul d'estimées d'exécution des valeurs minimales et maximales de caractéristiques de VAD et la normalisation des valeurs de caractéristiques par mise en correspondance de la plage d'origine avec une plage souhaitée. Des coefficients de lissage sont facultativement sélectionnés pour polariser de manière directionnelle une vitesse de changement d'au moins l'une des estimées d'exécution des valeurs minimale et maximale. Les paramètres de caractéristiques de VAD normalisés sont utilisés pour entraîner un algorithme d'apprentissage de machine à détecter une activité vocale et utiliser l'algorithme d'apprentissage de machine entraîné pour isoler ou améliorer la composante de parole des données audio.