Multi-microphone noise reduction techniques as front-end devices for speech recognition

In this paper, we describe different multi-microphone noise reduction techniques as front-ends for a speaker-independent isolated word recognizer in an office environment. Our focus lies on examining the recognition rate if the noise source is not Gaussian and stationary, but a second speaker in the...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:Speech communication 2001-04, Vol.34 (1), p.3-12
Hauptverfasser: Bitzer, Joerg, Simmer, Klaus Uwe, Kammeyer, Karl-Dirk
Format: Artikel
Sprache:eng
Schlagworte:
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:In this paper, we describe different multi-microphone noise reduction techniques as front-ends for a speaker-independent isolated word recognizer in an office environment. Our focus lies on examining the recognition rate if the noise source is not Gaussian and stationary, but a second speaker in the same room. In this case, standard noise reduction techniques like spectral subtraction fail, whereas multi-microphone techniques can raise the recognition rate by using spatial information. We compare the delay-and-sum beamformer, superdirective beamformers, and two post-filter systems. A new adaptive post-filter for superdirective beamformers (APES) is introduced. Our results show that multi-microphone techniques can increase the recognition rate significantly and that the new APES system outperforms related techniques. In dieser Arbeit werden verschiedene Verfahren zur mehrkanaligen Geräuschreduktion als Eingabegeräte bei einem sprecherunabhängigen Einzelworterkenner vorgestellt. Der Schwerpunkt der Arbeit liegt darin, die Veränderung der Erkennungsleistung zu untersuchen, wenn die Störung durch einen zweiten Sprecher und somit durch eine nicht-stationäre und nicht-gaußverteilte Quelle verursacht wird. Für diesen speziellen Fall versagen einkanalige Geräuschreduktionsverfahren, während die Ausnutzung räumlicher Information die Erkennungsrate erhöhen kann. Untersucht wurden dabei nicht-adaptive Verfahren wie der Delay-and-Sum Beamformer, superdirektive Beamformer und adaptive Post-Filter Ansätze. Ein neues Verfahren, das auf einem Post-Filter unter Ausnutzung der besonderen Eigenschaften der superdirektiven Beamformer basiert, wird vorgestellt. Die Ergebnisse zeigen, dass die Ausnutzung räumlicher Information zu einer signifikanten Steigerung der Erkennungsleistung führt und dass der neu entwickelte Algorithmus bessere Ergebnisse liefert als alle anderen untersuchten Verfahren. Dans cette contribution, nous décrivons différentes techniques multi-capteurs de réduction de bruit à la prise de son pour la reconnaissance de mots indépendante du locuteur appliquée à un environnement de bureau. Nous examinons le taux de reconnaissance si la source perturbatrice n'est pas un bruit gaussien et stationnaire, mais un second locuteur présent dans le même local. Dans ce cas, les techniques de réduction de bruit classiques comme la soustraction spectrale sont inefficaces, alors que les méthodes multi-microphones peuvent améliorer le taux de reconnaissance en utilisant l'inf
ISSN:0167-6393
1872-7182
DOI:10.1016/S0167-6393(00)00042-X