Experiments with a nonlinear spectral subtractor (NSS), Hidden Markov models and the projection, for robust speech recognition in cars

Achieving reliable performance for a speech recogniser is an important challenge, especially in the context of mobile telephony applications where the user can access telephone functions through voice. The breakthrough of such a technology is appealing, since the driver can concentrate completely an...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:Speech communication 1992-06, Vol.11 (2), p.215-228
Hauptverfasser: Lockwood, P., Boudy, J.
Format: Artikel
Sprache:eng
Schlagworte:
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Achieving reliable performance for a speech recogniser is an important challenge, especially in the context of mobile telephony applications where the user can access telephone functions through voice. The breakthrough of such a technology is appealing, since the driver can concentrate completely and safely on his task while composing and conversing in a “full” hands-free mode. This paper addresses the problem of speaker-dependent discrete utterance recognition in noise. Special reference is made to the mismatch effects due to the fact that training and testing are made in different environments. A novel technique for noise compensation is proposed: nonlinear spectral subtraction (NSS). Robust variance estimates and robust pdf evaluations (projection) are also introduced and combined with NSS into the HMM framework. We show that the lower limit of applicability of the projection (low SNR values) can be loosened after combination with NSS. Experimental results are reported. The performance of an HMM-based recogniser rises from 56% (no compensation) to 98% after speech enhancement. More than 3300 utterances have been used to evaluate the systems (three databases, two European languages). This result is achieved by the use of robust training/recognition schemes and by preprocessing the noisy speech by NSS. Leistungsfähige Spracherkenner zu entwickeln ist eine wichtige Forschungsaufgabe. Dies gilt insbesondere auch im Bereich des Mobilfunks, wenn der Benutzer sein mobiles Telefon durch akustische Eingabe bedienen können soll. Derartige Verfahren können beispielsweise dann attraktiv sein, wenn sich ein Autofahrer in die Lage versetzt sieht, Telefonverbindungen zu wählen und Telefongespräche zu führen, ohne seine Hände vom Steuer nehmen zu müssen, und sich somit vollständig und sicher aufs Fahren konzentrieren kann. Der vorliegende Beitrag befaβt sich mit dem Problem sprecherabhängiger Erkennung isolierter Äuβerungen in geräuschvoller Umgebung. Hierbei wird insbesondere das Problem diskutiert, das dadurch entsteht, daβ die Umgebungsbedingungen beim Training und beim Einsatz des Algorithmus erheblich voneinander abweichen. Präsentiert wird das Verfahren der nichtlinearen spektralen Subtraktion (NSS), eine neuartiges Methode zur Geräuschreduktion. Darüber hinaus werden robuste Schätzverfahren für Varianzen und robuste Evaluierungsverfahren für Wahrscheinlichkeitsdichtefunktionen (Projektionen) eingesetzt und zusammem mit dem NSS-Verfahren in ein Spracherkennungssy
ISSN:0167-6393
1872-7182
DOI:10.1016/0167-6393(92)90016-Z