Predictive model-based compensation schemes for robust speech recognition

For practical applications speech recognition systems need to be insensitive to differences between training and test acoustic conditions. Differences in the acoustic environment may result from various sources, such as ambient background noise, channel variations and speaker stress. These differenc...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:Speech communication 1998-08, Vol.25 (1), p.49-74
1. Verfasser: Gales, M.J.F.
Format: Artikel
Sprache:eng
Schlagworte:
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:For practical applications speech recognition systems need to be insensitive to differences between training and test acoustic conditions. Differences in the acoustic environment may result from various sources, such as ambient background noise, channel variations and speaker stress. These differences can dramatically degrade the performance of a speech recognition system. A wide range of techniques have been proposed for achieving noise robustness. This paper considers one particular approach to model-based compensation, predictive model-based compensation, which has been shown to achieve good noise robustness in a wide range of acoustic environments. The characteristic of these schemes is that they combine a speech model with an additive noise model, a channel model and, in the general case, a speaker stress model, to generate a corrupted-speech model. The general theory of these predictive techniques is discussed. Various approximations for rapidly performing the model combination stage have been proposed and are reviewed in this paper. The advantages and the limitations of such a predictive approach to noise robustness are also discussed. In addition, methods for combining predictive schemes with schemes which make use of speech data in the new environment, adaptive schemes, are detailed. This combined approach overcomes some of the limitations of the predictive schemes. Für praktische Anwendungen müssen Spracherkenner unempfindlich gegenüber Unterschieden zwischen den akustischen Trainings- und Testbedingungen sein. Die akustische Umgebung unterscheidet sich z.B. durch Hintergrundlärm, Kanalvariation und Sprecherbetonung. Diese Unterschiede können die Performanz eines Spracherkennungssystems stark herabsetzen. Eine Reihe von Methoden sind bisher vorgeschlagen worden, um grösere Robustheit zu erreichen. Dieser Beitrag beschäftigt sich mit einem speziellen Ansatz zur modellbasierten Kompensierung, Prädiktive modellbasierte Kompensierung, der sich in verschiedenen akustischen Umgebungen als sehr robust erwiesen hat. Das Hauptmerkmal dieses Ansatzes ist die Kombination eines akustischen Modells mit einem additiven Lärmmodell, einem Kanalmodell und, im allgemeinen Fall, einem Sprechermodell, um ein Modell für verrauschte Sprache zu erzeugen. Die allgemeine Theorie dieser prädiktiven Methode wird diskutiert. Verschiedene Approximierungen für eine schnelle Durchführung der Modellkombination sind vorgeschlagen worden und werden in diesem Artikel kritisch bele
ISSN:0167-6393
1872-7182
DOI:10.1016/S0167-6393(98)00029-6