Generating non-native pronunciation variants for lexicon adaptation

Handling non-native speech in automatic speech recognition (ASR) systems is an area of increasing interest. The majority of systems are tailored to native speech only and as a consequence performance for non-native speakers often is not satisfactory. One way to approach the problem is to adapt the a...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:Speech communication 2004, Vol.42 (1), p.109-123
Hauptverfasser: Goronzy, Silke, Rapp, Stefan, Kompe, Ralf
Format: Artikel
Sprache:eng
Schlagworte:
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Handling non-native speech in automatic speech recognition (ASR) systems is an area of increasing interest. The majority of systems are tailored to native speech only and as a consequence performance for non-native speakers often is not satisfactory. One way to approach the problem is to adapt the acoustic models to the new speaker. Another important means to improve performance for non-native speakers is to consider non-native pronunciations in the dictionary. The difficulty here lies in the generation of the non-native variants, especially if various accents are to be considered. Traditional approaches to model pronunciation variation either require phonetic expertise or extensive speech databases. They are too costly, especially if a flexible modelling of several accents is desired. We propose to exclusively use native speech databases to derive non-native pronunciation variants. We use an English phoneme recogniser to generate English pronunciations for German words and use these to train decision trees that are able to predict the respective English-accented variant from the German canonical transcription. Furthermore we combine this approach with online, incremental weighted MLLR speaker adaptation. Using the enhanced dictionary and the speaker adaptation alone improved the word error rate of the baseline system by 5.2% and 16.8%, respectively. When both methods were combined, we achieved an improvement of 18.2%. Die Verarbeitung nicht-muttersprachlicher Sprache in automatischen Spracherkennungssystemen gewinnt immer mehr an Bedeutung. Die meisten aktuellen Systeme sind jedoch darauf zugeschnitten, ausschließlich muttersprachliche Daten zu verarbeiten. Daher fallen die Erkennungsraten für nicht-muttersprachliche Sprecher oftmals sehr unzureichend aus. Eine Möglichkeit zur Lösung dieses Problems ist die Anwendung von Sprecheradaptionsverfahren, die die akustischen Modelle des Systems an den neuen Sprecher adaptieren. Eine weitere Möglichkeit, die Erkennungsraten für nicht-muttersprachliche Sprecher zu verbessern, ist die Berücksichtigung nicht-muttersprachlicher Aussprachevarianten im Lexikon des Erkennungssystems. Die Schwierigkeit bei diesem Verfahren besteht in der Herleitung dieser Varianten, besonders wenn viele verschiedene Akzente berücksichtigt werden sollen. Traditionelle Ansätze zur Aussprachemodellierung benötigen hierzu entweder phonetisches Wissen oder aber umfangreiche Sprachdatenbanken akzentuierter Sprache. Beide Verfahren sind jedoch
ISSN:0167-6393
1872-7182
DOI:10.1016/j.specom.2003.09.003