Diphone subspace mixture trajectory models for HMM complementation

This paper describes an extension of the previously reported attempt of capturing segmental transition information for speech recognition tasks [Speech Communication 27 (1) (1999) 19]. Representations in the subspace with multiple projected trajectories are discussed, employing EM-based methods to f...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:Speech communication 2002-11, Vol.38 (3), p.237-265
Hauptverfasser: Reinhard, K., Niranjan, M.
Format: Artikel
Sprache:eng
Schlagworte:
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:This paper describes an extension of the previously reported attempt of capturing segmental transition information for speech recognition tasks [Speech Communication 27 (1) (1999) 19]. Representations in the subspace with multiple projected trajectories are discussed, employing EM-based methods to find optimal anchor points. Experimental work is carried out to illustrate that useful discriminant information is preserved in the subspace trajectories. These experiments include the development of “matched filters” to spot particular diphones in continuous speech, and the inclusion of diphone-based discriminant information into a phone-based HMM recognition framework to rerank multiple hypotheses. The difficulties in constructing the models due to the limited coverage of a sufficient amount of tokens within the phone balanced TIMIT database are discussed. The influence of the restricted diphone coverage on the rescoring results is reported. Improvements in phone recognition accuracy have been obtained on a speaker-by-speaker basis. Obtained improvements over baseline HMMs augmented with first-order derivatives suggest the importance of explicitly modelled between-phone information. Dieser Bericht beschreibt die Erweiterung des bereits publizierten Versuchs Informationen über dynamische Transitionen in phonetischen Sprachsegmenten zu erfassen, um sie für die Spracherkennung nutzbar zu machen [Speech Communication 27 (1) (1999) 19]. Es werden Mehrfachtrajektoren in Projektionsunterräumen als Representanten für Sprachmodelle diskutiert, die sich auf EM-basierende Methoden stützen, um optimale Ankerpunkte zu finden. Experimentelle Studien wurden durchgeführt, um zu zeigen, dass nützliche diskriminante Informationen selbst in einem Unterraum erhalten bleiben. Die Experimente umfassen die Anwendung von “angepassten Filtern”, um spezifische Diphone in kontinuierlicher Sprache zu lokalisieren. Diese diphonebasierenden diskriminanten Informationen werden genutzt, um Mehrfachhypothesen von phonemebasierenden HMM umzuordnen. Probleme bei der Bildung von Modellen aufgrund einer begrenzten Abdeckung von Trainingsbeispielen innerhalb der phonemeoptimierten TIMIT Datenbank wird diskutiert. Der darausfolgende Einfluss eines restriktierten Repertoires in Bezug auf die Resultate wird berichtet. Verbesserungen der Phonemeerkennungsgenauigkeit können jeweils sprecherbezogen erzielt werden und diese Fehlerverminderung kann selbst bei HMMs, die mit Delta-Koeffizienten erweitert wur
ISSN:0167-6393
1872-7182
DOI:10.1016/S0167-6393(01)00054-1