Performance of HMM-based speech recognizers with discriminative state-weights

In this paper, assuming that the score of a speech utterance is a weighted sum of hidden Markov model (HMM) log state-likelihoods, we propose a new method of finding discriminative state-weights recursively using the generalized probabilistic descent method. With this method the conventional paramet...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:Speech communication 1996, Vol.19 (3), p.197-205
Hauptverfasser: Kwon, O.W., Un, C.K.
Format: Artikel
Sprache:eng
Schlagworte:
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:In this paper, assuming that the score of a speech utterance is a weighted sum of hidden Markov model (HMM) log state-likelihoods, we propose a new method of finding discriminative state-weights recursively using the generalized probabilistic descent method. With this method the conventional parameter estimation method and the Viterbi algorithm can be applied to continuous speech recognition as well as isolated word recognition without large modification by constraining the sum of the state-weights to the number of states in a recognition unit. Compared with the previous approaches, this method does not increase complexity and can be implemented with minor modification of the conventional parameter estimation and recognition algorithms by constraining the sum of the state-weights to the number of states in a recognition unit, and further it can be applied to continuous speech recognition as well as isolated word recognition. To evaluate the performance of the state-weighted HMM recognizer, we perform two kinds of experiments with phoneme-based and word-based state-weights using various kinds of speech databases. Experimental results showed that the recognizers with phoneme-based and word-based state-weights achieved 20% and 50% decrease in word error rate, respectively, for isolated word recognition, and 5% decrease for continuous speech recognition. Our approach yields recognition accuracies comparable to those of the previous approaches for continuous speech recognition, but it is much simpler to implement than others. Dans cet article, nous proposons une nouvelle méthode de détermination de pondérations d'états discriminantes, basée sur la méthode de descente du gradient généralisée, en assumant que le score d'un énoncé est la somme pondérée des logarithmes des probabilités d'états des HMMs. Comparée aux méthodes antérieures, cette méthode n'augmente pas la complexité. Elle peut en outre être implémentée en modifiant très peu les algorithmes d'estimation des paramètres et de reconnaissance: il suffit de contraindre la somme des pondérations des états à être égale au nombre d'états par unité de reconnaissance. Enfin, elle peut être appliquée à la reconnaissance de parole continue aussi bien qu'à la reconnaissance de mots isolés. Pour évaluer les performances du système de reconnaissance HMM à pondération d'états, des expériences ont été menées avec des pondérations d'états au niveau du phonème ou au niveau du mot, en utilisant diverses bases de données.
ISSN:0167-6393
1872-7182
DOI:10.1016/0167-6393(96)00035-0