A new parameter smoothing method in the hybrid TDNN/HMM architecture for speech recognition
In this paper, we propose a new parameter smoothing method in the hybrid time-delay neural network (TDNN)/hidden Markov model (HMM) architecture for speech recognition. In the hybrid architecture, the TDNN and the HMM are combined using the activations from the second hidden layer of TDNN as the out...
Gespeichert in:
Veröffentlicht in: | Speech communication 1996-10, Vol.19 (4), p.317-324 |
---|---|
Hauptverfasser: | , |
Format: | Artikel |
Sprache: | eng |
Online-Zugang: | Volltext |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | In this paper, we propose a new parameter smoothing method in the hybrid time-delay neural network (TDNN)/hidden Markov model (HMM) architecture for speech recognition. In the hybrid architecture, the TDNN and the HMM are combined using the activations from the second hidden layer of TDNN as the outputs of a fuzzy vector quantizer (FVQ). The HMM algorithm is modified to accommodate these FVQ outputs. In our modular construction of TDNN, the input layer is divided into two states to deal with the temporal structure of phonemic features, and the second hidden layer consists of two states in a time sequence. To improve the performance of the hybrid architecture, a new smoothing method has been proposed. The average values of the activation vectors from the second hidden layer of the modular TDNN are used to generate the smoothing matrix from which smoothed output symbol observation probability is obtained. With this proposed approach, our simulation results performed on speaker-independent Korean isolated words show the reduction of the error rate by 44.9% as compared to the floor smoothing method.
Dans cet article, nous proposons une nouvelle méthode de lissage des paramètres dans le cadre d'une architecture hybride pour la reconnaissance de la parole associant un réseau neuronal à délai TDNN et un modéle de Markov HMM. Dans cette architecture, le réseau TDNN et le module HMM sont combinés en utilisant les activations fournies par la deuxième couche cachée du TDNN comme entrées du quantificateur vectoriel flou (FVQ). L'algorithme HMM est adapté pour pouvoir traiter ces sorties FVQ. Dans la construction modulaire de notre TDNN, la couche d'entrée est divisée en deux états pour pouvoir prendre en compte la structure temporelle des traits phonétiques. La deuxième couche cachée consiste en deuxé tats d'une séquence temporelle. Pour améliorer les performances de l'architecture hybride, une nouvelle méthode de lissage des paramètres est proposée. Les valeurs moyennes des vecteurs d'activation de la deuxième couche cachée du TDNN modulaire sont utilisées pour générer une matrice de lissage dont sont extraites les probabilités p pondérées d'observation des symboles. Avec cette approche, les résultats de simulation sur une base de données de mots isolés en Coréen, en mode indépendant du locuteur, montrent une réduction du taux d'erreur de 44.9% par rapport à une Méthode de lissage classique. |
---|---|
ISSN: | 0167-6393 1872-7182 |
DOI: | 10.1016/S0167-6393(96)00052-0 |