Connected recognition with a recurrent network

We attempted multi-talker, connected recognition of the spoken American English letter names b, d, e and v, using a recurrent neural network as the speech recognizer. Network training was based on forward-propagation of unit potentials, instead of back-propagation of unit errors in time. The target...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:Speech communication 1990-02, Vol.9 (1), p.41-48
Hauptverfasser: Kuhn, Gary, Watrous, Raymond L., Ladendorf, Bruce
Format: Artikel
Sprache:eng
Schlagworte:
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:We attempted multi-talker, connected recognition of the spoken American English letter names b, d, e and v, using a recurrent neural network as the speech recognizer. Network training was based on forward-propagation of unit potentials, instead of back-propagation of unit errors in time. The target function was based on an input speech parameter which turns on and off at each onset of a spoken letter name. The network was trained to copy that input speech parameter to the output unit assigned to the correct letter name. Letter name discrimination was as high as 85% on test utterances. Wir experimentieren mit einem Spracherkennungssytem für die flieβend gesprochenen amerikanischen Buchstabennamen b,d, e und v, indem wir ein rekurrentes neuronales Netz als Spracherkennungsalgorithmus benutzen. Die Lernphase basiert aus der Vorwärtsausbreitung von Zellenpotentialen anstatt der sonst üblichen Rückverfolgung der Fehler der einzelnen Zellen mit Hilfe des Back-Propagation-Algorithmus. Die Zielfunktion basiert auf einem speziellen Parameter am Eingang, der zu Beginn jedes Buchstabennamens ein- bzw. abgeschaltet wird. Das Netzwerk wurde dahingehend trainiert, diesen Eingangsparameter jeweils auf die Ausgangseinheit zu übertragen, die dem korrekten Buchstaben zugeordnet ist. In den Testsätzen konnte eine Erkennungsrate von ungefähr 85% erreicht werden. Nous avons utilisé un réseau de neurones récurrent pour reconnaître des successions de noms de letters b, d, e et v de l'anglais américain prononcées par plusieurs locuteurs. L'appretissage est basé sur une propagation du potentiel des unités au lieu de la rétropropagation de l'erreur des unités dans le temps. La fonction cible se base sur un paramètre caractérisant le signal de parole qui est activé puis désactivé au début de la prononciation de chaque lettre. Le réseau apprend à reproduire ce même paramètre à l'unité de sortie correspondent au nom de lettre correcte. Les résultats sur les phrases de test atteignent un taux de discrimination de 85%.
ISSN:0167-6393
1872-7182
DOI:10.1016/0167-6393(90)90044-A