Recognition of isolated words based on psychoacoustics and neurobiology

A simple neural network for isolated word recognition constructed under consideration of neurobiological and psychoacoustical observations is described. The biologically motivated preprocessing of the speech signals includes transforming frequency to critical band-rate and power to loudness, contras...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:Speech communication 1990, Vol.9 (1), p.35-40
Hauptverfasser: Gramss, Tino, Werner Strube, Hans
Format: Artikel
Sprache:eng
Schlagworte:
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:A simple neural network for isolated word recognition constructed under consideration of neurobiological and psychoacoustical observations is described. The biologically motivated preprocessing of the speech signals includes transforming frequency to critical band-rate and power to loudness, contrasting the spectrograms and extracting temporal and spectral features. It is shown that the different stages of preprocessing of the speech signal increase recognition rates significantly and are essential to achieve faultless recognition of a small vocabulary. In addition, the network is able to recognize simultaneously spoken words without any change of its architecture. Thus, it represents a concept to solve one of the most difficult figure-ground-problems in speech research without using conventional techniques like directional separation of stereophonically recorded speech or fundamental frequency tracking. Ein einfaches, nach psychoakustischen und neurobiologischen Beobachtungen aufgebautes neuronales Netz zur Erkennung isolierter Wörter wird beschrieben. Zu der biologisch motiveierten Vorverabeitung der Sprachsignale gehören die Verwendung der Barkskala, die Lautheitstransformation, das Kontrastieren der Spektrogramme und das Extrahieren zeitlicher und spektraler Merkmale. Es wird gezeigt, daβ die einzelnen Vorverarbeitungsschritte zu einer deutlichen Steigerung der Erkennungsrate beitragen und wesentlich für eine fehlerfreie Erkennung eines kleinen Wortschatzes sind. Darüberhinaus ist das Netzwerk ohne weitere Änderungen in der Lage, gleichzeitig gesprochene Wörter zu erkennen. Damit bietet es einen Ansatz, auf einfache Weise eines der schwierigsten sprachlichen Figur-Hintergrundprobleme zu lösen, ohne sich der üblichen Techniken zu bedienen, die Stereoinformation ausnutzen oder den Grundfrequenzen im Spektrogramm folgen. Inspirés par des observations neurobiologiques et psychoacoustiques, nous avons construit un réseau de neurones pour la reconnaissance de mots isolés. Un prétraitement du signal de parole biologiquement motivé transforme la fréquence en bandes critiques et la puissance en sonie, contraste les spectrogrammes et extrait les indices temporels et spectraux. Nous montrons que les différentes étapes du prétraitement augmentent le taux de reconnaissance d'une manière significative et sont essentielles pour réaliser une reconnaissance sans erreurs d'un petit vocabulaire. De plus, le réseau est capable, sans aucune modification de l'architecture d
ISSN:0167-6393
1872-7182
DOI:10.1016/0167-6393(90)90043-9