Speech recognition by machines and humans

This paper reviews past work comparing modern speech recognition systems and humans to determine how far recent dramatic advances in technology have progressed towards the goal of human-like performance. Comparisons use six modern speech corpora with vocabularies ranging from 10 to more than 65,000...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
Veröffentlicht in:	Speech communication 1997-07, Vol.22 (1), p.1-15
1. Verfasser:	Lippmann, Richard P.
Format:	Artikel
Sprache:	eng
Schlagworte:	Automatic speech recognition Machine recognition Noise Nonsense sentences Nonsense syllables Perception Speech Speech perception Speech recognition
Online-Zugang:	Volltext
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Beschreibung
Zusammenfassung:	This paper reviews past work comparing modern speech recognition systems and humans to determine how far recent dramatic advances in technology have progressed towards the goal of human-like performance. Comparisons use six modern speech corpora with vocabularies ranging from 10 to more than 65,000 words and content ranging from read isolated words to spontaneous conversations. Error rates of machines are often more than an order of magnitude greater than those of humans for quiet, wideband, read speech. Machine performance degrades further below that of humans in noise, with channel variability, and for spontaneous speech. Humans can also recognize quiet, clearly spoken nonsense syllables and nonsense sentences with little high-level grammatical information. These comparisons suggest that the human-machine performance gap can be reduced by basic research on improving low-level acoustic-phonetic modeling, on improving robustness with noise and channel variability, and on more accurately modeling spontaneous speech. Ce papier présente un bilan des travaux comparant les performances des systèmes de reconnaissance de parole modernes à celles des locuteurs humains. Les comparaisons sont basées sur six types de corpus de parole avec des vocabulaires allant de 10 à plus de 65000 mots et des contenus allant des mots isolés à des conversations spontanées. Les taux d'erreurs des machines sont souvent supérieures de plus d'un ordre de grandeur à celles des humains pour la parole lue en atmosphère calme et transmise en large-bande. Les performances des machines se dégradent encore par rapport à celles des humains dans les contextes bruités, ou de qualité de transmission variable et pour la parole spontanée. Les locuteurs humains peuvent également reconnaitre, avec peu d'information linguistique de haut-niveau, des syllabes ou des phrases sans signification quand elles sont prononcées clairement dans des atmosphères calmes. Ces comparaisons suggèrent que l'écart important qui subsiste entre les performances des machines et celles des humains peut être réduit par des recherches de base sur les sujets suivants: l'amélioration de la modélisation acoustico-phonétique de bas-niveau, l'amélioration de la robustesse au bruit et à la variabilité des conditions de transmission, et la modélisation plus précise de la parole spontanée.
ISSN:	0167-6393 1872-7182
DOI:	10.1016/S0167-6393(97)00021-6