Evaluación de Rasgos Acústicos para el Reconocimiento Automático del Habla en Escenarios Ruidosos usando Kaldi/Evaluation of Acoustic Features for the Automatic Speech Recognition in Noise Scenarios using Kaldi

La presente investigación evaluará el impacto de los Coeficientes Cepstrales en la Frecuencia Mel (MFCC) y los coeficientes Predictores Perceptuales Lineales (PLP), en la tasa de errores de reconocimiento de palabras (WER) de sistemas dedicados al Reconocimiento Automático del Habla (RAH). La experi...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:Ingeniería electrónica, automática y comunicaciones automática y comunicaciones, 2019-09, Vol.40 (3), p.51
Hauptverfasser: Sánchez, José Manuel Ramírez, Bereau, Ana Rosa Montalvo, de Lara, José Ramón Calvo
Format: Artikel
Sprache:spa
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:La presente investigación evaluará el impacto de los Coeficientes Cepstrales en la Frecuencia Mel (MFCC) y los coeficientes Predictores Perceptuales Lineales (PLP), en la tasa de errores de reconocimiento de palabras (WER) de sistemas dedicados al Reconocimiento Automático del Habla (RAH). La experimentación se realizará con señales de voz en idioma español, en escenarios con niveles de ruido desconocidos y utilizando la herramienta del estado del arte Kaldi. El artículo concluye aportando evidencias a favor de los MFCC como rasgo acústico más robusto ante la tarea del RAH en escenarios ruidosos con respecto a los PLP; haciendo notar que ambos rasgos se comportar de manera similar en escenarios poco ruidosos y el impacto de los PLP en la reducción de los tiempos empleados por los sistemas dedicados al RAH. Palabras claves: Reconocimiento Automático del Habla, Rasgos Acústicos, Kaldi. The present investigation will evaluate the impact of Mel Frequency Cepstral Coefficients (MFCC) and the Perceptual Linear Predictors (PLP) coefficients, in the word error rate (WER) of systems dedicated to Automatic Speech Recognition (ASR). The experimentation will be done with voice signals in Spanish language, in scenarios with unknown noise levels and using the Kaldi state of the art tool. The article concludes by providing evidence in favor of the MFCC as acoustic feature more robust in the task of ASR in noisy scenarios with respect to the PLP; also both features behave similarly in low noise scenarios and the impact of PLP in reducing the time spent by systems dedicated to ASR. Key words: Automatic Speech Recognition, Acoustic Features, Kaldi.
ISSN:0258-5944