An E2E-ASR-Based Iteratively-Trained Timestamp Estimator

Text-to-speech alignment, also known as time alignment, is essential for automatic speech recognition (ASR) systems used for speech retrieval tasks, such as keyword search and speech segment extraction. Previous works have used the Gaussian mixture model-hidden Markov model (GMM-HMM) forced alignmen...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
Veröffentlicht in:	IEEE signal processing letters 2022, Vol.29, p.1654-1658
Hauptverfasser:	Yang, Runyan, Cheng, Gaofeng, Zhang, Pengyuan, Yan, Yonghong
Format:	Artikel
Sprache:	eng
Schlagworte:	Acoustics Alignment Automatic speech recognition Classification Context Decoding Electronic mail end-to-end Grammatical aspect Hidden Markov models Iterative methods Markov analysis Markov chains Neural networks Probabilistic models Pronunciation Speech Speech recognition Task analysis Text-to-speech text-to-speech alignment Training Transcription Voice recognition
Online-Zugang:	Volltext bestellen
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Schreiben Sie den ersten Kommentar!