Mandarin Text-to-Speech Front-End with Lightweight Distilled Convolution Network

Mandarin text-to-speech (TTS) systems heavily depend on front-end processing, such as grapheme-to-phoneme conversion and prosodic boundary prediction, to produce expressive, human-like speech. Utilizing a pre-trained language model, such as the bidirectional encoder representations from Transformers...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
Veröffentlicht in:	IEEE signal processing letters 2023-01, Vol.30, p.1-5
Hauptverfasser:	Zhao, Wei, Wang, Zuyi, Xu, Li
Format:	Artikel
Sprache:	eng
Schlagworte:	BERT Bit error rate Coders Convolution convolution network Deep learning Distillation Electrical engineering Grapheme phoneme correspondence Inference Kernel knowledge distillation Knowledge engineering Knowledge management Language modeling Lightweight Linguistics Mandarin Mandarin TTS front-end Modules Phonemes Prosody Speech recognition Task analysis Text-to-speech Training
Online-Zugang:	Volltext bestellen
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Schreiben Sie den ersten Kommentar!