A Text-to-Speech Synthesis Method and System, a Method of Training a Text-to-Speech Synthesis System, and a Method of Calculating an Expressivity Score

A text-to-speech synthesis method comprising: receiving text; inputting the received text in a prediction network; and generating speech data, wherein the prediction network comprises a neural network, and wherein the neural network is trained by: receiving a first training dataset comprising audio...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: FLYNN, John, QURESHI, Zeenat
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:A text-to-speech synthesis method comprising: receiving text; inputting the received text in a prediction network; and generating speech data, wherein the prediction network comprises a neural network, and wherein the neural network is trained by: receiving a first training dataset comprising audio data and corresponding text data; acquiring an expressivity score for each audio sample of the audio data, wherein the expressivity score is a quantitative representation of how well an audio sample conveys emotional information and sounds natural, realistic and human-like; training the neural network using a first sub-dataset, and further training the neural network using a second sub-dataset, wherein the first sub-dataset and the second sub-dataset comprise audio samples and corresponding text from the first training dataset and wherein the average expressivity score of the audio data in the second sub-dataset is higher than the average expressivity score of the audio data in the first sub-dataset. Procédé de synthèse texte-parole consistant : à recevoir un texte ; à entrer le texte reçu dans un réseau de prédiction ; et à générer des données de parole, le réseau de prédiction comprenant un réseau neuronal, et le réseau neuronal étant appris par : la réception d'un premier ensemble de données d'apprentissage comprenant des données audio et des données de texte correspondantes ; l'acquisition d'un score d'expressivité pour chaque échantillon audio des données audio, le score d'expressivité étant une représentation quantitative de la mesure dans laquelle un échantillon audio transmet des informations émotionnelles et des sons naturels, réalistes et de type humain ; l'apprentissage du réseau neuronal à l'aide d'un premier sous-ensemble de données, et l'apprentissage en outre du réseau neuronal à l'aide d'un second sous-ensemble de données, le premier sous-ensemble de données et le second sous-ensemble de données comprenant des échantillons audio et un texte correspondant à partir du premier ensemble de données d'apprentissage et le score d'expressivité moyen des données audio dans le second sous-ensemble de données étant supérieur au score d'expressivité moyen des données audio dans le premier sous-ensemble de données.