A Text-to-Speech Synthesis Method and System, a Method of Training a Text-to-Speech Synthesis System, and a Method of Calculating an Expressivity Score

A text-to-speech synthesis method comprising: receiving text; inputting the received text in a prediction network; and generating speech data, wherein the prediction network comprises a neural network, and wherein the neural network is trained by: receiving a first training dataset comprising audio...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: FLYNN, John, QURESHI, Zeenat
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
container_end_page
container_issue
container_start_page
container_title
container_volume
creator FLYNN, John
QURESHI, Zeenat
description A text-to-speech synthesis method comprising: receiving text; inputting the received text in a prediction network; and generating speech data, wherein the prediction network comprises a neural network, and wherein the neural network is trained by: receiving a first training dataset comprising audio data and corresponding text data; acquiring an expressivity score for each audio sample of the audio data, wherein the expressivity score is a quantitative representation of how well an audio sample conveys emotional information and sounds natural, realistic and human-like; training the neural network using a first sub-dataset, and further training the neural network using a second sub-dataset, wherein the first sub-dataset and the second sub-dataset comprise audio samples and corresponding text from the first training dataset and wherein the average expressivity score of the audio data in the second sub-dataset is higher than the average expressivity score of the audio data in the first sub-dataset. Procédé de synthèse texte-parole consistant : à recevoir un texte ; à entrer le texte reçu dans un réseau de prédiction ; et à générer des données de parole, le réseau de prédiction comprenant un réseau neuronal, et le réseau neuronal étant appris par : la réception d'un premier ensemble de données d'apprentissage comprenant des données audio et des données de texte correspondantes ; l'acquisition d'un score d'expressivité pour chaque échantillon audio des données audio, le score d'expressivité étant une représentation quantitative de la mesure dans laquelle un échantillon audio transmet des informations émotionnelles et des sons naturels, réalistes et de type humain ; l'apprentissage du réseau neuronal à l'aide d'un premier sous-ensemble de données, et l'apprentissage en outre du réseau neuronal à l'aide d'un second sous-ensemble de données, le premier sous-ensemble de données et le second sous-ensemble de données comprenant des échantillons audio et un texte correspondant à partir du premier ensemble de données d'apprentissage et le score d'expressivité moyen des données audio dans le second sous-ensemble de données étant supérieur au score d'expressivité moyen des données audio dans le premier sous-ensemble de données.
format Patent
fullrecord <record><control><sourceid>epo_EVB</sourceid><recordid>TN_cdi_epo_espacenet_WO2021123792A1</recordid><sourceformat>XML</sourceformat><sourcesystem>PC</sourcesystem><sourcerecordid>WO2021123792A1</sourcerecordid><originalsourceid>FETCH-epo_espacenet_WO2021123792A13</originalsourceid><addsrcrecordid>eNqNjDEKwkAQRdNYiHqHAVsDZlOIZQgRG7FIwDIMm4lZiLtLZpTkJF7XICo2gtWHx39vGtwTKKiXUFyYeyLdQD5YaYgNw4GkcRWgrUbIQpcV4Bu6GooOjTX2PMKfiY83Nr7dFFt9bVGeuoWs9x0xm5uRAXLtOpoHkxpbpsVrZ8FylxXpPiTvSmKPmixJeTqqtYoiFW-2Koni_14Pm5hQlg</addsrcrecordid><sourcetype>Open Access Repository</sourcetype><iscdi>true</iscdi><recordtype>patent</recordtype></control><display><type>patent</type><title>A Text-to-Speech Synthesis Method and System, a Method of Training a Text-to-Speech Synthesis System, and a Method of Calculating an Expressivity Score</title><source>esp@cenet</source><creator>FLYNN, John ; QURESHI, Zeenat</creator><creatorcontrib>FLYNN, John ; QURESHI, Zeenat</creatorcontrib><description>A text-to-speech synthesis method comprising: receiving text; inputting the received text in a prediction network; and generating speech data, wherein the prediction network comprises a neural network, and wherein the neural network is trained by: receiving a first training dataset comprising audio data and corresponding text data; acquiring an expressivity score for each audio sample of the audio data, wherein the expressivity score is a quantitative representation of how well an audio sample conveys emotional information and sounds natural, realistic and human-like; training the neural network using a first sub-dataset, and further training the neural network using a second sub-dataset, wherein the first sub-dataset and the second sub-dataset comprise audio samples and corresponding text from the first training dataset and wherein the average expressivity score of the audio data in the second sub-dataset is higher than the average expressivity score of the audio data in the first sub-dataset. Procédé de synthèse texte-parole consistant : à recevoir un texte ; à entrer le texte reçu dans un réseau de prédiction ; et à générer des données de parole, le réseau de prédiction comprenant un réseau neuronal, et le réseau neuronal étant appris par : la réception d'un premier ensemble de données d'apprentissage comprenant des données audio et des données de texte correspondantes ; l'acquisition d'un score d'expressivité pour chaque échantillon audio des données audio, le score d'expressivité étant une représentation quantitative de la mesure dans laquelle un échantillon audio transmet des informations émotionnelles et des sons naturels, réalistes et de type humain ; l'apprentissage du réseau neuronal à l'aide d'un premier sous-ensemble de données, et l'apprentissage en outre du réseau neuronal à l'aide d'un second sous-ensemble de données, le premier sous-ensemble de données et le second sous-ensemble de données comprenant des échantillons audio et un texte correspondant à partir du premier ensemble de données d'apprentissage et le score d'expressivité moyen des données audio dans le second sous-ensemble de données étant supérieur au score d'expressivité moyen des données audio dans le premier sous-ensemble de données.</description><language>eng ; fre</language><subject>ACOUSTICS ; MUSICAL INSTRUMENTS ; PHYSICS ; SPEECH ANALYSIS OR SYNTHESIS ; SPEECH OR AUDIO CODING OR DECODING ; SPEECH OR VOICE PROCESSING ; SPEECH RECOGNITION</subject><creationdate>2021</creationdate><oa>free_for_read</oa><woscitedreferencessubscribed>false</woscitedreferencessubscribed></display><links><openurl>$$Topenurl_article</openurl><openurlfulltext>$$Topenurlfull_article</openurlfulltext><thumbnail>$$Tsyndetics_thumb_exl</thumbnail><linktohtml>$$Uhttps://worldwide.espacenet.com/publicationDetails/biblio?FT=D&amp;date=20210624&amp;DB=EPODOC&amp;CC=WO&amp;NR=2021123792A1$$EHTML$$P50$$Gepo$$Hfree_for_read</linktohtml><link.rule.ids>230,308,776,881,25543,76294</link.rule.ids><linktorsrc>$$Uhttps://worldwide.espacenet.com/publicationDetails/biblio?FT=D&amp;date=20210624&amp;DB=EPODOC&amp;CC=WO&amp;NR=2021123792A1$$EView_record_in_European_Patent_Office$$FView_record_in_$$GEuropean_Patent_Office$$Hfree_for_read</linktorsrc></links><search><creatorcontrib>FLYNN, John</creatorcontrib><creatorcontrib>QURESHI, Zeenat</creatorcontrib><title>A Text-to-Speech Synthesis Method and System, a Method of Training a Text-to-Speech Synthesis System, and a Method of Calculating an Expressivity Score</title><description>A text-to-speech synthesis method comprising: receiving text; inputting the received text in a prediction network; and generating speech data, wherein the prediction network comprises a neural network, and wherein the neural network is trained by: receiving a first training dataset comprising audio data and corresponding text data; acquiring an expressivity score for each audio sample of the audio data, wherein the expressivity score is a quantitative representation of how well an audio sample conveys emotional information and sounds natural, realistic and human-like; training the neural network using a first sub-dataset, and further training the neural network using a second sub-dataset, wherein the first sub-dataset and the second sub-dataset comprise audio samples and corresponding text from the first training dataset and wherein the average expressivity score of the audio data in the second sub-dataset is higher than the average expressivity score of the audio data in the first sub-dataset. Procédé de synthèse texte-parole consistant : à recevoir un texte ; à entrer le texte reçu dans un réseau de prédiction ; et à générer des données de parole, le réseau de prédiction comprenant un réseau neuronal, et le réseau neuronal étant appris par : la réception d'un premier ensemble de données d'apprentissage comprenant des données audio et des données de texte correspondantes ; l'acquisition d'un score d'expressivité pour chaque échantillon audio des données audio, le score d'expressivité étant une représentation quantitative de la mesure dans laquelle un échantillon audio transmet des informations émotionnelles et des sons naturels, réalistes et de type humain ; l'apprentissage du réseau neuronal à l'aide d'un premier sous-ensemble de données, et l'apprentissage en outre du réseau neuronal à l'aide d'un second sous-ensemble de données, le premier sous-ensemble de données et le second sous-ensemble de données comprenant des échantillons audio et un texte correspondant à partir du premier ensemble de données d'apprentissage et le score d'expressivité moyen des données audio dans le second sous-ensemble de données étant supérieur au score d'expressivité moyen des données audio dans le premier sous-ensemble de données.</description><subject>ACOUSTICS</subject><subject>MUSICAL INSTRUMENTS</subject><subject>PHYSICS</subject><subject>SPEECH ANALYSIS OR SYNTHESIS</subject><subject>SPEECH OR AUDIO CODING OR DECODING</subject><subject>SPEECH OR VOICE PROCESSING</subject><subject>SPEECH RECOGNITION</subject><fulltext>true</fulltext><rsrctype>patent</rsrctype><creationdate>2021</creationdate><recordtype>patent</recordtype><sourceid>EVB</sourceid><recordid>eNqNjDEKwkAQRdNYiHqHAVsDZlOIZQgRG7FIwDIMm4lZiLtLZpTkJF7XICo2gtWHx39vGtwTKKiXUFyYeyLdQD5YaYgNw4GkcRWgrUbIQpcV4Bu6GooOjTX2PMKfiY83Nr7dFFt9bVGeuoWs9x0xm5uRAXLtOpoHkxpbpsVrZ8FylxXpPiTvSmKPmixJeTqqtYoiFW-2Koni_14Pm5hQlg</recordid><startdate>20210624</startdate><enddate>20210624</enddate><creator>FLYNN, John</creator><creator>QURESHI, Zeenat</creator><scope>EVB</scope></search><sort><creationdate>20210624</creationdate><title>A Text-to-Speech Synthesis Method and System, a Method of Training a Text-to-Speech Synthesis System, and a Method of Calculating an Expressivity Score</title><author>FLYNN, John ; QURESHI, Zeenat</author></sort><facets><frbrtype>5</frbrtype><frbrgroupid>cdi_FETCH-epo_espacenet_WO2021123792A13</frbrgroupid><rsrctype>patents</rsrctype><prefilter>patents</prefilter><language>eng ; fre</language><creationdate>2021</creationdate><topic>ACOUSTICS</topic><topic>MUSICAL INSTRUMENTS</topic><topic>PHYSICS</topic><topic>SPEECH ANALYSIS OR SYNTHESIS</topic><topic>SPEECH OR AUDIO CODING OR DECODING</topic><topic>SPEECH OR VOICE PROCESSING</topic><topic>SPEECH RECOGNITION</topic><toplevel>online_resources</toplevel><creatorcontrib>FLYNN, John</creatorcontrib><creatorcontrib>QURESHI, Zeenat</creatorcontrib><collection>esp@cenet</collection></facets><delivery><delcategory>Remote Search Resource</delcategory><fulltext>fulltext_linktorsrc</fulltext></delivery><addata><au>FLYNN, John</au><au>QURESHI, Zeenat</au><format>patent</format><genre>patent</genre><ristype>GEN</ristype><title>A Text-to-Speech Synthesis Method and System, a Method of Training a Text-to-Speech Synthesis System, and a Method of Calculating an Expressivity Score</title><date>2021-06-24</date><risdate>2021</risdate><abstract>A text-to-speech synthesis method comprising: receiving text; inputting the received text in a prediction network; and generating speech data, wherein the prediction network comprises a neural network, and wherein the neural network is trained by: receiving a first training dataset comprising audio data and corresponding text data; acquiring an expressivity score for each audio sample of the audio data, wherein the expressivity score is a quantitative representation of how well an audio sample conveys emotional information and sounds natural, realistic and human-like; training the neural network using a first sub-dataset, and further training the neural network using a second sub-dataset, wherein the first sub-dataset and the second sub-dataset comprise audio samples and corresponding text from the first training dataset and wherein the average expressivity score of the audio data in the second sub-dataset is higher than the average expressivity score of the audio data in the first sub-dataset. Procédé de synthèse texte-parole consistant : à recevoir un texte ; à entrer le texte reçu dans un réseau de prédiction ; et à générer des données de parole, le réseau de prédiction comprenant un réseau neuronal, et le réseau neuronal étant appris par : la réception d'un premier ensemble de données d'apprentissage comprenant des données audio et des données de texte correspondantes ; l'acquisition d'un score d'expressivité pour chaque échantillon audio des données audio, le score d'expressivité étant une représentation quantitative de la mesure dans laquelle un échantillon audio transmet des informations émotionnelles et des sons naturels, réalistes et de type humain ; l'apprentissage du réseau neuronal à l'aide d'un premier sous-ensemble de données, et l'apprentissage en outre du réseau neuronal à l'aide d'un second sous-ensemble de données, le premier sous-ensemble de données et le second sous-ensemble de données comprenant des échantillons audio et un texte correspondant à partir du premier ensemble de données d'apprentissage et le score d'expressivité moyen des données audio dans le second sous-ensemble de données étant supérieur au score d'expressivité moyen des données audio dans le premier sous-ensemble de données.</abstract><oa>free_for_read</oa></addata></record>
fulltext fulltext_linktorsrc
identifier
ispartof
issn
language eng ; fre
recordid cdi_epo_espacenet_WO2021123792A1
source esp@cenet
subjects ACOUSTICS
MUSICAL INSTRUMENTS
PHYSICS
SPEECH ANALYSIS OR SYNTHESIS
SPEECH OR AUDIO CODING OR DECODING
SPEECH OR VOICE PROCESSING
SPEECH RECOGNITION
title A Text-to-Speech Synthesis Method and System, a Method of Training a Text-to-Speech Synthesis System, and a Method of Calculating an Expressivity Score
url https://sfx.bib-bvb.de/sfx_tum?ctx_ver=Z39.88-2004&ctx_enc=info:ofi/enc:UTF-8&ctx_tim=2025-01-22T04%3A06%3A35IST&url_ver=Z39.88-2004&url_ctx_fmt=infofi/fmt:kev:mtx:ctx&rfr_id=info:sid/primo.exlibrisgroup.com:primo3-Article-epo_EVB&rft_val_fmt=info:ofi/fmt:kev:mtx:patent&rft.genre=patent&rft.au=FLYNN,%20John&rft.date=2021-06-24&rft_id=info:doi/&rft_dat=%3Cepo_EVB%3EWO2021123792A1%3C/epo_EVB%3E%3Curl%3E%3C/url%3E&disable_directlink=true&sfx.directlink=off&sfx.report_link=0&rft_id=info:oai/&rft_id=info:pmid/&rfr_iscdi=true