SPEECH SYNTHESIS UNIT SELECTION

Methods, systems, and apparatus, including computer programs encoded on computer storage media, for selecting units for speech synthesis. One of the methods includes receiving, by one or more computers of a text-to-speech system, data indicating text for speech synthesis; determining, by the one or...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
1. Verfasser: AGIOMYRGIANNAKIS, Ioannis
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Methods, systems, and apparatus, including computer programs encoded on computer storage media, for selecting units for speech synthesis. One of the methods includes receiving, by one or more computers of a text-to-speech system, data indicating text for speech synthesis; determining, by the one or more computers, a sequence of text units that each represent a respective portion of the text, the sequence of text units including at least a first text unit followed by a second text unit; determining, by the one or more computers, multiple paths of speech units that each represent the sequence of text units, wherein determining the multiple paths of speech units includes: selecting, from a speech unit corpus, a first speech unit that includes speech synthesis data representing the first text unit; selecting, from the speech unit corpus, multiple second speech units including speech synthesis data representing the second text unit, each of the multiple second speech units being determined based on (i) a join cost to concatenate the second speech unit with a first speech unit and (ii) a target cost indicating a degree that the second speech unit corresponds to the second text unit; and defining paths from the selected first speech unit to each of the multiple second speech units to include in the multiple paths of speech units; and providing, by the one or more computers of the text-to-speech system, synthesized speech data according to a path selected from among the multiple paths. La présente invention concerne des procédés, des systèmes et un appareil, incluant des programmes informatiques codés sur un support de stockage informatique, pour sélectionner des unités de synthèse de la parole. Un des procédés inclut : la réception, par un ou plusieurs ordinateurs d'un système de conversion de texte en paroles, de données indiquant un texte destiné à une synthèse de la parole ; la détermination, par le ou les ordinateurs, d'une séquence d'unités de texte qui représentent chacune une partie respective du texte, la séquence d'unités de texte incluant au moins une première unité de texte suivie par une seconde unité de texte ; la détermination, par le ou les ordinateurs, de multiples chemins d'unités de parole qui représentent chacune la séquence d'unités de texte, la détermination des multiples chemins d'unités de parole inclut : la sélection, à partir d'un corps d'unité de parole, d'une première unité de parole qui inclut des données de synthèse de la parole repré