System for concatenation of audio segments in correct co-articulation for generating synthesized acoustic data with train of phoneme units
In the generation of synthesized acoustic data at least two audio segments, reproducing phoneme units, are selected from a data bank of acoustic data to be synthesized. Each audio segment has at least one single articulation region. The moment of concatenation, of a start of a used part of a second...
Gespeichert in:
1. Verfasser: | |
---|---|
Format: | Patent |
Sprache: | eng ; ger |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | In the generation of synthesized acoustic data at least two audio segments, reproducing phoneme units, are selected from a data bank of acoustic data to be synthesized. Each audio segment has at least one single articulation region. The moment of concatenation, of a start of a used part of a second audio segment to the end of used part of first audio segment, is set in a region beginning directly before the used part of the second audio segment and ends after the first single articulation section of the used part of the second audio segment. This is in dependence on the properties of the used part of the second audio segment. Independent claims are included for a generator of synthesized acoustic data and for synthesized speech signals, and data memory.
Die Erfindung ermöglicht es, beliebige akustische Daten durch eine Konkatenation einzelner Audiosegmente zu synthetisieren, wobei die Momente, zu denen die jeweilige Konkatenation zwei aufeinander folgender Audiosegmente erfolgt, in Abhängigkeit von Eigenschaften der Audiosegmente festgelegt werden. Auf diese Weise können synthetisierte akustische Daten erzeugt werden, die sich nach einer Umwandlung in akustische Signale nicht von entsprechenden natürlich erzeugenden akustischen Signalen unterscheiden. Insbesondere erlaubt es die Erfindung, synthetisierte Sprachdaten unter Berücksichtigung koartikulatorischer Effekte durch Konkatenation einzelner Sprachsegmente zu erzeugen. Die so zur Verfügung gestellten Sprachdaten können in Sprachsignale umgewandelt werden, die von einer natürlich gesprochenen Sprache nicht zu unterscheiden sind. |
---|