METHOD AND SYSTEM FOR GENERATING SYNTHESIS VOICE OF A NEW SPEAKER

The present disclosure relates to a method for generating a synthetic voice of a new speaker performed by at least one processor. The method includes: a step of receiving target text; a step of acquiring speaker characteristics of a reference speaker; a step of acquiring vocalization characteristic...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: KIM TAESU, LEE YOUNGGUN, HWANG YEONGTAE
Format: Patent
Sprache:eng ; kor
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:The present disclosure relates to a method for generating a synthetic voice of a new speaker performed by at least one processor. The method includes: a step of receiving target text; a step of acquiring speaker characteristics of a reference speaker; a step of acquiring vocalization characteristic change information; a step of determining speaker characteristics of the new speaker by using the speaker characteristics of the acquired reference user and the acquired vocalization characteristic change information; and a step of inputting the target text and the determined speaker characteristics of the new speaker to an artificial neural network text-voice synthesis model and generating an output voice for the target text in which the determined speaker characteristics of the new speaker are reflected. The artificial neural network text-voice synthesis model may be trained for outputting a voice for a plurality of learning text items, in which speaker characteristics of a plurality of learning speakers are reflected, based on the plurality of learning text items and the speaker characteristics of the plurality of learning speakers. The present invention can generate a natural voice for the target text. 본 개시는 적어도 하나의 프로세서에 의해 수행되는, 새로운 화자의 합성 음성을 생성하는 방법에 관한 것이다. 이러한 방법은, 대상 텍스트를 수신하는 단계, 기준 화자의 화자 특징을 획득하는 단계, 발성 특징 변화 정보를 획득하는 단계, 획득된 기준 화자의 화자 특징 및 획득된 발성 특징 변화 정보를 이용하여 새로운 화자의 화자 특징을 결정하는 단계 및 대상 텍스트 및 결정된 새로운 화자의 화자 특징을 인공신경망 텍스트-음성 합성 모델에 입력하여, 결정된 새로운 화자의 화자 특징이 반영된, 대상 텍스트에 대한 출력 음성을 생성하는 단계를 포함할 수 있다. 여기서, 인공신경망 텍스트-음성 합성 모델은, 복수의 학습 텍스트 아이템 및 복수의 학습 화자의 화자 특징을 기초로, 복수의 학습 화자의 화자 특징이 반영된, 복수의 학습 텍스트 아이템에 대한 음성을 출력하도록 학습될 수 있다.