E2EEnd-to-end CONTROLLING EXPRESSIVITY IN END-TO-END SPEECH SYNTHESIS SYSTEMS

시스템(900)은 컨텍스트 인코더(610), 텍스트 예측 네트워크(520), 및 TTS(text-to-speech) 모델(650)을 포함한다. 컨텍스트 인코더는 현재 입력 텍스트(502)와 연관된 하나 이상의 컨텍스트 특징(602)을 수신하고 현재 입력 텍스트와 연관된 컨텍스트 임베딩(612)을 생성하기 위해 하나 이상의 컨텍스트 특징을 프로세싱하도록 구성된다. 텍스트 예측 네트워크는 출력으로서 현재 입력 텍스트에 대한 스타일 임베딩(650)을 예측하기 위해 현재 입력 텍스트 및 컨텍스트 임베딩을 프로세싱하도록 구성된다. 스타일 임...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: BATTENBERG ERIC DEAN, STANTON DAISY, MARIOORYAD SOROOSH, KAO DAVID TEH HWA, BAGBY THOMAS EDWARD, SHANNON SEAN MATTHEW, SKERRY RYAN RUSSELL JOHN WYATT
Format: Patent
Sprache:eng ; kor
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:시스템(900)은 컨텍스트 인코더(610), 텍스트 예측 네트워크(520), 및 TTS(text-to-speech) 모델(650)을 포함한다. 컨텍스트 인코더는 현재 입력 텍스트(502)와 연관된 하나 이상의 컨텍스트 특징(602)을 수신하고 현재 입력 텍스트와 연관된 컨텍스트 임베딩(612)을 생성하기 위해 하나 이상의 컨텍스트 특징을 프로세싱하도록 구성된다. 텍스트 예측 네트워크는 출력으로서 현재 입력 텍스트에 대한 스타일 임베딩(650)을 예측하기 위해 현재 입력 텍스트 및 컨텍스트 임베딩을 프로세싱하도록 구성된다. 스타일 임베딩은 현재 입력 텍스트를 표현 음성(680)으로 합성하기 위한 특정 프로소디 및/또는 스타일을 지정한다. TTS 모델은 현재 입력 텍스트 및 현재 입력 텍스트의 표현 음성의 출력 오디오 신호(670)를 생성하기 위해 스타일 임베딩을 프로세싱하도록 구성된다. 출력 오디오 신호에는 스타일 임베딩에 의해 지정된 특정 프로소디 및/또는 스타일이 있다. A system (900) includes a context encoder (610), a text-prediction network (520), and a text-to-speech (TTS) model (650). The context encoder is configured to receive one or more context features (602) associated with current input text (502) and process the one or more context features to generate a context embedding (612) associated with the current input text. The text-prediction network is configured to process the current input text and the context embedding to predict, as output, a style embedding (650) for the current input text. The style embedding specifies a specific prosody and/or style for synthesizing the current input text into expressive speech (680). The TTS model is configured to process the current input text and the style embedding to generate an output audio signal (670) of expressive speech of the current input text. The output audio signal has the specific prosody and/or style specified by the style embedding.