SPEAKER ADAPTATION METHOD AND SYSTEM BASED ON SPEAKER EMBEDDING CREATED WITH GLOBAL STYLE TOKEN AND PREDICTIVE MODEL
글로벌 스타일 토큰과 예측 모델로 생성한 화자 임베딩 기반의 화자 적응 방법 및 시스템이 개시된다. 일 실시예에 따른화자 적응 시스템에 의해 수행되는 화자 적응 방법은, 글로벌 스타일 토큰 메커니즘이 포함된 음성변환 모델을 이용하여 화자 임베딩으로부터 화자의 음색을 표현하는 복수 개의 화자 임베딩을 생성하는 단계; 및 화자 임베딩을 예측하는 예측 모델을 이용하여 예측된 새로운 화자 임베딩과 상기 생성된 복수 개의 화자 임베딩 사이의 유사도 비교를 통해 새로운 화자를 표현하는 최종의 화자 임베딩을 예측하는 단계를 포함할 수 있다. D...
Gespeichert in:
Hauptverfasser: | , |
---|---|
Format: | Patent |
Sprache: | eng ; kor |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | 글로벌 스타일 토큰과 예측 모델로 생성한 화자 임베딩 기반의 화자 적응 방법 및 시스템이 개시된다. 일 실시예에 따른화자 적응 시스템에 의해 수행되는 화자 적응 방법은, 글로벌 스타일 토큰 메커니즘이 포함된 음성변환 모델을 이용하여 화자 임베딩으로부터 화자의 음색을 표현하는 복수 개의 화자 임베딩을 생성하는 단계; 및 화자 임베딩을 예측하는 예측 모델을 이용하여 예측된 새로운 화자 임베딩과 상기 생성된 복수 개의 화자 임베딩 사이의 유사도 비교를 통해 새로운 화자를 표현하는 최종의 화자 임베딩을 예측하는 단계를 포함할 수 있다.
Disclosed are a speaker embedding-based speaker adaptation method and system generated by using global style tokens and a prediction model. The speaker adaptation method performed by the speaker adaptation system, according to an embodiment, may comprise the steps of: generating a plurality of speaker embeddings representing the tone of a speaker from a speaker embedding by using a voice transformation model including a global style token mechanism; and predicting the final speaker embedding representing a new speaker through similarity comparison between a new speaker embedding predicted by using a prediction model for predicting a speaker embedding and the plurality of generated speaker embeddings. |
---|