METHOD FOR SYNTHESIZED SPEECH GENERATION USING EMOTION INFORMATION CORRECTION AND APPARATUS

Disclosed are a method for generating a synthesized voice and an apparatus for the same. According to one embodiment of the present invention, a method for generating a synthesized voice extracts a second emotion information vector included in a first synthesized voice generated on the basis of text...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: KIM MINOOK, YANG SIYOUNG, JANG JUYEONG, HAN SUNGMIN, PARK YONGCHUL, KIM SANGKI
Format: Patent
Sprache:eng ; kor
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Disclosed are a method for generating a synthesized voice and an apparatus for the same. According to one embodiment of the present invention, a method for generating a synthesized voice extracts a second emotion information vector included in a first synthesized voice generated on the basis of text and a first emotion information vector set in the text; compares a loss value calculated by using the first emotion information vector and the second emotion information vector with a preset threshold to determine whether correction of the second emotion information vector is required; when it is required to correct the second emotion information vector, performing voice synthesis again by using a third emotion information vector generated by correcting the second emotion information vector; and outputs the generated synthesized voice, thereby providing an effect of being able to set more effective voice emotion information. An autonomous vehicle of the present specification can be related to an artificial intelligence module, an unmanned aerial vehicle (UAV), a robot, an augmented reality (AR) device, a virtual reality (VR) device, and a device related to a 5G service, and the like. 합성 음성 생성 방법 및 이를 위한 장치가 개시된다. 본 명세서의 일 실시예에 따른 합성 음성을 생성하는 방법은, 텍스트와 상기 텍스트에 설정된 제 1 감정 정보 벡터를 기초로 생성한 제 1 합성 음성에 포함된 제 2 감정 정보 벡터를 추출하고, 상기 제 1 감정 정보 벡터와 상기 제 2 감정 정보 벡터를 이용하여 계산된 손실 값을 기 설정된 임계치와 비교하여 상기 제 2 감정 정보 벡터의 보정이 필요한지 판단하고, 상기 제 2 감정 정보 벡터의 보정이 필요한 경우, 상기 제 2 감정 정보 벡터를 보정하여 생성된 제 3 감정 정보 벡터를 이용하여 음성 합성을 다시 수행하고, 생성된 합성 음성을 출력하여, 보다 효과적인 음성의 감정 정보를 설정할 수 있다는 효과가 있다. 본 명세서의 자율 주행 차량은 인공 지능(Artificail Intelligenfce) 모듈, 드론(Unmanned Aerial Vehicle, UAV), 로봇, 증강 현실(Augmented Reality, AR) 장치, 가상 현실(virtual reality, VR) 장치, 5G 서비스와 관련된 장치 등과 연계될 수 있다.