VOICE PROCESSING DEVICE AND PROGRAM

The present invention enables voices including emotions to be synthesized in consideration of settings unique to respective speakers. Provided is a voice processing device. While extracting a face feature point for each frame from video data that is obtained by recording the face of a speaker, the v...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
1. Verfasser: KAINUMA Ken-ichi
Format: Patent
Sprache:eng ; fre ; jpn
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:The present invention enables voices including emotions to be synthesized in consideration of settings unique to respective speakers. Provided is a voice processing device. While extracting a face feature point for each frame from video data that is obtained by recording the face of a speaker, the voice processing device generates a first generating network for generating, on the basis of a voice feature data item extracted for each frame from a speech made by the speaker, the face feature point of the corresponding frame. The voice processing device assesses, with an identification network, whether or not the first generating network is appropriate. Then, the voice processing device generates a second generating network for generating the speech on the basis of: multiple types of unfixed settings including at least a text indicating the spoken words in the speech and information indicating an emotion included in the speech; multiple types of fixed settings specifying the voice type of the speaker; and the face feature point generated by the first generating network having assessed to be appropriate. The voice processing device assesses, with the identification network, whether or not the second generating network is appropriate. La présente invention permet de synthétiser des voix comprenant des émotions en tenant compte de réglages propres à des locuteurs respectifs. L'invention concerne un dispositif de traitement vocal. Tout en extrayant un point de caractéristique de visage pour chaque trame à partir de données vidéo qui sont obtenues par enregistrement du visage d'un locuteur, le dispositif de traitement vocal génère un premier réseau de génération servant à générer, sur la base d'un élément de données de caractéristique vocale extrait pour chaque trame à partir de paroles prononcées par le locuteur, le point de caractéristique de visage de la trame correspondante. Le dispositif de traitement vocal évalue, à l'aide d'un réseau d'identification, si le premier réseau de génération est approprié ou non. Ensuite, le dispositif de traitement vocal génère un second réseau de génération servant à générer les paroles sur la base : de multiples types de réglages non fixes comprenant au moins un texte indiquant les mots prononcés dans les paroles et des informations indiquant une émotion comprise dans les paroles ; de multiples types de réglages fixes spécifiant le type de voix du locuteur ; et le point de caractéristique de visage généré par le premier réseau