NEURAL NETWORK TRAINING AND SEGMENTING AN AUDIO RECORDING FOR EMOTION RECOGNITION
This invention relates to a method of training a neural network for the purpose of emotion recognition in speech segments and to a system for segmenting speech and recognizing an emotion in said speech segments, more particularly, the invention is directed to selecting speech segments with a require...
Gespeichert in:
Hauptverfasser: | , , |
---|---|
Format: | Patent |
Sprache: | eng ; fre |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | This invention relates to a method of training a neural network for the purpose of emotion recognition in speech segments and to a system for segmenting speech and recognizing an emotion in said speech segments, more particularly, the invention is directed to selecting speech segments with a required emotion from long audio recordings. The presented method of training neural network for the purpose of emotion recognition in a speech segment includes the following steps of: freezing an OpenL3 convolutional neural network; forming a labeled utterances database containing utterances not exceeding 10 seconds in length, wherein a corresponding emotion label or a noise label is attributed to each utterance using assessors, wherein the assessors are a group of assessors excluding assessors that do not meet the Fleiss' Kappa agreement level of 0.4; training a low-capacity recurrent neural network built on said pre-trained OpenL3 convolutional neural network using the formed labeled utterances database; unfreezing the upper layers of said pre-trained OpenL3 convolutional neural network for further training of the neural network.
Cette invention concerne un procédé d'entraînement d'un réseau de neurones à des fins de reconnaissance d'émotion dans des segments de parole et un système de segmentation de la parole et de reconnaissance d'une émotion dans lesdits segments de parole. Plus particulièrement, l'invention a pour objet la sélection de segments de parole comportant une émotion requise à partir d'enregistrements audio longs. Le procédé présenté d'entraînement d'un réseau de neurones à des fins de reconnaissance d'émotion dans un segment de parole comprend les étapes suivantes consistant à : geler un réseau de neurones à convolution OpenL3 ; former une base de données d'énoncés étiquetés contenant des énoncés dont la longueur ne dépasse pas 10 secondes, une étiquette d'émotion correspondante ou une étiquette de bruit étant attribuée à chaque énoncé à l'aide d'évaluateurs, les évaluateurs étant un groupe d'évaluateurs excluant les évaluateurs qui ne satisfont pas au niveau de concordance kappa de Fleiss de 0,4 ; entraîner un réseau de neurones bouclé à faible capacité élaboré sur ledit réseau de neurones à convolution OpenL3 préentraîné à l'aide de la base de données d'énoncés étiquetés formée ; et dégeler les couches supérieures dudit réseau de neurones à convolution OpenL3 préentraîné pour entraîner davantage le réseau de neurones. |
---|