USER SPEECH PROFILE MANAGEMENT

A device includes processors configured to determine, in a first power mode, whether an audio stream corresponds to speech of at least two talkers. The processors are configured to, based on determining that the audio stream corresponds to speech of at least two talkers, analyze, in a second power m...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: MOON, Sunkuk, KIM, Lae-Hoon, VISSER, Erik, PARK, Soo Jin
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:A device includes processors configured to determine, in a first power mode, whether an audio stream corresponds to speech of at least two talkers. The processors are configured to, based on determining that the audio stream corresponds to speech of at least two talkers, analyze, in a second power mode, audio feature data of the audio stream to generate a segmentation result. The processors are configured to perform a comparison of a plurality of user speech profiles to an audio feature data set of a plurality of audio feature data sets of a talker-homogenous audio segment to determine whether the audio feature data set matches any of the user speech profiles. The processors are configured to, based on determining that the audio feature data set does not match any of the plurality of user speech profiles, generate a user speech profile based on the plurality of audio feature data sets. La présente invention concerne un dispositif incluant des processeurs configurés pour déterminer, dans un premier mode de puissance, si un flux audio correspond à la parole d'au moins deux locuteurs. Les processeurs sont configurés pour, sur la base de la détermination du fait que le flux audio correspond à la parole d'au moins deux locuteurs, analyser, dans un second mode de puissance, des données de caractéristiques audio du flux audio pour générer un résultat de segmentation. Les processeurs sont configurés pour effectuer une comparaison entre une pluralité de profils vocaux d'utilisateur et un ensemble de données de caractéristiques audio d'une pluralité d'ensembles de données de caractéristiques audio d'un segment audio homogène quant au locuteur pour déterminer si l'ensemble de données de caractéristiques audio correspond à l'un quelconque des profils vocaux d'utilisateur. Les processeurs sont configurés pour, sur la base de la détermination du fait que l'ensemble de données de caractéristiques audio ne correspond pas à l'un quelconque de la pluralité de profils vocaux d'utilisateur, générer un profil vocal d'utilisateur sur la base de la pluralité d'ensembles de données de caractéristiques audio.