ACCELERATING SPEAKER DIARIZATION WITH MULTI-STAGE CLUSTERING

A method (500) includes receiving an input audio signal (122) that corresponds to utterances (120) spoken by multiple speakers. The method also includes processing the input audio to generate a transcription (200) of the utterances and a sequence of speaker turn tokens (224) each indicating a locati...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	ZHAO, Guanlong, HUANG, Yiling, LU, Han, WANG, Quan
Format:	Patent
Sprache:	eng ; fre
Schlagworte:	ACOUSTICS MUSICAL INSTRUMENTS PHYSICS SPEECH ANALYSIS OR SYNTHESIS SPEECH OR AUDIO CODING OR DECODING SPEECH OR VOICE PROCESSING SPEECH RECOGNITION
Online-Zugang:	Volltext bestellen
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Beschreibung
Zusammenfassung:	A method (500) includes receiving an input audio signal (122) that corresponds to utterances (120) spoken by multiple speakers. The method also includes processing the input audio to generate a transcription (200) of the utterances and a sequence of speaker turn tokens (224) each indicating a location of a respective speaker turn. The method also includes segmenting the input audio signal into a plurality of speaker segments (225) based on the sequence of speaker tokens. The method also includes extracting a speaker-discriminative embedding from each speaker segment and performing spectral clustering on the speaker-discriminative embeddings to cluster the plurality of speaker segments into k classes. The method also includes assigning a respective speaker label (250) to each speaker segment clustered into the respective class that is different than the respective speaker label assigned to the speaker segments clustered into each other class of the k classes. Un procédé (500) consiste à recevoir un signal audio (122) d'entrée correspondant à des énoncés (120) prononcés par de multiples locuteurs. Le procédé consiste également à traiter l'audio d'entrée pour générer une transcription (200) des énoncés et une séquence de jetons de tour de locuteur (224) indiquant chacun un emplacement d'un tour de locuteur respectif. Le procédé consiste également à segmenter le signal audio d'entrée en une pluralité de segments de locuteur (225) sur la base de la séquence de jetons de locuteur. Le procédé consiste également à extraire un emboîtement à discrimination de locuteur à partir de chaque segment de locuteur et à réaliser un regroupement spectral sur les emboîtements à discrimination de locuteur pour regrouper la pluralité de segments de locuteur en k classes. Le procédé consiste également à attribuer une étiquette de locuteur (250) respective à chaque segment de locuteur regroupé dans la classe respective qui est différente de l'étiquette de locuteur respective attribuée à des segments de locuteur regroupés dans chaque autre classe des k classes.