SPEAKER DIARIZATION SYSTEM, COMMUNICATION ANALYSIS SYSTEM, AND UTTERANCE AMOUNT ESTIMATION METHOD

A speaker diarization system (38) is provided with: a human detection unit (32) for acquiring video information of a video in which a target person staying in a space is included and for detecting, on the basis of the acquired video information, a first position which is the position of the target p...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: YOSHIKAWA, Naoki, KITAMURA, Kazuki, PRANAY, Pratik, MA, Jiali, BIN JAMAL, Mulliana Yusuff
Format: Patent
Sprache:eng ; fre ; jpn
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:A speaker diarization system (38) is provided with: a human detection unit (32) for acquiring video information of a video in which a target person staying in a space is included and for detecting, on the basis of the acquired video information, a first position which is the position of the target person in the space; a sound source detection unit (31) for acquiring sound information of the sound acquired in the space and for detecting, on the basis of the acquired sound information, a second position which is the position of the sound source in the space; and an utterance amount estimation unit (34) for tracking the target person on the basis of the detected first position and the detected second position and for estimating an utterance amount of the target person which is subjected to the tracking. L'invention concerne un système de segmentation et de regroupement de locuteur (38) comprenant : une unité de détection d'être humain (32) permettant d'acquérir des informations vidéo d'une vidéo dans laquelle est incluse une personne cible séjournant dans un espace, ainsi que de détecter, d'après les informations vidéo acquises, une première position qui est la position de la personne cible dans l'espace ; une unité de détection de source sonore (31) permettant d'acquérir des informations sonores du son acquis dans l'espace, ainsi que de détecter, d'après les informations sonores acquises, une seconde position qui est la position de la source sonore dans l'espace ; et une unité d'estimation de quantité d'énonciation (34) permettant de suivre la personne cible d'après la première position détectée et la seconde position détectée, ainsi que d'estimer une quantité d'énoncé de la personne cible qui est soumise au suivi. 話者ダイアライゼーションシステム(38)は、空間に滞在する対象者が映る映像の映像情報を取得し、取得した映像情報に基づいて空間における対象者の位置である第一位置を検知する人検知ユニット(32)と、空間において取得された音の音情報を取得し、取得した音情報に基づいて空間における音源の位置である第二位置を検知する音源検知ユニット(31)と、検知された第一位置、及び、検知された第二位置に基づいて、対象者を追跡し、かつ、追跡中の対象者の発話量を推定する発話量推定ユニット(34)とを備える。