CONTEXT-BASED SPEAKER COUNTER FOR A SPEAKER DIARIZATION SYSTEM
Methods, systems, and apparatus, including computer programs encoded on a computer storage medium, for determining the number of speakers in a video and a corresponding audio using visual context. In one aspect, a method includes detecting within the video multiple speakers, determining a bounding b...
Gespeichert in:
Hauptverfasser: | , |
---|---|
Format: | Patent |
Sprache: | eng ; fre |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | Methods, systems, and apparatus, including computer programs encoded on a computer storage medium, for determining the number of speakers in a video and a corresponding audio using visual context. In one aspect, a method includes detecting within the video multiple speakers, determining a bounding box for each detected speaker that includes the detected person and objects within a threshold distance of the detected person in an image frame, determining a unique descriptor for that person based in part on image information depicting the objects within the bounding box, determining a cardinality of unique speakers in the video, providing to the speaker diarization system the cardinality of unique speakers.
L'invention concerne des procédés, des systèmes et un appareil, comprenant des programmes informatiques codés sur un support de stockage informatique, pour déterminer le nombre de locuteurs dans une vidéo et un audio correspondant à l'aide d'un contexte visuel. Selon un aspect de l'invention, un procédé comprend la détection, dans une vidéo, de multiples locuteurs, la détermination d'une boîte de délimitation pour chaque locuteur détecté qui comprend la personne détectée et des objets à l'intérieur d'une distance seuil de la personne détectée dans une trame d'image, la détermination d'un descripteur unique pour cette personne sur la base, en partie, d'informations d'image représentant les objets à l'intérieur de la boîte de délimitation, la détermination d'une cardinalité de locuteurs uniques dans la vidéo, la fourniture au système de journalisation de locuteurs de la cardinalité de locuteurs uniques. |
---|