VIDEO AND AUDIO MULTIMODAL SEARCHING SYSTEM

A multimodal search system using a video query is described. The system can receive video data captured by a camera of a user device. The video data can have a sequence of image frames. Additionally, the system can receive audio data associated with the video data captured by the user device. Moreov...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	CASO CORELLA, Viviana, KHARBANDA, Harshit, HENDON, David William, DUERIG, Thomas, JAIN, Aashi, YU, Kai, BERRADA, Dounia, DUA, Robin, SORICUT, Radu, LEE, Jessica, WANG, Louis, ZENG, Belinda Luna, KELLEY, Christopher James
Format:	Patent
Sprache:	eng ; fre
Schlagworte:	CALCULATING COMPUTING COUNTING ELECTRIC DIGITAL DATA PROCESSING PHYSICS
Online-Zugang:	Volltext bestellen
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Beschreibung
Zusammenfassung:	A multimodal search system using a video query is described. The system can receive video data captured by a camera of a user device. The video data can have a sequence of image frames. Additionally, the system can receive audio data associated with the video data captured by the user device. Moreover, the system can process, using one or more machine-learned models, the sequence of image frames to generate video embeddings related to the sequence of the image frames. The video embeddings can have a plurality of image embeddings associated with the sequence of image frames. Furthermore, the system can determine one or more video results based on the video embeddings and the audio data. Subsequently, the system can transmit, to the user device, the one or more video results. L'invention concerne un système de recherche multimodal utilisant une interrogation de vidéo. Le système peut recevoir des données vidéo capturées par une caméra d'un dispositif utilisateur. Les données vidéo peuvent avoir une séquence de trames d'image. De plus, le système peut recevoir des données audio associées aux données vidéo capturées par le dispositif utilisateur. De plus, le système peut traiter, à l'aide d'un ou de plusieurs modèles d'apprentissage automatique, la séquence de trames d'image pour générer des plongements de vidéo associés à la séquence des trames d'image. Les plongements de vidéo peuvent avoir une pluralité de plongements d'image associés à la séquence de trames d'image. En outre, le système peut déterminer un ou plusieurs résultats vidéo sur la base des plongements de vidéo et des données audio. Ensuite, le système peut transmettre, au dispositif utilisateur, le ou les résultats vidéo.