VISUAL QUESTION ANSWERING USING ON-IMAGE ANNOTATIONS

Techniques described herein relate to visual question answering ("VQA") using trained machine learning models. In various embodiments, a VQA machine learning model may be trained using the follow operations: obtaining (302) a corpus of digital images, each respective digital image (232) in...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: AL HASAN, Sheikh, LING, Yuan, FARRI, Oladimeji
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Techniques described herein relate to visual question answering ("VQA") using trained machine learning models. In various embodiments, a VQA machine learning model may be trained using the follow operations: obtaining (302) a corpus of digital images, each respective digital image (232) including on-image annotation(s) (234) that identify pixel coordinate(s) on the respective digital image; obtaining (304) question-answer pair(s) associated with each of the digital images; generating (306) training examples, each including a respective digital image of the corpus, including the associated on-image annotations, and the associated question-answer pair(s); and for each respective training example of the plurality of training examples: applying (312) the respective training example as input across a machine learning model to generate a respective output; and training (314) the machine learning model based on comparison of the respective output with an answer of the question-answer pair(s) of the respective training example. Les techniques décrites dans la présente invention concernent la réponse à une question visuelle (« VQA ») à l'aide de modèles d'apprentissage automatique entraînés. Dans divers modes de réalisation, un modèle d'apprentissage automatique VQA peut être entraîné à l'aide des opérations suivantes consistant : à obtenir (302) un corpus d'images numériques, chaque image numérique respective (232) comprenant une ou des annotations sur image (234) qui identifient une ou des coordonnées de pixel sur l'image numérique respective ; à obtenir (304) une ou des paires de question-réponse associées à chacune des images numériques ; à générer (306) des exemples d'apprentissage, comprenant chacun une image numérique respective du corpus, comprenant les annotations sur image associées, et la ou les paires de question-réponse associées ; et pour chaque exemple d'apprentissage respectif de la pluralité d'exemples d'apprentissage : à appliquer (312) l'exemple d'apprentissage respectif en tant qu'entrée dans l'ensemble d'un modèle d'apprentissage automatique pour générer une sortie respective ; et à entraîner (314) le modèle d'apprentissage automatique sur la base d'une comparaison de la sortie respective avec une réponse de la ou des paires de question-réponse de l'exemple d'apprentissage respectif.