TRAINING A MACHINE LEARNING MODEL BASED ON TEXT AND IMAGE DATA

A method comprising: accessing a training data point comprising i) a present image of a target, ii) a prior image of the target captured from an earlier occasion, and iii) and a corresponding textual report on the present and prior images; and training a machine learning model by: a) using an image...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: BOUZID, Kenza, SHARMA, Harshita, HYLAND, Stephanie, BANNUR, Shruthi Jaisimha, LIU, Qianchu, ILSE, Maximilian, OKTAY, Ozan, PEREZ-GARCIA, Fernando, COELHO DE CASTRO, Daniel, NORI, Aditya, ALVAREZ-VALLE, Javier
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:A method comprising: accessing a training data point comprising i) a present image of a target, ii) a prior image of the target captured from an earlier occasion, and iii) and a corresponding textual report on the present and prior images; and training a machine learning model by: a) using an image encoder of the machine learning model, encoding the present image into a present image embedding, and encoding the prior image into a prior image embedding, b) using a difference encoder of the machine learning model, generating a difference embedding representing a difference between the present image embedding and the prior image embedding, c) using a text encoder of the machine learning model, encoding the textual report into a text embedding, d) comparing the text embedding with a temporal image embedding comprising the present image embedding and difference embedding. Un procédé consiste à : accéder à un point de données d'entraînement comprenant i) une image présente d'une cible, ii) une image antérieure de la cible capturée lors d'une occasion antérieure, et iii) et un rapport textuel correspondant sur les images présente et antérieure; et l'entraînement d'un modèle d'apprentissage automatique en : a) utilisant un codeur d'image du modèle d'apprentissage automatique, codant la présente image en une incrustation d'image présente, et codant l'image antérieure en une incrustation d'image antérieure, b) utilisant un codeur de différence du modèle d'apprentissage automatique, générant une incrustation de différence représentant une différence entre l'incrustation d'image présente et l'incrustation d'image antérieure, c) utilisant un codeur de texte du modèle d'apprentissage automatique, codant le rapport textuel en une incrustation de texte, d) comparant l'incrustation de texte à une incrustation d'image temporelle comprenant l'incrustation d'image présente et l'incrustation de différence.