EFFICIENT GROUND TRUTH ANNOTATION

A computer-implemented method for determining a set of target items to be annotated for training a machine learning application. The method comprises providing a training data set with a set of data samples and an auto-encoder with a classifier. The auto-encoder comprises an embedding model that map...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: KUZNETSOVA, Rita, NOGUER HIDALGO, Dal, STAAR, Peter, AUER, Christoph, KAESTNER, Ralf, VELIZHEV, Alexander, BEKAS, Konstantinos, DOLFI, Michelle, GEORGOPOULOS, Leonidas
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:A computer-implemented method for determining a set of target items to be annotated for training a machine learning application. The method comprises providing a training data set with a set of data samples and an auto-encoder with a classifier. The auto-encoder comprises an embedding model that maps the set of data samples to a set of compressed feature vectors. The set of compressed feature vectors define a compressed feature matrix. Further provided are: a definition of a graph associated to the compressed feature matrix, applying a clustering-algorithm to identify node clusters of the graph and applying a centrality algorithm to identify central nodes of the node clusters, retrieving from an annotator node labels for the central nodes, propagating the annotated node labels to other nodes of the graph and performing a training of the embedding model and the classifier with the annotated and the propagated node labels. La présente invention concerne un procédé mis en œuvre par ordinateur pour déterminer un ensemble d'éléments cibles à annoter pour entraîner une application d'apprentissage machine. Le procédé consiste à fournir un ensemble de données d'apprentissage comportant un ensemble d'échantillons de données et un autocodeur comportant un classificateur. L'autocodeur comprend un modèle d'incorporation qui mappe l'ensemble d'échantillons de données à un ensemble de vecteurs de caractéristiques compressées. L'ensemble de vecteurs de caractéristiques compressées définit une matrice de caractéristiques compressées. La présente invention concerne en outre : une définition d'un graphe associé à la matrice de caractéristiques compressées, l'application d'un algorithme de regroupement pour identifier des grappes de nœuds du graphe et l'application d'un algorithme de centralité pour identifier des nœuds centraux des grappes de nœuds, la récupération, à partir d'un nœud d'annotation, d'étiquettes pour les nœuds centraux, la propagation des étiquettes de nœud annotées vers d'autres nœuds du graphe et la réalisation d'un apprentissage du modèle d'incorporation et du classificateur avec les étiquettes de nœud annotées et propagées.