MACHINE LEARNING BASED MODELS FOR LABELLING TEXT DATA

A computer implemented method for training a machine learning engine to label sensitive information from text data. The method includes the steps of (i) receiving text data and a list of classes that defines the sensitive information to be labelled; (ii) generating a set of synthetic sentences and u...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: MCFALL, Jason, GUINAMARD, Kieron, WELLER, Suzanne, MUGRIDGE-WHITE, Sophie, CRIBBIN, Patrick, PAGE, Hector, STEFANIUK, Filip, RIAZANOV, Sergei
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:A computer implemented method for training a machine learning engine to label sensitive information from text data. The method includes the steps of (i) receiving text data and a list of classes that defines the sensitive information to be labelled; (ii) generating a set of synthetic sentences and using the set of synthetic sentences for training the machine learning engine; (iii) predicting labels for entities in a sample of the text data, selecting a subsample of labelled sentences from the sample of text data to provide to an annotator for reviewing, and updating the training data with the user reviewed sentences; and (iv) training the machine learning engine with the updated training data and repeating step (iii) until the performance of the machine learning meets an end-user requirement. L'invention concerne un procédé mis en oeuvre par ordinateur pour entraîner un moteur d'apprentissage automatique afin de marquer des informations sensibles issues de données de texte. Le procédé comprend les étapes consistant à (i) recevoir des données de texte et une liste de classes qui définit les informations sensibles à marquer ; (ii) générer un ensemble de phrases synthétiques et utiliser l'ensemble de phrases synthétiques pour entraîner le moteur d'apprentissage automatique ; (iii) prédire des marqueurs pour des entités dans un échantillon des données de texte, sélectionner un sous-échantillon de phrases marquées dans l'échantillon de données de texte pour les fournir à un annotateur en vue de leur réexamen, et mettre à jour les données d'apprentissage avec les phrases réexaminées par l'utilisateur ; et (iv) entraîner le moteur d'apprentissage automatique avec les données d'apprentissage mises à jour et répéter l'étape (iii) jusqu'à ce que la performance de l'apprentissage automatique réponde à une exigence d'utilisateur final.