MACHINE LEARNING BASED MODELS FOR LABELLING TEXT DATA

A computer implemented method for training a machine learning engine to label sensitive information from text data. The method includes the steps of (i) receiving text data and a list of classes that defines the sensitive information to be labelled; (ii) generating a set of synthetic sentences and u...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: STEFANIUK, FILIP, RIAZANOV, SERGEI, PAGE, HECTOR, MUGRIDGE-WHITE, SOPHIE, WELLER, SUZANNE, GUINAMARD, KIERON, MCFALL, JASON, CRIBBIN, PATRICK
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
container_end_page
container_issue
container_start_page
container_title
container_volume
creator STEFANIUK, FILIP
RIAZANOV, SERGEI
PAGE, HECTOR
MUGRIDGE-WHITE, SOPHIE
WELLER, SUZANNE
GUINAMARD, KIERON
MCFALL, JASON
CRIBBIN, PATRICK
description A computer implemented method for training a machine learning engine to label sensitive information from text data. The method includes the steps of (i) receiving text data and a list of classes that defines the sensitive information to be labelled; (ii) generating a set of synthetic sentences and using the set of synthetic sentences for training the machine learning engine; (iii) predicting labels for entities in a sample of the text data, selecting a subsample of labelled sentences from the sample of text data to provide to an annotator for reviewing, and updating the training data with the user reviewed sentences; and (iv) training the machine learning engine with the updated training data and repeating step (iii) until the performance of the machine learning meets an end-user requirement. L'invention concerne un procédé mis en oeuvre par ordinateur pour entraîner un moteur d'apprentissage automatique afin de marquer des informations sensibles issues de données de texte. Le procédé comprend les étapes consistant à (i) recevoir des données de texte et une liste de classes qui définit les informations sensibles à marquer ; (ii) générer un ensemble de phrases synthétiques et utiliser l'ensemble de phrases synthétiques pour entraîner le moteur d'apprentissage automatique ; (iii) prédire des marqueurs pour des entités dans un échantillon des données de texte, sélectionner un sous-échantillon de phrases marquées dans l'échantillon de données de texte pour les fournir à un annotateur en vue de leur réexamen, et mettre à jour les données d'apprentissage avec les phrases réexaminées par l'utilisateur ; et (iv) entraîner le moteur d'apprentissage automatique avec les données d'apprentissage mises à jour et répéter l'étape (iii) jusqu'à ce que la performance de l'apprentissage automatique réponde à une exigence d'utilisateur final.
format Patent
fullrecord <record><control><sourceid>epo_EVB</sourceid><recordid>TN_cdi_epo_espacenet_CA3237882A1</recordid><sourceformat>XML</sourceformat><sourcesystem>PC</sourcesystem><sourcerecordid>CA3237882A1</sourcerecordid><originalsourceid>FETCH-epo_espacenet_CA3237882A13</originalsourceid><addsrcrecordid>eNrjZDD1dXT28PRzVfBxdQzy8_RzV3ByDHZ1UfD1d3H1CVZw8w9S8HF0cvXxAUmFuEaEKLg4hjjyMLCmJeYUp_JCaW4GBTfXEGcP3dSC_PjU4oLE5NS81JJ4Z0djI2NzCwsjR0NjIpQAAG4QJrw</addsrcrecordid><sourcetype>Open Access Repository</sourcetype><iscdi>true</iscdi><recordtype>patent</recordtype></control><display><type>patent</type><title>MACHINE LEARNING BASED MODELS FOR LABELLING TEXT DATA</title><source>esp@cenet</source><creator>STEFANIUK, FILIP ; RIAZANOV, SERGEI ; PAGE, HECTOR ; MUGRIDGE-WHITE, SOPHIE ; WELLER, SUZANNE ; GUINAMARD, KIERON ; MCFALL, JASON ; CRIBBIN, PATRICK</creator><creatorcontrib>STEFANIUK, FILIP ; RIAZANOV, SERGEI ; PAGE, HECTOR ; MUGRIDGE-WHITE, SOPHIE ; WELLER, SUZANNE ; GUINAMARD, KIERON ; MCFALL, JASON ; CRIBBIN, PATRICK</creatorcontrib><description>A computer implemented method for training a machine learning engine to label sensitive information from text data. The method includes the steps of (i) receiving text data and a list of classes that defines the sensitive information to be labelled; (ii) generating a set of synthetic sentences and using the set of synthetic sentences for training the machine learning engine; (iii) predicting labels for entities in a sample of the text data, selecting a subsample of labelled sentences from the sample of text data to provide to an annotator for reviewing, and updating the training data with the user reviewed sentences; and (iv) training the machine learning engine with the updated training data and repeating step (iii) until the performance of the machine learning meets an end-user requirement. L'invention concerne un procédé mis en oeuvre par ordinateur pour entraîner un moteur d'apprentissage automatique afin de marquer des informations sensibles issues de données de texte. Le procédé comprend les étapes consistant à (i) recevoir des données de texte et une liste de classes qui définit les informations sensibles à marquer ; (ii) générer un ensemble de phrases synthétiques et utiliser l'ensemble de phrases synthétiques pour entraîner le moteur d'apprentissage automatique ; (iii) prédire des marqueurs pour des entités dans un échantillon des données de texte, sélectionner un sous-échantillon de phrases marquées dans l'échantillon de données de texte pour les fournir à un annotateur en vue de leur réexamen, et mettre à jour les données d'apprentissage avec les phrases réexaminées par l'utilisateur ; et (iv) entraîner le moteur d'apprentissage automatique avec les données d'apprentissage mises à jour et répéter l'étape (iii) jusqu'à ce que la performance de l'apprentissage automatique réponde à une exigence d'utilisateur final.</description><language>eng ; fre</language><subject>CALCULATING ; COMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS ; COMPUTING ; COUNTING ; ELECTRIC DIGITAL DATA PROCESSING ; PHYSICS</subject><creationdate>2023</creationdate><oa>free_for_read</oa><woscitedreferencessubscribed>false</woscitedreferencessubscribed></display><links><openurl>$$Topenurl_article</openurl><openurlfulltext>$$Topenurlfull_article</openurlfulltext><thumbnail>$$Tsyndetics_thumb_exl</thumbnail><linktohtml>$$Uhttps://worldwide.espacenet.com/publicationDetails/biblio?FT=D&amp;date=20230519&amp;DB=EPODOC&amp;CC=CA&amp;NR=3237882A1$$EHTML$$P50$$Gepo$$Hfree_for_read</linktohtml><link.rule.ids>230,308,778,883,25551,76302</link.rule.ids><linktorsrc>$$Uhttps://worldwide.espacenet.com/publicationDetails/biblio?FT=D&amp;date=20230519&amp;DB=EPODOC&amp;CC=CA&amp;NR=3237882A1$$EView_record_in_European_Patent_Office$$FView_record_in_$$GEuropean_Patent_Office$$Hfree_for_read</linktorsrc></links><search><creatorcontrib>STEFANIUK, FILIP</creatorcontrib><creatorcontrib>RIAZANOV, SERGEI</creatorcontrib><creatorcontrib>PAGE, HECTOR</creatorcontrib><creatorcontrib>MUGRIDGE-WHITE, SOPHIE</creatorcontrib><creatorcontrib>WELLER, SUZANNE</creatorcontrib><creatorcontrib>GUINAMARD, KIERON</creatorcontrib><creatorcontrib>MCFALL, JASON</creatorcontrib><creatorcontrib>CRIBBIN, PATRICK</creatorcontrib><title>MACHINE LEARNING BASED MODELS FOR LABELLING TEXT DATA</title><description>A computer implemented method for training a machine learning engine to label sensitive information from text data. The method includes the steps of (i) receiving text data and a list of classes that defines the sensitive information to be labelled; (ii) generating a set of synthetic sentences and using the set of synthetic sentences for training the machine learning engine; (iii) predicting labels for entities in a sample of the text data, selecting a subsample of labelled sentences from the sample of text data to provide to an annotator for reviewing, and updating the training data with the user reviewed sentences; and (iv) training the machine learning engine with the updated training data and repeating step (iii) until the performance of the machine learning meets an end-user requirement. L'invention concerne un procédé mis en oeuvre par ordinateur pour entraîner un moteur d'apprentissage automatique afin de marquer des informations sensibles issues de données de texte. Le procédé comprend les étapes consistant à (i) recevoir des données de texte et une liste de classes qui définit les informations sensibles à marquer ; (ii) générer un ensemble de phrases synthétiques et utiliser l'ensemble de phrases synthétiques pour entraîner le moteur d'apprentissage automatique ; (iii) prédire des marqueurs pour des entités dans un échantillon des données de texte, sélectionner un sous-échantillon de phrases marquées dans l'échantillon de données de texte pour les fournir à un annotateur en vue de leur réexamen, et mettre à jour les données d'apprentissage avec les phrases réexaminées par l'utilisateur ; et (iv) entraîner le moteur d'apprentissage automatique avec les données d'apprentissage mises à jour et répéter l'étape (iii) jusqu'à ce que la performance de l'apprentissage automatique réponde à une exigence d'utilisateur final.</description><subject>CALCULATING</subject><subject>COMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS</subject><subject>COMPUTING</subject><subject>COUNTING</subject><subject>ELECTRIC DIGITAL DATA PROCESSING</subject><subject>PHYSICS</subject><fulltext>true</fulltext><rsrctype>patent</rsrctype><creationdate>2023</creationdate><recordtype>patent</recordtype><sourceid>EVB</sourceid><recordid>eNrjZDD1dXT28PRzVfBxdQzy8_RzV3ByDHZ1UfD1d3H1CVZw8w9S8HF0cvXxAUmFuEaEKLg4hjjyMLCmJeYUp_JCaW4GBTfXEGcP3dSC_PjU4oLE5NS81JJ4Z0djI2NzCwsjR0NjIpQAAG4QJrw</recordid><startdate>20230519</startdate><enddate>20230519</enddate><creator>STEFANIUK, FILIP</creator><creator>RIAZANOV, SERGEI</creator><creator>PAGE, HECTOR</creator><creator>MUGRIDGE-WHITE, SOPHIE</creator><creator>WELLER, SUZANNE</creator><creator>GUINAMARD, KIERON</creator><creator>MCFALL, JASON</creator><creator>CRIBBIN, PATRICK</creator><scope>EVB</scope></search><sort><creationdate>20230519</creationdate><title>MACHINE LEARNING BASED MODELS FOR LABELLING TEXT DATA</title><author>STEFANIUK, FILIP ; RIAZANOV, SERGEI ; PAGE, HECTOR ; MUGRIDGE-WHITE, SOPHIE ; WELLER, SUZANNE ; GUINAMARD, KIERON ; MCFALL, JASON ; CRIBBIN, PATRICK</author></sort><facets><frbrtype>5</frbrtype><frbrgroupid>cdi_FETCH-epo_espacenet_CA3237882A13</frbrgroupid><rsrctype>patents</rsrctype><prefilter>patents</prefilter><language>eng ; fre</language><creationdate>2023</creationdate><topic>CALCULATING</topic><topic>COMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS</topic><topic>COMPUTING</topic><topic>COUNTING</topic><topic>ELECTRIC DIGITAL DATA PROCESSING</topic><topic>PHYSICS</topic><toplevel>online_resources</toplevel><creatorcontrib>STEFANIUK, FILIP</creatorcontrib><creatorcontrib>RIAZANOV, SERGEI</creatorcontrib><creatorcontrib>PAGE, HECTOR</creatorcontrib><creatorcontrib>MUGRIDGE-WHITE, SOPHIE</creatorcontrib><creatorcontrib>WELLER, SUZANNE</creatorcontrib><creatorcontrib>GUINAMARD, KIERON</creatorcontrib><creatorcontrib>MCFALL, JASON</creatorcontrib><creatorcontrib>CRIBBIN, PATRICK</creatorcontrib><collection>esp@cenet</collection></facets><delivery><delcategory>Remote Search Resource</delcategory><fulltext>fulltext_linktorsrc</fulltext></delivery><addata><au>STEFANIUK, FILIP</au><au>RIAZANOV, SERGEI</au><au>PAGE, HECTOR</au><au>MUGRIDGE-WHITE, SOPHIE</au><au>WELLER, SUZANNE</au><au>GUINAMARD, KIERON</au><au>MCFALL, JASON</au><au>CRIBBIN, PATRICK</au><format>patent</format><genre>patent</genre><ristype>GEN</ristype><title>MACHINE LEARNING BASED MODELS FOR LABELLING TEXT DATA</title><date>2023-05-19</date><risdate>2023</risdate><abstract>A computer implemented method for training a machine learning engine to label sensitive information from text data. The method includes the steps of (i) receiving text data and a list of classes that defines the sensitive information to be labelled; (ii) generating a set of synthetic sentences and using the set of synthetic sentences for training the machine learning engine; (iii) predicting labels for entities in a sample of the text data, selecting a subsample of labelled sentences from the sample of text data to provide to an annotator for reviewing, and updating the training data with the user reviewed sentences; and (iv) training the machine learning engine with the updated training data and repeating step (iii) until the performance of the machine learning meets an end-user requirement. L'invention concerne un procédé mis en oeuvre par ordinateur pour entraîner un moteur d'apprentissage automatique afin de marquer des informations sensibles issues de données de texte. Le procédé comprend les étapes consistant à (i) recevoir des données de texte et une liste de classes qui définit les informations sensibles à marquer ; (ii) générer un ensemble de phrases synthétiques et utiliser l'ensemble de phrases synthétiques pour entraîner le moteur d'apprentissage automatique ; (iii) prédire des marqueurs pour des entités dans un échantillon des données de texte, sélectionner un sous-échantillon de phrases marquées dans l'échantillon de données de texte pour les fournir à un annotateur en vue de leur réexamen, et mettre à jour les données d'apprentissage avec les phrases réexaminées par l'utilisateur ; et (iv) entraîner le moteur d'apprentissage automatique avec les données d'apprentissage mises à jour et répéter l'étape (iii) jusqu'à ce que la performance de l'apprentissage automatique réponde à une exigence d'utilisateur final.</abstract><oa>free_for_read</oa></addata></record>
fulltext fulltext_linktorsrc
identifier
ispartof
issn
language eng ; fre
recordid cdi_epo_espacenet_CA3237882A1
source esp@cenet
subjects CALCULATING
COMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
COMPUTING
COUNTING
ELECTRIC DIGITAL DATA PROCESSING
PHYSICS
title MACHINE LEARNING BASED MODELS FOR LABELLING TEXT DATA
url https://sfx.bib-bvb.de/sfx_tum?ctx_ver=Z39.88-2004&ctx_enc=info:ofi/enc:UTF-8&ctx_tim=2025-01-15T22%3A30%3A25IST&url_ver=Z39.88-2004&url_ctx_fmt=infofi/fmt:kev:mtx:ctx&rfr_id=info:sid/primo.exlibrisgroup.com:primo3-Article-epo_EVB&rft_val_fmt=info:ofi/fmt:kev:mtx:patent&rft.genre=patent&rft.au=STEFANIUK,%20FILIP&rft.date=2023-05-19&rft_id=info:doi/&rft_dat=%3Cepo_EVB%3ECA3237882A1%3C/epo_EVB%3E%3Curl%3E%3C/url%3E&disable_directlink=true&sfx.directlink=off&sfx.report_link=0&rft_id=info:oai/&rft_id=info:pmid/&rfr_iscdi=true