ITERATIVE APPLICATION OF A MACHINE LEARNING-BASED INFORMATION EXTRACTION MODEL TO DOCUMENTS HAVING UNSTRUCTURED TEXT DATA

An apparatus comprises a processing device configured to receive a query to extract information from a document, and to perform two or more iterations of utilizing a machine learning-based information extraction model to extract portions of unstructured text data from the document. In each iteration...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: VAH, Jeffrey, WIGGERS, Jimmy, SHUKLA, Ravi
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:An apparatus comprises a processing device configured to receive a query to extract information from a document, and to perform two or more iterations of utilizing a machine learning-based information extraction model to extract portions of unstructured text data from the document. In each iteration, a portion of the unstructured text data extracted from the document and an associated relevance score are output. In a first iteration, the query and document are input while in subsequent iterations the query and modified versions of the document are input, the modified versions having previously-extracted portions of the unstructured text data removed therefrom. The processing device is also configured to generate a response to the query comprising a subset of the portions of the unstructured text data extracted from the document determined to have associated relevance scores exceeding a threshold relevance score and at least a threshold level of similarity to the query. Un appareil comprend un dispositif de traitement configuré pour recevoir une requête d'extraction d'informations d'un document et pour effectuer au moins deux itérations d'utilisation d'un modèle d'extraction d'informations reposant sur l'apprentissage machine pour extraire du document des parties de données textuelles non structurées. À chaque itération, une partie des données textuelles non structurées extraites du document et une note de pertinence associée sont émises. Lors d'une première itération, la requête et le document sont entrés, tandis que lors d'itérations ultérieures, la requête et des versions modifiées du document sont entrées, les versions modifiées comportant des parties précédemment extraites des données textuelles non structurées qui en ont été retirées. Le dispositif de traitement est également configuré pour générer une réponse à la requête comprenant un sous-ensemble des parties des données textuelles non structurées extraites du document dont il a été déterminé que des notes de pertinence qui y sont associées dépassent une note de pertinence seuil et au moins un niveau seuil de similarité à la requête.