ITERATIVE ANWENDUNG EINES AUF MASCHINELLEM LERNEN BASIERENDEN INFORMATIONSEXTRAKTIONSMODELLS AUF DOKUMENTE MIT UNSTRUKTURIERTEN TEXTDATEN
Eine Vorrichtung umfasst eine Verarbeitungsvorrichtung, die konfiguriert ist, um eine Abfrage zu empfangen, um Information aus einem Dokument zu extrahieren, und um zwei oder mehr Iterationen der Verwendung eines auf maschinellem Lernen basierenden Informationsextraktionsmodells durchzuführen, um Te...
Gespeichert in:
Hauptverfasser: | , , |
---|---|
Format: | Patent |
Sprache: | ger |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | Eine Vorrichtung umfasst eine Verarbeitungsvorrichtung, die konfiguriert ist, um eine Abfrage zu empfangen, um Information aus einem Dokument zu extrahieren, und um zwei oder mehr Iterationen der Verwendung eines auf maschinellem Lernen basierenden Informationsextraktionsmodells durchzuführen, um Teile von unstrukturierten Textdaten aus dem Dokument zu extrahieren. In jeder Iteration werden ein Teil der unstrukturierten Textdaten, die aus dem Dokument extrahiert wurden, und ein zugeordneter Relevanzwert ausgegeben. In einer ersten Iteration werden die Abfrage und das Dokument eingegeben, während in nachfolgenden Iterationen die Abfrage und modifizierte Versionen des Dokuments eingegeben werden, wobei die modifizierten Versionen zuvor extrahierte Teile der unstrukturierten Textdaten daraus entfernt haben. Die Verarbeitungsvorrichtung ist auch konfiguriert, um eine Antwort auf die Abfrage zu erzeugen, die eine Teilmenge der Teile der unstrukturierten Textdaten umfasst, die aus dem Dokument extrahiert wurden, von denen bestimmt wurde, dass sie zugeordnete Relevanzwerte aufweisen, die einen Schwellenwert für den Relevanzwert und mindestens einen Schwellenwert für die Ähnlichkeit mit der Abfrage überschreiten.
An apparatus comprises a processing device configured to receive a query to extract information from a document, and to perform two or more iterations of utilizing a machine learning-based information extraction model to extract portions of unstructured text data from the document. In each iteration, a portion of the unstructured text data extracted from the document and an associated relevance score are output. In a first iteration, the query and document are input while in subsequent iterations the query and modified versions of the document are input, the modified versions having previously-extracted portions of the unstructured text data removed therefrom. The processing device is also configured to generate a response to the query comprising a subset of the portions of the unstructured text data extracted from the document determined to have associated relevance scores exceeding a threshold relevance score and at least a threshold level of similarity to the query. |
---|