MACHINE LEARNING BASED END-TO-END EXTRACTION OF TABLES FROM ELECTRONIC DOCUMENTS

In some embodiments, a method includes identifying a set of word bounding boxes in a first electronic document, and identifying locations of horizontal white space between two adjacent rows from a set of rows in a table. The method includes determining, using a Natural Language Processing algorithm,...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: TIYYAGURA, Sunil Reddy, KONGARA, Amani
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:In some embodiments, a method includes identifying a set of word bounding boxes in a first electronic document, and identifying locations of horizontal white space between two adjacent rows from a set of rows in a table. The method includes determining, using a Natural Language Processing algorithm, an entity name from a set of entity names for each table cell from a set of table cells in the table. The method includes determining, using a machine learning algorithm a class from a set of classes for each row from the set of rows. The method includes extracting a set of table cell values associated with the set of table cells, and generating a second electronic document including the set of table cell values arranged in the set of rows and the set of columns such that the set of words in the table are computer-readable in the second electronic document. Dans certains modes de réalisation, un procédé consiste à identifier un ensemble de boîtes de délimitation de mots dans un premier document électronique, et à identifier des emplacements d'espace blanc horizontal entre deux rangées adjacentes d'un ensemble de rangées dans une table. Le procédé consiste à déterminer, à l'aide d'un algorithme de traitement de langage naturel, un nom d'entité à partir d'un ensemble de noms d'entité pour chaque cellule de table à partir d'un ensemble de cellules de table dans la table. Le procédé consiste à déterminer, à l'aide d'un algorithme d'apprentissage automatique, une classe à partir d'un ensemble de classes pour chaque rangée à partir de l'ensemble de rangées. Le procédé consiste à extraire un ensemble de valeurs de cellules de table associées à l'ensemble de cellules de table, et à générer un second document électronique comprenant l'ensemble de valeurs de cellules de table agencées dans l'ensemble de rangées et l'ensemble de colonnes de telle sorte que l'ensemble de mots dans la table sont lisibles par ordinateur dans le second document électronique.