AUTOMATED DOCUMENT EXTRACTION AND CLASSIFICATION
A method including receiving a source file containing a plurality of documents which, to a computer, initially are indistinguishable from each other. A first classification stage is applied to the source file using a convolutional neural network image classification to identify source documents in t...
Gespeichert in:
Hauptverfasser: | , , , , , , , , |
---|---|
Format: | Patent |
Sprache: | eng ; fre |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | A method including receiving a source file containing a plurality of documents which, to a computer, initially are indistinguishable from each other. A first classification stage is applied to the source file using a convolutional neural network image classification to identify source documents in the multitude of documents and to produce a partially parsed file having a multitude of identified source documents. The partially parsed file includes sub-images corresponding to the plurality of identified source documents. A second classification stage, including a natural language processing artificial intelligence, is applied to sets of text in bounding boxes of the sub-images, to classify each of the multitude of identified source documents as a corresponding sub-type of document. Each of the sets of text corresponding to one of the sub-images. A parsed file having a multitude of identified sub-types of documents is produced. The parsed file is further computer processed.
L'invention concerne un procédé qui consiste à recevoir un fichier source contenant une pluralité de documents qui, pour un ordinateur, sont, au départ, impossibles à distinguer les uns des autres Un premier étage de classification est appliqué au fichier source à l'aide d'une classification d'image de réseau neuronal à convolution pour identifier des documents sources dans la multitude de documents et pour produire un fichier partiellement analysé ayant une multitude de documents sources identifiés. Le fichier partiellement analysé comprend des sous-images correspondant à la pluralité de documents sources identifiés. Un second étage de classification, comprenant une intelligence artificielle de traitement du langage naturel, est appliqué à des ensembles de texte dans des zones de délimitation des sous-images, pour classer chaque document source identifié de la multitude de documents sources identifiés en tant que sous-type de document correspondant. Chacun des ensembles de texte correspond à l'une des sous-images. Un fichier analysé ayant une multitude de sous-types identifiés de documents est produit. Le fichier analysé est en outre traité par ordinateur. |
---|