STRUCTURAL DOCUMENT CLASSIFICATION

A method of classifying documents. The method comprises providing a document mapping classifying dataset comprising document feature datasets, each one of the document feature datasets documenting document features of one of a plurality of documents, each one of the documents is associated with a st...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: REVED, ITAY, PELED, ARIEL
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:A method of classifying documents. The method comprises providing a document mapping classifying dataset comprising document feature datasets, each one of the document feature datasets documenting document features of one of a plurality of documents, each one of the documents is associated with a structurality level and classified as related to one of a plurality of database specific categories, extracting a current document feature dataset from a document, performing an analysis of each of at least some of the document feature datasets to identify a similarity to the current document feature dataset while adjusting a dynamic similarity threshold according to a respective the structurality level of an associated document from the documents, selecting one of the documents according to the similarity, and classifying the current document as a member of a respective the database specific category of the selected document. L'invention concerne un procédé de classification de documents. Le procédé comprend la fourniture d'un ensemble de données de classification de mise en correspondance de document, comprenant des ensembles de données de caractéristiques de document, chacun des ensembles de données de caractéristiques de document documentant des caractéristiques de document d'un document parmi une pluralité de documents, chacun des documents est associé à un niveau de structuralité et classifié comme associé à une catégorie parmi une pluralité de catégories spécifiques de base de données, l'extraction d'un ensemble de données de caractéristiques de document actuel à partir d'un document, la réalisation d'une analyse de chaque ensemble parmi au moins certains des ensembles de données de caractéristiques de document afin d'identifier une similitude avec l'ensemble de données de caractéristiques de document actuel tout en réglant un seuil de similitude dynamique en fonction d'un niveau de structuralité respectif d'un document associé parmi les documents, la sélection d'un des documents en fonction de la similitude et la classification du document actuel comme un membre de la catégorie spécifique de base de données du document sélectionné.