DOCUMENT SEGMENTATION

A document to be segmented is converted into a common representation format, if necessary. Parsing of the document results in a document model that is analyzed based on at least one structure-dependent function to identify segments within the document. In one embodiment, the structure-dependent func...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: PRABHAKARA, JAGADEESH CHANDRA BOSE RANTHAM, RAO, SANGEETHA, CHANDRAN, ANITHA
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:A document to be segmented is converted into a common representation format, if necessary. Parsing of the document results in a document model that is analyzed based on at least one structure-dependent function to identify segments within the document. In one embodiment, the structure-dependent function may comprise a template, or a best-fit template of a plurality of templates, used for comparison with the document model. In other embodiments, the structure-dependent function may comprise table of contents information, font properties within the document model and/or an average segment size determined according to previously identified segments in one or more additional documents that are related to the document under consideration. Semantic-content dependent functions may be applied to further refine the analysis by identifying sub-segments within the extracted segments, or by identifying segments that may be properly merged according to the similarity of their respective semantic content. Un document à segmenter est converti en format de représentation courant, si nécessaire. L'analyse du document conduit à un modèle de document qui est analysé selon une fonction dépendante de la structure pour identifier les segments à l'intérieur du document. Dans une réalisation, la fonction dépendante de la structure peut comprendre un gabarit, ou au moins un gabarit le plus convenable d'une pluralité de gabarits, utilisé pour la comparaison avec le modèle de document. Dans d'autres réalisations, la fonction dépendante de la structure peut comprendre l'information de la table des matières, des propriétés de police à l'intérieur du modèle de document et/ou une taille de segment moyen déterminée d'après les segments déjà identifiés dans un ou plusieurs documents supplémentaires qui sont associés au document analysé. Les fonctions dépendantes du contenu sémantique peuvent être appliquées pour raffiner davantage l'analyse en identifiant les sous-segments à l'intérieur des segments extraits ou en identifiant les segments qui peuvent être fusionnés correctement selon la similarité de leur contenu sémantique respectif.