DOCUMENT SEGMENTATION

A document to be segmented is converted into a common representation format, if necessary. Parsing of the document results in a document model that is analyzed based on at least one structure-dependent function to identify segments within the document. In one embodiment, the structure-dependent func...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: PRABHAKARA, JAGADEESH CHANDRA BOSE RANTHAM, RAO, SANGEETHA, CHANDRAN, ANITHA
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
container_end_page
container_issue
container_start_page
container_title
container_volume
creator PRABHAKARA, JAGADEESH CHANDRA BOSE RANTHAM
RAO, SANGEETHA
CHANDRAN, ANITHA
description A document to be segmented is converted into a common representation format, if necessary. Parsing of the document results in a document model that is analyzed based on at least one structure-dependent function to identify segments within the document. In one embodiment, the structure-dependent function may comprise a template, or a best-fit template of a plurality of templates, used for comparison with the document model. In other embodiments, the structure-dependent function may comprise table of contents information, font properties within the document model and/or an average segment size determined according to previously identified segments in one or more additional documents that are related to the document under consideration. Semantic-content dependent functions may be applied to further refine the analysis by identifying sub-segments within the extracted segments, or by identifying segments that may be properly merged according to the similarity of their respective semantic content. Un document à segmenter est converti en format de représentation courant, si nécessaire. L'analyse du document conduit à un modèle de document qui est analysé selon une fonction dépendante de la structure pour identifier les segments à l'intérieur du document. Dans une réalisation, la fonction dépendante de la structure peut comprendre un gabarit, ou au moins un gabarit le plus convenable d'une pluralité de gabarits, utilisé pour la comparaison avec le modèle de document. Dans d'autres réalisations, la fonction dépendante de la structure peut comprendre l'information de la table des matières, des propriétés de police à l'intérieur du modèle de document et/ou une taille de segment moyen déterminée d'après les segments déjà identifiés dans un ou plusieurs documents supplémentaires qui sont associés au document analysé. Les fonctions dépendantes du contenu sémantique peuvent être appliquées pour raffiner davantage l'analyse en identifiant les sous-segments à l'intérieur des segments extraits ou en identifiant les segments qui peuvent être fusionnés correctement selon la similarité de leur contenu sémantique respectif.
format Patent
fullrecord <record><control><sourceid>epo_EVB</sourceid><recordid>TN_cdi_epo_espacenet_CA2698914C</recordid><sourceformat>XML</sourceformat><sourcesystem>PC</sourcesystem><sourcerecordid>CA2698914C</sourcerecordid><originalsourceid>FETCH-epo_espacenet_CA2698914C3</originalsourceid><addsrcrecordid>eNrjZBB18XcO9XX1C1EIdnUH0Y4hnv5-PAysaYk5xam8UJqbQd7NNcTZQze1ID8-tbggMTk1L7Uk3tnRyMzSwtLQxNmYsAoAMdAePQ</addsrcrecordid><sourcetype>Open Access Repository</sourcetype><iscdi>true</iscdi><recordtype>patent</recordtype></control><display><type>patent</type><title>DOCUMENT SEGMENTATION</title><source>esp@cenet</source><creator>PRABHAKARA, JAGADEESH CHANDRA BOSE RANTHAM ; RAO, SANGEETHA ; CHANDRAN, ANITHA</creator><creatorcontrib>PRABHAKARA, JAGADEESH CHANDRA BOSE RANTHAM ; RAO, SANGEETHA ; CHANDRAN, ANITHA</creatorcontrib><description>A document to be segmented is converted into a common representation format, if necessary. Parsing of the document results in a document model that is analyzed based on at least one structure-dependent function to identify segments within the document. In one embodiment, the structure-dependent function may comprise a template, or a best-fit template of a plurality of templates, used for comparison with the document model. In other embodiments, the structure-dependent function may comprise table of contents information, font properties within the document model and/or an average segment size determined according to previously identified segments in one or more additional documents that are related to the document under consideration. Semantic-content dependent functions may be applied to further refine the analysis by identifying sub-segments within the extracted segments, or by identifying segments that may be properly merged according to the similarity of their respective semantic content. Un document à segmenter est converti en format de représentation courant, si nécessaire. L'analyse du document conduit à un modèle de document qui est analysé selon une fonction dépendante de la structure pour identifier les segments à l'intérieur du document. Dans une réalisation, la fonction dépendante de la structure peut comprendre un gabarit, ou au moins un gabarit le plus convenable d'une pluralité de gabarits, utilisé pour la comparaison avec le modèle de document. Dans d'autres réalisations, la fonction dépendante de la structure peut comprendre l'information de la table des matières, des propriétés de police à l'intérieur du modèle de document et/ou une taille de segment moyen déterminée d'après les segments déjà identifiés dans un ou plusieurs documents supplémentaires qui sont associés au document analysé. Les fonctions dépendantes du contenu sémantique peuvent être appliquées pour raffiner davantage l'analyse en identifiant les sous-segments à l'intérieur des segments extraits ou en identifiant les segments qui peuvent être fusionnés correctement selon la similarité de leur contenu sémantique respectif.</description><language>eng ; fre</language><subject>CALCULATING ; COMPUTING ; COUNTING ; ELECTRIC DIGITAL DATA PROCESSING ; PHYSICS</subject><creationdate>2015</creationdate><oa>free_for_read</oa><woscitedreferencessubscribed>false</woscitedreferencessubscribed></display><links><openurl>$$Topenurl_article</openurl><openurlfulltext>$$Topenurlfull_article</openurlfulltext><thumbnail>$$Tsyndetics_thumb_exl</thumbnail><linktohtml>$$Uhttps://worldwide.espacenet.com/publicationDetails/biblio?FT=D&amp;date=20150217&amp;DB=EPODOC&amp;CC=CA&amp;NR=2698914C$$EHTML$$P50$$Gepo$$Hfree_for_read</linktohtml><link.rule.ids>230,308,776,881,25542,76516</link.rule.ids><linktorsrc>$$Uhttps://worldwide.espacenet.com/publicationDetails/biblio?FT=D&amp;date=20150217&amp;DB=EPODOC&amp;CC=CA&amp;NR=2698914C$$EView_record_in_European_Patent_Office$$FView_record_in_$$GEuropean_Patent_Office$$Hfree_for_read</linktorsrc></links><search><creatorcontrib>PRABHAKARA, JAGADEESH CHANDRA BOSE RANTHAM</creatorcontrib><creatorcontrib>RAO, SANGEETHA</creatorcontrib><creatorcontrib>CHANDRAN, ANITHA</creatorcontrib><title>DOCUMENT SEGMENTATION</title><description>A document to be segmented is converted into a common representation format, if necessary. Parsing of the document results in a document model that is analyzed based on at least one structure-dependent function to identify segments within the document. In one embodiment, the structure-dependent function may comprise a template, or a best-fit template of a plurality of templates, used for comparison with the document model. In other embodiments, the structure-dependent function may comprise table of contents information, font properties within the document model and/or an average segment size determined according to previously identified segments in one or more additional documents that are related to the document under consideration. Semantic-content dependent functions may be applied to further refine the analysis by identifying sub-segments within the extracted segments, or by identifying segments that may be properly merged according to the similarity of their respective semantic content. Un document à segmenter est converti en format de représentation courant, si nécessaire. L'analyse du document conduit à un modèle de document qui est analysé selon une fonction dépendante de la structure pour identifier les segments à l'intérieur du document. Dans une réalisation, la fonction dépendante de la structure peut comprendre un gabarit, ou au moins un gabarit le plus convenable d'une pluralité de gabarits, utilisé pour la comparaison avec le modèle de document. Dans d'autres réalisations, la fonction dépendante de la structure peut comprendre l'information de la table des matières, des propriétés de police à l'intérieur du modèle de document et/ou une taille de segment moyen déterminée d'après les segments déjà identifiés dans un ou plusieurs documents supplémentaires qui sont associés au document analysé. Les fonctions dépendantes du contenu sémantique peuvent être appliquées pour raffiner davantage l'analyse en identifiant les sous-segments à l'intérieur des segments extraits ou en identifiant les segments qui peuvent être fusionnés correctement selon la similarité de leur contenu sémantique respectif.</description><subject>CALCULATING</subject><subject>COMPUTING</subject><subject>COUNTING</subject><subject>ELECTRIC DIGITAL DATA PROCESSING</subject><subject>PHYSICS</subject><fulltext>true</fulltext><rsrctype>patent</rsrctype><creationdate>2015</creationdate><recordtype>patent</recordtype><sourceid>EVB</sourceid><recordid>eNrjZBB18XcO9XX1C1EIdnUH0Y4hnv5-PAysaYk5xam8UJqbQd7NNcTZQze1ID8-tbggMTk1L7Uk3tnRyMzSwtLQxNmYsAoAMdAePQ</recordid><startdate>20150217</startdate><enddate>20150217</enddate><creator>PRABHAKARA, JAGADEESH CHANDRA BOSE RANTHAM</creator><creator>RAO, SANGEETHA</creator><creator>CHANDRAN, ANITHA</creator><scope>EVB</scope></search><sort><creationdate>20150217</creationdate><title>DOCUMENT SEGMENTATION</title><author>PRABHAKARA, JAGADEESH CHANDRA BOSE RANTHAM ; RAO, SANGEETHA ; CHANDRAN, ANITHA</author></sort><facets><frbrtype>5</frbrtype><frbrgroupid>cdi_FETCH-epo_espacenet_CA2698914C3</frbrgroupid><rsrctype>patents</rsrctype><prefilter>patents</prefilter><language>eng ; fre</language><creationdate>2015</creationdate><topic>CALCULATING</topic><topic>COMPUTING</topic><topic>COUNTING</topic><topic>ELECTRIC DIGITAL DATA PROCESSING</topic><topic>PHYSICS</topic><toplevel>online_resources</toplevel><creatorcontrib>PRABHAKARA, JAGADEESH CHANDRA BOSE RANTHAM</creatorcontrib><creatorcontrib>RAO, SANGEETHA</creatorcontrib><creatorcontrib>CHANDRAN, ANITHA</creatorcontrib><collection>esp@cenet</collection></facets><delivery><delcategory>Remote Search Resource</delcategory><fulltext>fulltext_linktorsrc</fulltext></delivery><addata><au>PRABHAKARA, JAGADEESH CHANDRA BOSE RANTHAM</au><au>RAO, SANGEETHA</au><au>CHANDRAN, ANITHA</au><format>patent</format><genre>patent</genre><ristype>GEN</ristype><title>DOCUMENT SEGMENTATION</title><date>2015-02-17</date><risdate>2015</risdate><abstract>A document to be segmented is converted into a common representation format, if necessary. Parsing of the document results in a document model that is analyzed based on at least one structure-dependent function to identify segments within the document. In one embodiment, the structure-dependent function may comprise a template, or a best-fit template of a plurality of templates, used for comparison with the document model. In other embodiments, the structure-dependent function may comprise table of contents information, font properties within the document model and/or an average segment size determined according to previously identified segments in one or more additional documents that are related to the document under consideration. Semantic-content dependent functions may be applied to further refine the analysis by identifying sub-segments within the extracted segments, or by identifying segments that may be properly merged according to the similarity of their respective semantic content. Un document à segmenter est converti en format de représentation courant, si nécessaire. L'analyse du document conduit à un modèle de document qui est analysé selon une fonction dépendante de la structure pour identifier les segments à l'intérieur du document. Dans une réalisation, la fonction dépendante de la structure peut comprendre un gabarit, ou au moins un gabarit le plus convenable d'une pluralité de gabarits, utilisé pour la comparaison avec le modèle de document. Dans d'autres réalisations, la fonction dépendante de la structure peut comprendre l'information de la table des matières, des propriétés de police à l'intérieur du modèle de document et/ou une taille de segment moyen déterminée d'après les segments déjà identifiés dans un ou plusieurs documents supplémentaires qui sont associés au document analysé. Les fonctions dépendantes du contenu sémantique peuvent être appliquées pour raffiner davantage l'analyse en identifiant les sous-segments à l'intérieur des segments extraits ou en identifiant les segments qui peuvent être fusionnés correctement selon la similarité de leur contenu sémantique respectif.</abstract><oa>free_for_read</oa></addata></record>
fulltext fulltext_linktorsrc
identifier
ispartof
issn
language eng ; fre
recordid cdi_epo_espacenet_CA2698914C
source esp@cenet
subjects CALCULATING
COMPUTING
COUNTING
ELECTRIC DIGITAL DATA PROCESSING
PHYSICS
title DOCUMENT SEGMENTATION
url https://sfx.bib-bvb.de/sfx_tum?ctx_ver=Z39.88-2004&ctx_enc=info:ofi/enc:UTF-8&ctx_tim=2025-02-19T14%3A26%3A55IST&url_ver=Z39.88-2004&url_ctx_fmt=infofi/fmt:kev:mtx:ctx&rfr_id=info:sid/primo.exlibrisgroup.com:primo3-Article-epo_EVB&rft_val_fmt=info:ofi/fmt:kev:mtx:patent&rft.genre=patent&rft.au=PRABHAKARA,%20JAGADEESH%20CHANDRA%20BOSE%20RANTHAM&rft.date=2015-02-17&rft_id=info:doi/&rft_dat=%3Cepo_EVB%3ECA2698914C%3C/epo_EVB%3E%3Curl%3E%3C/url%3E&disable_directlink=true&sfx.directlink=off&sfx.report_link=0&rft_id=info:oai/&rft_id=info:pmid/&rfr_iscdi=true