DOCUMENT SEGMENTATION

A document to be segmented is converted into a common representation format, if necessary. Parsing of the document results in a document model that is analyzed based on at least one structure-dependent function to identify segments within the document. In one embodiment, the structure-dependent func...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	PRABHAKARA, JAGADEESH CHANDRA BOSE RANTHAM, RAO, SANGEETHA, CHANDRAN, ANITHA
Format:	Patent
Sprache:	eng ; fre
Schlagworte:	CALCULATING COMPUTING COUNTING ELECTRIC DIGITAL DATA PROCESSING PHYSICS
Online-Zugang:	Volltext bestellen
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

container_end_page
container_issue
container_start_page
container_title
container_volume
creator	PRABHAKARA, JAGADEESH CHANDRA BOSE RANTHAM RAO, SANGEETHA CHANDRAN, ANITHA
description	A document to be segmented is converted into a common representation format, if necessary. Parsing of the document results in a document model that is analyzed based on at least one structure-dependent function to identify segments within the document. In one embodiment, the structure-dependent function may comprise a template, or a best-fit template of a plurality of templates, used for comparison with the document model. In other embodiments, the structure-dependent function may comprise table of contents information, font properties within the document model and/or an average segment size determined according to previously identified segments in one or more additional documents that are related to the document under consideration. Semantic-content dependent functions may be applied to further refine the analysis by identifying sub-segments within the extracted segments, or by identifying segments that may be properly merged according to the similarity of their respective semantic content. Un document à segmenter est converti en format de représentation courant, si nécessaire. L'analyse du document conduit à un modèle de document qui est analysé selon une fonction dépendante de la structure pour identifier les segments à l'intérieur du document. Dans une réalisation, la fonction dépendante de la structure peut comprendre un gabarit, ou au moins un gabarit le plus convenable d'une pluralité de gabarits, utilisé pour la comparaison avec le modèle de document. Dans d'autres réalisations, la fonction dépendante de la structure peut comprendre l'information de la table des matières, des propriétés de police à l'intérieur du modèle de document et/ou une taille de segment moyen déterminée d'après les segments déjà identifiés dans un ou plusieurs documents supplémentaires qui sont associés au document analysé. Les fonctions dépendantes du contenu sémantique peuvent être appliquées pour raffiner davantage l'analyse en identifiant les sous-segments à l'intérieur des segments extraits ou en identifiant les segments qui peuvent être fusionnés correctement selon la similarité de leur contenu sémantique respectif.
format	Patent
fullrecord	<record><control><sourceid>epo_EVB</sourceid><recordid>TN_cdi_epo_espacenet_CA2698914C</recordid><sourceformat>XML</sourceformat><sourcesystem>PC</sourcesystem><sourcerecordid>CA2698914C</sourcerecordid><originalsourceid>FETCH-epo_espacenet_CA2698914C3</originalsourceid><addsrcrecordid>eNrjZBB18XcO9XX1C1EIdnUH0Y4hnv5-PAysaYk5xam8UJqbQd7NNcTZQze1ID8-tbggMTk1L7Uk3tnRyMzSwtLQxNmYsAoAMdAePQ</addsrcrecordid><sourcetype>Open Access Repository</sourcetype><iscdi>true</iscdi><recordtype>patent</recordtype></control><display><type>patent</type><title>DOCUMENT SEGMENTATION</title><source>esp@cenet</source><creator>PRABHAKARA, JAGADEESH CHANDRA BOSE RANTHAM ; RAO, SANGEETHA ; CHANDRAN, ANITHA</creator><creatorcontrib>PRABHAKARA, JAGADEESH CHANDRA BOSE RANTHAM ; RAO, SANGEETHA ; CHANDRAN, ANITHA</creatorcontrib><description>A document to be segmented is converted into a common representation format, if necessary. Parsing of the document results in a document model that is analyzed based on at least one structure-dependent function to identify segments within the document. In one embodiment, the structure-dependent function may comprise a template, or a best-fit template of a plurality of templates, used for comparison with the document model. In other embodiments, the structure-dependent function may comprise table of contents information, font properties within the document model and/or an average segment size determined according to previously identified segments in one or more additional documents that are related to the document under consideration. Semantic-content dependent functions may be applied to further refine the analysis by identifying sub-segments within the extracted segments, or by identifying segments that may be properly merged according to the similarity of their respective semantic content. Un document à segmenter est converti en format de représentation courant, si nécessaire. L'analyse du document conduit à un modèle de document qui est analysé selon une fonction dépendante de la structure pour identifier les segments à l'intérieur du document. Dans une réalisation, la fonction dépendante de la structure peut comprendre un gabarit, ou au moins un gabarit le plus convenable d'une pluralité de gabarits, utilisé pour la comparaison avec le modèle de document. Dans d'autres réalisations, la fonction dépendante de la structure peut comprendre l'information de la table des matières, des propriétés de police à l'intérieur du modèle de document et/ou une taille de segment moyen déterminée d'après les segments déjà identifiés dans un ou plusieurs documents supplémentaires qui sont associés au document analysé. Les fonctions dépendantes du contenu sémantique peuvent être appliquées pour raffiner davantage l'analyse en identifiant les sous-segments à l'intérieur des segments extraits ou en identifiant les segments qui peuvent être fusionnés correctement selon la similarité de leur contenu sémantique respectif.</description><language>eng ; fre</language><subject>CALCULATING ; COMPUTING ; COUNTING ; ELECTRIC DIGITAL DATA PROCESSING ; PHYSICS</subject><creationdate>2015</creationdate><oa>free_for_read</oa><woscitedreferencessubscribed>false</woscitedreferencessubscribed></display><links><openurl>$$Topenurl_article</openurl><openurlfulltext>$$Topenurlfull_article</openurlfulltext><thumbnail>$$Tsyndetics_thumb_exl</thumbnail><linktohtml>$$Uhttps://worldwide.espacenet.com/publicationDetails/biblio?FT=D&date=20150217&DB=EPODOC&CC=CA&NR=2698914C$$EHTML$$P50$$Gepo$$Hfree_for_read</linktohtml><link.rule.ids>230,308,776,881,25542,76516</link.rule.ids><linktorsrc>$$Uhttps://worldwide.espacenet.com/publicationDetails/biblio?FT=D&date=20150217&DB=EPODOC&CC=CA&NR=2698914C$$EView_record_in_European_Patent_Office$$FView_record_in_$$GEuropean_Patent_Office$$Hfree_for_read</linktorsrc></links><search><creatorcontrib>PRABHAKARA, JAGADEESH CHANDRA BOSE RANTHAM</creatorcontrib><creatorcontrib>RAO, SANGEETHA</creatorcontrib><creatorcontrib>CHANDRAN, ANITHA</creatorcontrib><title>DOCUMENT SEGMENTATION</title><description>A document to be segmented is converted into a common representation format, if necessary. Parsing of the document results in a document model that is analyzed based on at least one structure-dependent function to identify segments within the document. In one embodiment, the structure-dependent function may comprise a template, or a best-fit template of a plurality of templates, used for comparison with the document model. In other embodiments, the structure-dependent function may comprise table of contents information, font properties within the document model and/or an average segment size determined according to previously identified segments in one or more additional documents that are related to the document under consideration. Semantic-content dependent functions may be applied to further refine the analysis by identifying sub-segments within the extracted segments, or by identifying segments that may be properly merged according to the similarity of their respective semantic content. Un document à segmenter est converti en format de représentation courant, si nécessaire. L'analyse du document conduit à un modèle de document qui est analysé selon une fonction dépendante de la structure pour identifier les segments à l'intérieur du document. Dans une réalisation, la fonction dépendante de la structure peut comprendre un gabarit, ou au moins un gabarit le plus convenable d'une pluralité de gabarits, utilisé pour la comparaison avec le modèle de document. Dans d'autres réalisations, la fonction dépendante de la structure peut comprendre l'information de la table des matières, des propriétés de police à l'intérieur du modèle de document et/ou une taille de segment moyen déterminée d'après les segments déjà identifiés dans un ou plusieurs documents supplémentaires qui sont associés au document analysé. Les fonctions dépendantes du contenu sémantique peuvent être appliquées pour raffiner davantage l'analyse en identifiant les sous-segments à l'intérieur des segments extraits ou en identifiant les segments qui peuvent être fusionnés correctement selon la similarité de leur contenu sémantique respectif.</description><subject>CALCULATING</subject><subject>COMPUTING</subject><subject>COUNTING</subject><subject>ELECTRIC DIGITAL DATA PROCESSING</subject><subject>PHYSICS</subject><fulltext>true</fulltext><rsrctype>patent</rsrctype><creationdate>2015</creationdate><recordtype>patent</recordtype><sourceid>EVB</sourceid><recordid>eNrjZBB18XcO9XX1C1EIdnUH0Y4hnv5-PAysaYk5xam8UJqbQd7NNcTZQze1ID8-tbggMTk1L7Uk3tnRyMzSwtLQxNmYsAoAMdAePQ</recordid><startdate>20150217</startdate><enddate>20150217</enddate><creator>PRABHAKARA, JAGADEESH CHANDRA BOSE RANTHAM</creator><creator>RAO, SANGEETHA</creator><creator>CHANDRAN, ANITHA</creator><scope>EVB</scope></search><sort><creationdate>20150217</creationdate><title>DOCUMENT SEGMENTATION</title><author>PRABHAKARA, JAGADEESH CHANDRA BOSE RANTHAM ; RAO, SANGEETHA ; CHANDRAN, ANITHA</author></sort><facets><frbrtype>5</frbrtype><frbrgroupid>cdi_FETCH-epo_espacenet_CA2698914C3</frbrgroupid><rsrctype>patents</rsrctype><prefilter>patents</prefilter><language>eng ; fre</language><creationdate>2015</creationdate><topic>CALCULATING</topic><topic>COMPUTING</topic><topic>COUNTING</topic><topic>ELECTRIC DIGITAL DATA PROCESSING</topic><topic>PHYSICS</topic><toplevel>online_resources</toplevel><creatorcontrib>PRABHAKARA, JAGADEESH CHANDRA BOSE RANTHAM</creatorcontrib><creatorcontrib>RAO, SANGEETHA</creatorcontrib><creatorcontrib>CHANDRAN, ANITHA</creatorcontrib><collection>esp@cenet</collection></facets><delivery><delcategory>Remote Search Resource</delcategory><fulltext>fulltext_linktorsrc</fulltext></delivery><addata><au>PRABHAKARA, JAGADEESH CHANDRA BOSE RANTHAM</au><au>RAO, SANGEETHA</au><au>CHANDRAN, ANITHA</au><format>patent</format><genre>patent</genre><ristype>GEN</ristype><title>DOCUMENT SEGMENTATION</title><date>2015-02-17</date><risdate>2015</risdate><abstract>A document to be segmented is converted into a common representation format, if necessary. Parsing of the document results in a document model that is analyzed based on at least one structure-dependent function to identify segments within the document. In one embodiment, the structure-dependent function may comprise a template, or a best-fit template of a plurality of templates, used for comparison with the document model. In other embodiments, the structure-dependent function may comprise table of contents information, font properties within the document model and/or an average segment size determined according to previously identified segments in one or more additional documents that are related to the document under consideration. Semantic-content dependent functions may be applied to further refine the analysis by identifying sub-segments within the extracted segments, or by identifying segments that may be properly merged according to the similarity of their respective semantic content. Un document à segmenter est converti en format de représentation courant, si nécessaire. L'analyse du document conduit à un modèle de document qui est analysé selon une fonction dépendante de la structure pour identifier les segments à l'intérieur du document. Dans une réalisation, la fonction dépendante de la structure peut comprendre un gabarit, ou au moins un gabarit le plus convenable d'une pluralité de gabarits, utilisé pour la comparaison avec le modèle de document. Dans d'autres réalisations, la fonction dépendante de la structure peut comprendre l'information de la table des matières, des propriétés de police à l'intérieur du modèle de document et/ou une taille de segment moyen déterminée d'après les segments déjà identifiés dans un ou plusieurs documents supplémentaires qui sont associés au document analysé. Les fonctions dépendantes du contenu sémantique peuvent être appliquées pour raffiner davantage l'analyse en identifiant les sous-segments à l'intérieur des segments extraits ou en identifiant les segments qui peuvent être fusionnés correctement selon la similarité de leur contenu sémantique respectif.</abstract><oa>free_for_read</oa></addata></record>
fulltext	fulltext_linktorsrc
identifier
ispartof
issn
language	eng ; fre
recordid	cdi_epo_espacenet_CA2698914C
source	esp@cenet
subjects	CALCULATING COMPUTING COUNTING ELECTRIC DIGITAL DATA PROCESSING PHYSICS
title	DOCUMENT SEGMENTATION
url	https://sfx.bib-bvb.de/sfx_tum?ctx_ver=Z39.88-2004&ctx_enc=info:ofi/enc:UTF-8&ctx_tim=2025-02-19T14%3A26%3A55IST&url_ver=Z39.88-2004&url_ctx_fmt=infofi/fmt:kev:mtx:ctx&rfr_id=info:sid/primo.exlibrisgroup.com:primo3-Article-epo_EVB&rft_val_fmt=info:ofi/fmt:kev:mtx:patent&rft.genre=patent&rft.au=PRABHAKARA,%20JAGADEESH%20CHANDRA%20BOSE%20RANTHAM&rft.date=2015-02-17&rft_id=info:doi/&rft_dat=%3Cepo_EVB%3ECA2698914C%3C/epo_EVB%3E%3Curl%3E%3C/url%3E&disable_directlink=true&sfx.directlink=off&sfx.report_link=0&rft_id=info:oai/&rft_id=info:pmid/&rfr_iscdi=true