EFFICIENT USE OF EXCEPTIONS IN TEXT SEGMENTATION

Input text may be broken into sentence, or other types of segments, by first detecting exceptions in the input text, and then detecting break positions. Given a segment breaking scheme that comprises a set of break rules and a set of exceptions, a regular expression is created that represents the br...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: TAYLOR, MARCUS A, OH, BEOM SEOK, MICHAEL, ALAN K, UEHARA, SHUSUKE, WU, ENYUAN
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
container_end_page
container_issue
container_start_page
container_title
container_volume
creator TAYLOR, MARCUS A
OH, BEOM SEOK
MICHAEL, ALAN K
UEHARA, SHUSUKE
WU, ENYUAN
description Input text may be broken into sentence, or other types of segments, by first detecting exceptions in the input text, and then detecting break positions. Given a segment breaking scheme that comprises a set of break rules and a set of exceptions, a regular expression is created that represents the break rules, and another regular expression is created that represents the exceptions. The input text is analyzed to identify strings that match any exception, and the matching strings are substituted with placeholders that are not likely to occur naturally in the input. The resulting text, with substitutions, is then evaluated to find the positions in the text that match the break rules. Those positions are declared to be segment breaks, and the placeholders are then replaced with the original strings. The result is the original text, with breaks assigned to the appropriate positions in the text. Un texte saisi peut être divisé en phrases ou en d'autres types de segments en distinguant d'abord les exceptions dans le texte puis en distinguant ensuite les points de séparation des segments. Suivant une méthode de division en segments qui comprend un ensemble de règles de division et un ensemble d'exceptions, une expression habituelle est formée en fonction des règles de division, et une autre expression habituelle est formée en fonction des exceptions. Le texte saisi est analysé de manière à délimiter des séquences correspondant à toute exception et ces séquences sont remplacées par des signets qui ne sont pas susceptibles d'apparaître dans le texte saisi dans des circonstances normales. Le texte obtenu, comprenant les substitutions, est ensuite évalué pour trouver les points, dans le texte, qui correspondent aux règles de division. Ces points sont considérés comme des divisions de segments, et les signets sont ensuite remplacés par les séquences originales. Le produit correspond au texte original, auquel des points de division ont été ajoutés aux endroits appropriés.
format Patent
fullrecord <record><control><sourceid>epo_EVB</sourceid><recordid>TN_cdi_epo_espacenet_CA2721498C</recordid><sourceformat>XML</sourceformat><sourcesystem>PC</sourcesystem><sourcerecordid>CA2721498C</sourcerecordid><originalsourceid>FETCH-epo_espacenet_CA2721498C3</originalsourceid><addsrcrecordid>eNrjZDBwdXPzdPZ09QtRCA12VfB3U3CNcHYNCPH09wtW8PRTCHGNCFEIdnX3BapwBInyMLCmJeYUp_JCaW4GeTfXEGcP3dSC_PjU4oLE5NS81JJ4Z0cjcyNDE0sLZ2PCKgCaPyV6</addsrcrecordid><sourcetype>Open Access Repository</sourcetype><iscdi>true</iscdi><recordtype>patent</recordtype></control><display><type>patent</type><title>EFFICIENT USE OF EXCEPTIONS IN TEXT SEGMENTATION</title><source>esp@cenet</source><creator>TAYLOR, MARCUS A ; OH, BEOM SEOK ; MICHAEL, ALAN K ; UEHARA, SHUSUKE ; WU, ENYUAN</creator><creatorcontrib>TAYLOR, MARCUS A ; OH, BEOM SEOK ; MICHAEL, ALAN K ; UEHARA, SHUSUKE ; WU, ENYUAN</creatorcontrib><description>Input text may be broken into sentence, or other types of segments, by first detecting exceptions in the input text, and then detecting break positions. Given a segment breaking scheme that comprises a set of break rules and a set of exceptions, a regular expression is created that represents the break rules, and another regular expression is created that represents the exceptions. The input text is analyzed to identify strings that match any exception, and the matching strings are substituted with placeholders that are not likely to occur naturally in the input. The resulting text, with substitutions, is then evaluated to find the positions in the text that match the break rules. Those positions are declared to be segment breaks, and the placeholders are then replaced with the original strings. The result is the original text, with breaks assigned to the appropriate positions in the text. Un texte saisi peut être divisé en phrases ou en d'autres types de segments en distinguant d'abord les exceptions dans le texte puis en distinguant ensuite les points de séparation des segments. Suivant une méthode de division en segments qui comprend un ensemble de règles de division et un ensemble d'exceptions, une expression habituelle est formée en fonction des règles de division, et une autre expression habituelle est formée en fonction des exceptions. Le texte saisi est analysé de manière à délimiter des séquences correspondant à toute exception et ces séquences sont remplacées par des signets qui ne sont pas susceptibles d'apparaître dans le texte saisi dans des circonstances normales. Le texte obtenu, comprenant les substitutions, est ensuite évalué pour trouver les points, dans le texte, qui correspondent aux règles de division. Ces points sont considérés comme des divisions de segments, et les signets sont ensuite remplacés par les séquences originales. Le produit correspond au texte original, auquel des points de division ont été ajoutés aux endroits appropriés.</description><language>eng ; fre</language><subject>CALCULATING ; COMPUTING ; COUNTING ; ELECTRIC DIGITAL DATA PROCESSING ; PHYSICS</subject><creationdate>2011</creationdate><oa>free_for_read</oa><woscitedreferencessubscribed>false</woscitedreferencessubscribed></display><links><openurl>$$Topenurl_article</openurl><openurlfulltext>$$Topenurlfull_article</openurlfulltext><thumbnail>$$Tsyndetics_thumb_exl</thumbnail><linktohtml>$$Uhttps://worldwide.espacenet.com/publicationDetails/biblio?FT=D&amp;date=20110802&amp;DB=EPODOC&amp;CC=CA&amp;NR=2721498C$$EHTML$$P50$$Gepo$$Hfree_for_read</linktohtml><link.rule.ids>230,308,777,882,25546,76297</link.rule.ids><linktorsrc>$$Uhttps://worldwide.espacenet.com/publicationDetails/biblio?FT=D&amp;date=20110802&amp;DB=EPODOC&amp;CC=CA&amp;NR=2721498C$$EView_record_in_European_Patent_Office$$FView_record_in_$$GEuropean_Patent_Office$$Hfree_for_read</linktorsrc></links><search><creatorcontrib>TAYLOR, MARCUS A</creatorcontrib><creatorcontrib>OH, BEOM SEOK</creatorcontrib><creatorcontrib>MICHAEL, ALAN K</creatorcontrib><creatorcontrib>UEHARA, SHUSUKE</creatorcontrib><creatorcontrib>WU, ENYUAN</creatorcontrib><title>EFFICIENT USE OF EXCEPTIONS IN TEXT SEGMENTATION</title><description>Input text may be broken into sentence, or other types of segments, by first detecting exceptions in the input text, and then detecting break positions. Given a segment breaking scheme that comprises a set of break rules and a set of exceptions, a regular expression is created that represents the break rules, and another regular expression is created that represents the exceptions. The input text is analyzed to identify strings that match any exception, and the matching strings are substituted with placeholders that are not likely to occur naturally in the input. The resulting text, with substitutions, is then evaluated to find the positions in the text that match the break rules. Those positions are declared to be segment breaks, and the placeholders are then replaced with the original strings. The result is the original text, with breaks assigned to the appropriate positions in the text. Un texte saisi peut être divisé en phrases ou en d'autres types de segments en distinguant d'abord les exceptions dans le texte puis en distinguant ensuite les points de séparation des segments. Suivant une méthode de division en segments qui comprend un ensemble de règles de division et un ensemble d'exceptions, une expression habituelle est formée en fonction des règles de division, et une autre expression habituelle est formée en fonction des exceptions. Le texte saisi est analysé de manière à délimiter des séquences correspondant à toute exception et ces séquences sont remplacées par des signets qui ne sont pas susceptibles d'apparaître dans le texte saisi dans des circonstances normales. Le texte obtenu, comprenant les substitutions, est ensuite évalué pour trouver les points, dans le texte, qui correspondent aux règles de division. Ces points sont considérés comme des divisions de segments, et les signets sont ensuite remplacés par les séquences originales. Le produit correspond au texte original, auquel des points de division ont été ajoutés aux endroits appropriés.</description><subject>CALCULATING</subject><subject>COMPUTING</subject><subject>COUNTING</subject><subject>ELECTRIC DIGITAL DATA PROCESSING</subject><subject>PHYSICS</subject><fulltext>true</fulltext><rsrctype>patent</rsrctype><creationdate>2011</creationdate><recordtype>patent</recordtype><sourceid>EVB</sourceid><recordid>eNrjZDBwdXPzdPZ09QtRCA12VfB3U3CNcHYNCPH09wtW8PRTCHGNCFEIdnX3BapwBInyMLCmJeYUp_JCaW4GeTfXEGcP3dSC_PjU4oLE5NS81JJ4Z0cjcyNDE0sLZ2PCKgCaPyV6</recordid><startdate>20110802</startdate><enddate>20110802</enddate><creator>TAYLOR, MARCUS A</creator><creator>OH, BEOM SEOK</creator><creator>MICHAEL, ALAN K</creator><creator>UEHARA, SHUSUKE</creator><creator>WU, ENYUAN</creator><scope>EVB</scope></search><sort><creationdate>20110802</creationdate><title>EFFICIENT USE OF EXCEPTIONS IN TEXT SEGMENTATION</title><author>TAYLOR, MARCUS A ; OH, BEOM SEOK ; MICHAEL, ALAN K ; UEHARA, SHUSUKE ; WU, ENYUAN</author></sort><facets><frbrtype>5</frbrtype><frbrgroupid>cdi_FETCH-epo_espacenet_CA2721498C3</frbrgroupid><rsrctype>patents</rsrctype><prefilter>patents</prefilter><language>eng ; fre</language><creationdate>2011</creationdate><topic>CALCULATING</topic><topic>COMPUTING</topic><topic>COUNTING</topic><topic>ELECTRIC DIGITAL DATA PROCESSING</topic><topic>PHYSICS</topic><toplevel>online_resources</toplevel><creatorcontrib>TAYLOR, MARCUS A</creatorcontrib><creatorcontrib>OH, BEOM SEOK</creatorcontrib><creatorcontrib>MICHAEL, ALAN K</creatorcontrib><creatorcontrib>UEHARA, SHUSUKE</creatorcontrib><creatorcontrib>WU, ENYUAN</creatorcontrib><collection>esp@cenet</collection></facets><delivery><delcategory>Remote Search Resource</delcategory><fulltext>fulltext_linktorsrc</fulltext></delivery><addata><au>TAYLOR, MARCUS A</au><au>OH, BEOM SEOK</au><au>MICHAEL, ALAN K</au><au>UEHARA, SHUSUKE</au><au>WU, ENYUAN</au><format>patent</format><genre>patent</genre><ristype>GEN</ristype><title>EFFICIENT USE OF EXCEPTIONS IN TEXT SEGMENTATION</title><date>2011-08-02</date><risdate>2011</risdate><abstract>Input text may be broken into sentence, or other types of segments, by first detecting exceptions in the input text, and then detecting break positions. Given a segment breaking scheme that comprises a set of break rules and a set of exceptions, a regular expression is created that represents the break rules, and another regular expression is created that represents the exceptions. The input text is analyzed to identify strings that match any exception, and the matching strings are substituted with placeholders that are not likely to occur naturally in the input. The resulting text, with substitutions, is then evaluated to find the positions in the text that match the break rules. Those positions are declared to be segment breaks, and the placeholders are then replaced with the original strings. The result is the original text, with breaks assigned to the appropriate positions in the text. Un texte saisi peut être divisé en phrases ou en d'autres types de segments en distinguant d'abord les exceptions dans le texte puis en distinguant ensuite les points de séparation des segments. Suivant une méthode de division en segments qui comprend un ensemble de règles de division et un ensemble d'exceptions, une expression habituelle est formée en fonction des règles de division, et une autre expression habituelle est formée en fonction des exceptions. Le texte saisi est analysé de manière à délimiter des séquences correspondant à toute exception et ces séquences sont remplacées par des signets qui ne sont pas susceptibles d'apparaître dans le texte saisi dans des circonstances normales. Le texte obtenu, comprenant les substitutions, est ensuite évalué pour trouver les points, dans le texte, qui correspondent aux règles de division. Ces points sont considérés comme des divisions de segments, et les signets sont ensuite remplacés par les séquences originales. Le produit correspond au texte original, auquel des points de division ont été ajoutés aux endroits appropriés.</abstract><oa>free_for_read</oa></addata></record>
fulltext fulltext_linktorsrc
identifier
ispartof
issn
language eng ; fre
recordid cdi_epo_espacenet_CA2721498C
source esp@cenet
subjects CALCULATING
COMPUTING
COUNTING
ELECTRIC DIGITAL DATA PROCESSING
PHYSICS
title EFFICIENT USE OF EXCEPTIONS IN TEXT SEGMENTATION
url https://sfx.bib-bvb.de/sfx_tum?ctx_ver=Z39.88-2004&ctx_enc=info:ofi/enc:UTF-8&ctx_tim=2025-01-17T10%3A00%3A30IST&url_ver=Z39.88-2004&url_ctx_fmt=infofi/fmt:kev:mtx:ctx&rfr_id=info:sid/primo.exlibrisgroup.com:primo3-Article-epo_EVB&rft_val_fmt=info:ofi/fmt:kev:mtx:patent&rft.genre=patent&rft.au=TAYLOR,%20MARCUS%20A&rft.date=2011-08-02&rft_id=info:doi/&rft_dat=%3Cepo_EVB%3ECA2721498C%3C/epo_EVB%3E%3Curl%3E%3C/url%3E&disable_directlink=true&sfx.directlink=off&sfx.report_link=0&rft_id=info:oai/&rft_id=info:pmid/&rfr_iscdi=true