EFFICIENT USE OF EXCEPTIONS IN TEXT SEGMENTATION

Input text may be broken into sentence, or other types of segments, by first detecting exceptions in the input text, and then detecting break positions. Given a segment breaking scheme that comprises a set of break rules and a set of exceptions, a regular expression is created that represents the br...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: TAYLOR, MARCUS A, OH, BEOM SEOK, MICHAEL, ALAN K, UEHARA, SHUSUKE, WU, ENYUAN
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Input text may be broken into sentence, or other types of segments, by first detecting exceptions in the input text, and then detecting break positions. Given a segment breaking scheme that comprises a set of break rules and a set of exceptions, a regular expression is created that represents the break rules, and another regular expression is created that represents the exceptions. The input text is analyzed to identify strings that match any exception, and the matching strings are substituted with placeholders that are not likely to occur naturally in the input. The resulting text, with substitutions, is then evaluated to find the positions in the text that match the break rules. Those positions are declared to be segment breaks, and the placeholders are then replaced with the original strings. The result is the original text, with breaks assigned to the appropriate positions in the text. Un texte saisi peut être divisé en phrases ou en d'autres types de segments en distinguant d'abord les exceptions dans le texte puis en distinguant ensuite les points de séparation des segments. Suivant une méthode de division en segments qui comprend un ensemble de règles de division et un ensemble d'exceptions, une expression habituelle est formée en fonction des règles de division, et une autre expression habituelle est formée en fonction des exceptions. Le texte saisi est analysé de manière à délimiter des séquences correspondant à toute exception et ces séquences sont remplacées par des signets qui ne sont pas susceptibles d'apparaître dans le texte saisi dans des circonstances normales. Le texte obtenu, comprenant les substitutions, est ensuite évalué pour trouver les points, dans le texte, qui correspondent aux règles de division. Ces points sont considérés comme des divisions de segments, et les signets sont ensuite remplacés par les séquences originales. Le produit correspond au texte original, auquel des points de division ont été ajoutés aux endroits appropriés.