PROCEDES ET SYSTEMES POUR RÉSUMER DES DOCUMENT MULTIPLES EN UTILISANT UNE APPROCHE D'APPRENTISSAGE AUTOMATIQUE

Un procédé de génération de résumés concis en langage naturel de documents textuels liés emploie une technique abstraite (218) en combinaison avec une technique d'extraction (222). Un résumé de machine est généré à l'étape abstraite en construisant une structure de données graphiques (430)...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: RANNOU, Bernard Jean Marie, DECHAMPS, Bastien, BLAYA, Christophe, KATAMREDDY, Srudeep Kumar Reddy
Format: Patent
Sprache:fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Un procédé de génération de résumés concis en langage naturel de documents textuels liés emploie une technique abstraite (218) en combinaison avec une technique d'extraction (222). Un résumé de machine est généré à l'étape abstraite en construisant une structure de données graphiques (430) dans laquelle des nœuds (434, 436, 438) représentent des paires uniques de jetons et des parties de discours (POS) correspondantes, des séquences des bords représentent des paires jeton/POS comprenant des phrases (432) d'un groupe de sujets correspondant identifié dans les documents textuels. Des phrases récapitulatives candidates classées sont générées sur la base de sous-graphiques de la structure de données graphiques ayant des nœuds initiaux et finaux correspondant à des paires jeton/POS de début et de fin de phrase valides, et le résumé de machine est composé d'au moins une phrase récapitulative représentative sélectionnée dans les candidats classés dans chaque groupe de sujets. Un résumé en langage naturel est ensuite généré à partir du résumé de machine à l'étape d'extraction en calculant (512), pour chaque groupe de sujets, des mesures d'adéquation numériques qui fournissent une comparaison entre la phrase récapitulative représentative et les phrases du groupe de sujets correspondant. Le résumé en langage naturel est composé en sélectionnant (516), pour chaque groupe de sujets, une phrase récapitulative préférée basée sur les mesures d'adéquation numérique correspondantes. An abstractive technique and an extractive technique are used to generate concise natural-language summaries of related text documents. The abstractive step generates a machine summary by constructing a graph with nodes representing unique pairs of tokens and corresponding parts-of-speech (POS), and with edge sequences representing token/POS pairs comprising sentences of a corresponding topic group from the text documents. Ranked candidate summary sentences are generated using subgraphs of the graph having initial and final nodes corresponding with valid sentence start and end pairs. The machine summary includes representative summary sentence(s) selected from each topic group's ranked candidates. The extractive step generates a natural-language summary from the machine summary by computing, for each topic group, numerical suitability measures providing comparisons between the representative summary sentence and sentences of the topic group. The natural-language summary is composed by selecting