METHOD FOR AUTOMATIC THEMATIC CLASSIFICATION OF A DIGITAL TEXT FILE

The invention primarily relates to a method for the thematic classification of a digital text file (1) from an encyclopaedic database (5) comprising a category graph (G), said method comprising, during a learning phase (PA) making it possible to develop a thematic classification model (3), the step...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
1. Verfasser: CHAUMARTIN, FRANÇOIS-RÉGIS
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:The invention primarily relates to a method for the thematic classification of a digital text file (1) from an encyclopaedic database (5) comprising a category graph (G), said method comprising, during a learning phase (PA) making it possible to develop a thematic classification model (3), the step of grouping together, for each category node, all of the items directly attached to that category node so as to obtain a "word bag" for each category node; determining a so-called term-frequency vector characteristic of the category node; combining, on each category node, the term-frequency vector directly connected to it with term-frequency vectors of more specific nodes; and in that it comprises, during a production phase (PP), a step for calculating the term-frequency vector (V) of said digital text file (1) and selecting, in said thematic classification model (3), N category nodes having the term-frequency vectors (V') closest to the term-frequency vector (V) of the digital text file. L'invention porte principalement sur un procédé de classification thématique d'un fichier de texte numérique (1) à partir d'une base de données encyclopédique (5) comportant un graphe de catégories (G), ledit procédé comporte, au cours d'une phase d'apprentissage (PA) permettant d'élaborer un modèle de classification thématique (3), l'étape de regrouper, pour chaque nœud de catégorie, tous les articles rattachés directement audit nœud de catégorie de manière à obtenir pour chaque nœud de catégorie un "sac de mots", déterminer un vecteur dit vecteur termes-fréquences caractéristique du nœud de catégorie, combiner sur chaque nœud de catégorie le vecteur termes-fréquences qui lui est directement relié avec des vecteurs termes-fréquences de nœuds plus spécifiques, et en ce qu'il comporte, lors d'une phase de production (PP), l'étape de calculer le vecteur (V) termes-fréquences dudit fichier de texte numérique (1) et de retenir dans ledit modèle de classification thématique (3) N nœuds de catégorie ayant les vecteurs (Vi') termes-fréquences les plus proches du vecteur (V) termes-fréquences du fichier de texte numérique (1).