PROCEDE DE CLASSIFICATION THEMATIQUE AUTOMATIQUE D'UN FICHIER DE TEXTE NUMERIQUE
L'invention porte principalement sur un procédé de classification thématique d'un fichier de texte numérique (1) à partir d'une base de données encyclopédique (5) comportant un graphe de catégories (G), ledit procédé comporte, au cours d'une phase d'apprentissage (PA) permet...
Gespeichert in:
1. Verfasser: | |
---|---|
Format: | Patent |
Sprache: | fre |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | L'invention porte principalement sur un procédé de classification thématique d'un fichier de texte numérique (1) à partir d'une base de données encyclopédique (5) comportant un graphe de catégories (G), ledit procédé comporte, au cours d'une phase d'apprentissage (PA) permettant d'élaborer un modèle de classification thématique (3), l'étape de regrouper, pour chaque nœud de catégorie, tous les articles rattachés directement audit nœud de catégorie de manière à obtenir pour chaque nœud de catégorie un "sac de mots", déterminer un vecteur dit vecteur termes-fréquences caractéristique du nœud de catégorie, combiner sur chaque nœud de catégorie le vecteur termes-fréquences qui lui est directement relié avec des vecteurs termes-fréquences de nœuds plus spécifiques, et en ce qu'il comporte, lors d'une phase de production (PP), l'étape de calculer le vecteur (V) termes-fréquences dudit fichier de texte numérique (1) et de retenir dans ledit modèle de classification thématique (3) N nœuds de catégorie ayant les vecteurs (Vi') termes-fréquences les plus proches du vecteur (V) termes-fréquences du fichier de texte numérique (1).
A thematic classification method for a digital text file from an encyclopedic database comprising a category graph. A thematic classification model is developed during a learning phase. For each category node, all articles directly linked to the category node is grouped to obtain, for each category node, a "bag of words." A term-frequency vector characteristic of the category node is determined. At each category node the term-frequency vector, directly connected thereto, with term-frequency vectors of more specific nodes are combined. During the production phase, the term-frequency vector of the digital text file is calculated. N category nodes in the thematic classification model having the closest term-frequency vectors to the term-frequency of the digital text file are selected. |
---|