Fouille de textes hiérarchisée appliquée à la détection de fautes
Cet article présente une approche hybride de fouille de données textuelles basée sur la hiérarchie de mise en forme du texte. Elle fait coopérer des outils de fouille de données, des outils de structuration et d’analyse robustes de document et la linguistique de discours. L’application concerne la d...
Gespeichert in:
Veröffentlicht in: | Document numérique 2004, Vol.8 (3), p.107-133 |
---|---|
Hauptverfasser: | , |
Format: | Artikel |
Sprache: | fre |
Schlagworte: | |
Online-Zugang: | Volltext |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | Cet article présente une approche hybride de fouille de données textuelles basée sur la hiérarchie de mise en forme du texte. Elle fait coopérer des outils de fouille de données, des outils de structuration et d’analyse robustes de document et la linguistique de discours. L’application concerne la détection de l’absence et la présence de fautes de style dans des articles scientifiques en anglais. Nous décrivons d’abord les unités textuelles basées sur la hiérarchie du texte. Leurs descripteurs combinent des informations sur les formes et les positions relatives des marqueurs stylistiques. La méthode met en avant la nécessité de garder le contexte étendu d’un marqueur textuel. Nous présentons ensuite deux méthodes de fouille mises en oeuvre pour caractériser la correction en anglais : règles de caractérisation et motifs émergents. Enfin, nous évaluons les résultats obtenus par l’application de ces techniques.
This paper presents an original text mining approach based on text segmented units, mixing data mining techniques and text linguistics. First, we describe the text units and their descriptors designed for detecting mistakes in scientific papers in English. These include text organisation, emphasising the relative positions and the context of stylistic markers. Secondly, the paper explains the text mining methods required for such tasks and provides the techniques to extract rules characterising classes and emerging patterns techniques. Experiment results show the usefulness of text organisation set as an hypothesis. The paper concludes on the text mining benefits for linguistic tasks. |
---|---|
ISSN: | 1279-5127 1963-1014 |
DOI: | 10.3166/dn.8.3.107-133 |