L’extraction d’entités nommées : une opportunité pour le secteur culturel ?
[étude] Les champs de métadonnées non structurés tels que « description » offrent une plus-value considérable à la compréhension pour les utilisateurs finals. Néanmoins, leur caractère non structuré les rend peu exploitables dans un contexte électronique et d’automatisation. Cet article explore les...
Gespeichert in:
Veröffentlicht in: | I2D : information, données et documents données et documents, 2015, Vol.52 (2), p.70-79 |
---|---|
Hauptverfasser: | , , , |
Format: | Artikel |
Sprache: | fre |
Online-Zugang: | Volltext |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | [étude] Les champs de métadonnées non structurés tels que « description » offrent une plus-value considérable à la compréhension pour les utilisateurs finals. Néanmoins, leur caractère non structuré les rend peu exploitables dans un contexte électronique et d’automatisation. Cet article explore les possibilités et les limitations de la reconnaissance d’entités nommées (« Named-Entity Recognition », NER) et de l’extraction terminologique (« Term Extraction », TE) dans la prospection de données non structurées afin d’en extraire des concepts significatifs. Ces concepts permettent de tirer parti d’une recherche et d’une navigation améliorées, mais peuvent également jouer un rôle très important dans la recherche en humanités numériques. À travers une étude de cas basée sur les champs de description des archives historiques de la ville de Québec, les auteurs, Simon HENGCHEN, Seth van HOOLAND, Ruben VERBORGH et Max DE WILDE, proposent une évaluation de quatre services tiers d’extraction d’entités afin de promouvoir l’expérimentation de la reconnaissance d’entités nommées et l’extraction terminologique. Dans le but de couvrir autant le NER que la TE, ils utilisent, pour l’évaluation des entités nommées, une approche quantitative basée sur la précision, le rappel et le F-score calculés sur la base d’un référent manuel (« gold standard corpus »). Une seconde approche, plus qualitative, permet ensuite de prendre en compte la pertinence des termes extraits et aborde la question du multilinguisme. |
---|---|
ISSN: | 2428-2111 2431-3467 |
DOI: | 10.3917/i2d.152.0070 |