L’extraction d’entités nommées : une opportunité pour le secteur culturel ?

[étude] Les champs de métadonnées non structurés tels que « description » offrent une plus-value considérable à la compréhension pour les utilisateurs finals. Néanmoins, leur caractère non structuré les rend peu exploitables dans un contexte électronique et d’automatisation. Cet article explore les...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:I2D : information, données et documents données et documents, 2015, Vol.52 (2), p.70-79
Hauptverfasser: Hengchen, Simon, van Hooland, Seth, Verborgh, Ruben, De Wilde, Max
Format: Artikel
Sprache:fre
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:[étude] Les champs de métadonnées non structurés tels que « description » offrent une plus-value considérable à la compréhension pour les utilisateurs finals. Néanmoins, leur caractère non structuré les rend peu exploitables dans un contexte électronique et d’automatisation. Cet article explore les possibilités et les limitations de la reconnaissance d’entités nommées (« Named-Entity Recognition », NER) et de l’extraction terminologique (« Term Extraction », TE) dans la prospection de données non structurées afin d’en extraire des concepts significatifs. Ces concepts permettent de tirer parti d’une recherche et d’une navigation améliorées, mais peuvent également jouer un rôle très important dans la recherche en humanités numériques. À travers une étude de cas basée sur les champs de description des archives historiques de la ville de Québec, les auteurs, Simon HENGCHEN, Seth van HOOLAND, Ruben VERBORGH et Max DE WILDE, proposent une évaluation de quatre services tiers d’extraction d’entités afin de promouvoir l’expérimentation de la reconnaissance d’entités nommées et l’extraction terminologique. Dans le but de couvrir autant le NER que la TE, ils utilisent, pour l’évaluation des entités nommées, une approche quantitative basée sur la précision, le rappel et le F-score calculés sur la base d’un référent manuel (« gold standard corpus »). Une seconde approche, plus qualitative, permet ensuite de prendre en compte la pertinence des termes extraits et aborde la question du multilinguisme.
ISSN:2428-2111
2431-3467
DOI:10.3917/i2d.152.0070