Exploration des relations terminologiques entre les termes multi-mots dans les modèles de sémantique distributionnelle

Les ressources terminologiques structurées sont conçues pour répondre aux besoins dans les domaines de recherche, de traduction, de rédaction technique, etc. Cependant, les relations entre les termes multi-mots (TMM) y sont souvent sous-représentées. Beaucoup de travaux portent en effet sur l'a...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
1. Verfasser: Wang, Yizhe
Format: Dissertation
Sprache:fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Les ressources terminologiques structurées sont conçues pour répondre aux besoins dans les domaines de recherche, de traduction, de rédaction technique, etc. Cependant, les relations entre les termes multi-mots (TMM) y sont souvent sous-représentées. Beaucoup de travaux portent en effet sur l'acquisition de relations entre les termes simples et relativement peu sur l’acquisition de relations entre TMM. D’un autre côté, on observe depuis plusieurs années, l’utilisation massive et réussie des modèles de sémantique distributionnel (MSD) dans de nombreux travaux en sémantique. Notre étude se place à l’articulation de ces deux thèmes. Nous avons exploré les possibilités des MSD à identifier les relations terminologiques entre TMM en utilisant deux méthodes. La première adoptant la substitution lexicale est fondée sur les prédictions d’un modèle de langue masqué (MLM). La seconde consiste à capter des relations sémantiques lexicales par l’analogie entre les représentations des termes générées par un modèle FastText. Ces méthodes sont testées sur deux jeux de données. Nous nous appuyons d'abord sur un jeu de données composé de TMM synonymes du domaine de l’environnement en français fournis par la banque IATE. Devant le manque de ressources intégrant des relations sémantiques variées entre TMM, nous avons construit un second jeu de données par projection sémantique à partir des termes simples et de leurs relations recensées dans le dictionnaire de termes de l'environnement, DiCoEnviro. Les résultats expérimentaux que nous avons obtenus valident notre hypothèse concernant la possibilité de capter des relations terminologiques entre TMM par des MSD. Structured terminology resources are designed to meet the needs of research, translation, technical writing, etc. However, relationships between multi-word terms (MWTs) are often underrepresented in these resources. On the other hand, for several years, we have been observing the massive and successful use of distributional semantic models (DSMs) in many semantic works. Our study is placed at the intersection of these two themes. We explored the potential of DSMs to identify terminological relations between MWTs using two methods. The first one adopting lexical substitution is based on the predictions of a masked language model (MLM). The second one captures lexical semantic relations by the analogy between term representations generated by a FastText model. These methods are tested on two datasets. First, we rely on a d