Vers un concordanceur-lemmatiseur en ligne du grec ancien

Les travaux du Projet de recherche en lexicologie grecque (Université catholique de Louvain, Louvain-la-Neuve, Belgique) visent à élaborer un dictionnaire général du grec ancien applicable aux logiciels de traitement automatique du langage naturel (TAL). Constitué de données lexicales produites par...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
Veröffentlicht in:	L'Antiquité classique 2004-01, Vol.73, p.203-213
Hauptverfasser:	Kevers, Laurent, Kindt, Bastien
Format:	Artikel
Sprache:	fre
Schlagworte:	Computer Science Document and Text Processing Humanities and Social Sciences Linguistics
Online-Zugang:	Volltext
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Beschreibung
Zusammenfassung:	Les travaux du Projet de recherche en lexicologie grecque (Université catholique de Louvain, Louvain-la-Neuve, Belgique) visent à élaborer un dictionnaire général du grec ancien applicable aux logiciels de traitement automatique du langage naturel (TAL). Constitué de données lexicales produites par la lemmatisation systématique de sources patristiques et historiographiques d'époque byzantine, ce dictionnaire compte actuellement 174.758 «formes de mots » classées sous 33.874 lemmes accompagnés d'une indication de leur catégorie morphosyntaxique. Les sources littéraires analysées et les données générées ont été adaptées par le CENTAL (Louvain-la-Neuve) à Unitex, un logiciel d'exploration lexicale et syntaxique des textes développé au Laboratoire d'Informatique de l'Institut Gaspard Monge (Paris). Une interface originale permet d'interroger en ligne un corpus expérimental, entièrement lemmatisé et désambiguïsé, limité pour l'instant aux lettres de Basile de Cesaree (134.511 occurrences) mais susceptible de s'accroître dans un futur proche. Les requêtes peuvent être formulées sur base des lemmes et des formes ou à partir de motifs syntaxiques. Les réponses s'affichent à l'écran en grec polytonique Unicode sous forme de concordances. Un étiquetage des morphèmes constitutifs des lemmes permet de plus d'appeler les lemmes formellement apparentés à un même mot. Le résultat apparaît sous la forme d'une « arborescence dérivationnelle » rassemblant les dérivés et les composés du terme étudié. One of the aims of the Research project in Greek lexicology (Université catholique de Louvain, Louvain-la-Neuve, Belgium) is to create an electronic dictionary of ancient Greek useful for automated textual analysis softwares. The lexical data (174.758 word-types; 33.874 lemmas) of this lexicon come from the lemmatisation of patristical and historical sources of the Byzantine period. The corpus and lexical material have been adapted by the CENTAL (Louvain-la-Neuve) to Unitex, a lexical and syntactical analysis software created in the Laboratoire d'Informatique de l'Institut Gaspard Monge (Paris). An original interface allows on-line explorations of an experimental corpus (Basil of Caesarea's Letters; 134.511 word-tokens), ntirely lemmatised already. Other corpora are now planned. The queries take lemmas, wordtypes or syntactical figures into account. Answers appear on the screen as concordances in a polytonic Unicode Greek font. An other lexical tool allows the user to select lem
ISSN:	0770-2817 2295-9076