Océriser pour accéder aux données ? Vers une évaluation non supervisée du bruit dans les données textuelles issues d'OCR de documents du XVIIème siècle
Cette thèse propose un questionnement sur l'exploitabilité des données textuelles océrisées en contexte non supervisé. Si le travail se concentre sur un « corpus » qu'on appelle les mazarinades, il ne s’y limite pas pour rendre compte plus généralement des phénomènes sur des documents du X...
Gespeichert in:
1. Verfasser: | |
---|---|
Format: | Dissertation |
Sprache: | fre |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | Cette thèse propose un questionnement sur l'exploitabilité des données textuelles océrisées en contexte non supervisé. Si le travail se concentre sur un « corpus » qu'on appelle les mazarinades, il ne s’y limite pas pour rendre compte plus généralement des phénomènes sur des documents du XVIle siècle. Il s'agit de poser fermement la question : les données textuelles issues d'OCR peuvent-elles être utilisées avec intérêt, à défaut de disposer d'une transcription de référence (vérité de terrain) ? La réponse n'est évidemment pas univoque. D'abord, nous menons une étude sur l'impact des erreurs d'OCR pour certaines tâches de TAL pour montrer le caractère erratique de cet impact (fonction des tâches donc, mais aussi des corpus utilisés). Ensuite, nous montrons que nous pouvons rassembler un faisceau d'indices qui ne nécessite pas de vérité de terrain pour apprendre un modèle de prédiction du taux d'erreurs. L'enjeu est de faire l'économie des transcriptions de référence pour juger de la qualité des modèles que l'on souhaite utiliser. Enfin, nous prenons l'exemple de deux tâches de TAL (la textométrie et la similarité textuelle) pour admettre qu'il existe certaines tâches où les données n'ont pas besoin d'être spécialement corrigées pour offrir des performances satisfaisantes mais que d'autres sont impossibles à résoudre dans cet état. La question de la non supervision des évaluations en TAL est posée en conclusion.
This thesis proposes a questioning on the exploitability of ocerized textual data in an unsupervised context. If the work focuses on a "corpus" called the mazarinades, it is not limited to it to account more generally for phenomena on documents from the 17th century. It is a question of firmly asking the question: can the textual data resulting from OCR be used with interest, in the absence of a reference transcription (ground truth)? The answer is obviously not unequivocal. First, we are conducting a study on the impact of OCR errors for certain NLP tasks to show the erratic nature of this impact (function of the tasks therefore, but also of the corpora used). Next, we show that we can gather a bundle of indices that does not require ground truth to learn an error rate prediction model. The challenge is to do without reference transcriptions to judge the quality of the models that we want to use. Finally, we take the example of two NLP tasks (textometry and textual similarity) to admit that there are some tasks where the data does not need to be sp |
---|