Transcription automatique et segmentation thématique de livres d’heures manuscrits
Books of Hours are the number one best seller of the Middle Ages, with more than 10 000 copies preserved. They are a crucial witness to the medieval mindset, but their textual contents have been very scarcely studied. They are very long and offer a complex hierarchical entangled structure, with seve...
Gespeichert in:
Veröffentlicht in: | Traitement automatique des langues : T.A.L 2019, Vol.60 (3), p.13-36 |
---|---|
Hauptverfasser: | , , , , , , , |
Format: | Artikel |
Sprache: | fre |
Schlagworte: | |
Online-Zugang: | Volltext |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | Books of Hours are the number one best seller of the Middle Ages, with more than 10 000 copies preserved. They are a crucial witness to the medieval mindset, but their textual contents have been very scarcely studied. They are very long and offer a complex hierarchical entangled structure, with several characteristics specific to medieval daily Prières office. This paper presents the methods and processing applied to books of hours: handwritten text recognition and text segmentation adapted to medieval manuscripts. We propose a weak supervised approach, based on the overarching structure of the manuscripts, that provides the first state-of-the-art results on transcript texts and despite remaining errors for this new challenging task.
Les livres d’heures sont le plus grand best-seller de tout le Moyen Âge, avec plus de 10 000 témoins conservés. Incontournables pour comprendre l’univers mental médiéval, leurs textes ont été très peu étudiés. Ils sont très longs et ont une structure complexe correspondant à l’organisation liturgique médiévale et la prière quotidienne de l’office. Cet article décrit les méthodes et les traitements automatiques mis en oeuvre sur les livres d’heures : la reconnaissance de l’écriture manuscrite et la segmentation adaptées à ces manuscrits. L’approche de segmentation semi-supervisée proposée tire profit de la constitution spécifique du manuscrit pour mieux retrouver leur structure malgré le bruit engendré par la reconnaissance de l’écriture. |
---|---|
ISSN: | 1248-9433 1965-0906 |