Slovenský Supermodel P&T1 (SSPT1) : Matej Bel University SKRIPTOR project datasets

SLO: Dňa 17.05.2024 sme spustili vo webovej aplikácii Transkribus tvorbu nového agregovaného slovenského supermodelu. Základ pre tvorbu supermodelu pre určité slovenské tlačené historické dokumenty a strojom písané dokumenty tvorili parciálne modely riešiteľov úloh v projekte  Skriptor (Univerzita M...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: Katuščák, Dušan, Nižníková, Lucia, Mikušková, Michaela, Halfarová, Nikola, Gajdošová, Terezie, Málková, Lenka, Taufrová, Nikol, Nagy, Imrich, Kováčová-Pohlová, Klára, Šmida, Matej, Kociánová, Nela
Format: Dataset
Sprache:slo
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:SLO: Dňa 17.05.2024 sme spustili vo webovej aplikácii Transkribus tvorbu nového agregovaného slovenského supermodelu. Základ pre tvorbu supermodelu pre určité slovenské tlačené historické dokumenty a strojom písané dokumenty tvorili parciálne modely riešiteľov úloh v projekte  Skriptor (Univerzita Mateja Bela v Banskej Bystrici a Štátna vedecká knižnica v Banskej Bystrici), ako aj transkripcie, ktoré pripravili študenti Slezskej univerzity v Opave v rámci Študentskej grantovej súťaže a vzdelávacích aktivít.  Michaela Mikušková a Lucia Nižníková v rámci projektu Skriptor kompletne spracovali náročnú segmentáciu a manuálnu transkripciu 92 s. GT historickej tlačenej knihy J.A. Komenského Orbis Pictus (vydanie z roku 1798). Išlo, z hľadiska transkripcie o mimoriadne komplikovanú úlohu, pretože kniha má mnoho ilustrácií, je písaná v 4 jazkoch (latinčina, maďarčina, nemčina, čeština), navyše vo forme tabuliek a písmom antikva a švabach.  Dušan Katuščák v rámci projektu Skriptor, vzdelávacích aktivít a študentskej grantovej súťaže SGS na Slezskej univerzite a vedenia diplomovej práce v Opave spracoval celý do kvality GT celý rad historických novín, časopisov a kníh z 19. a začiatku 20 storočia (Moravské noviny (1849), Programové bulletiny Slovenskej filharmónie (1849-1970), Opavský Besedník (1863), Jitrenka (1840), I. Palugyay: Kde jest pravda (1854), lužickosrbský časopis Lužica (1909), Šlabikár (1872), J.M. Hurban: Cirkev Ewanjelicko-Lutheránska (1861), J.N. Bobula: Jánošík (1862), D. Lichard: Obzor (1866) a i. Niektoré dokumenty sú už kompletne transkribované použitím privátnych modelov (ca 1000 s.), avšak do datasetu SSPT1 boli použité len sety GT. Klára Kováčová-Pohlová (Diplomová práca, 2024, FPF SU Opava) a Matej Šmida (UMB Banská Bystrica) spracovali strojopisné dokumenty, pričom použili vzorky rôznych fontov v slovenskom, českom, nemeckom jazyku (ca 150 s.) Nikola Halfarová, Terezie Gajdošová, Lenka Málková, Nikol Taufrová, Nela Kociánová (4. roč, FPF SLU)v predmete prof. Dušana Katuščáka Digitalizace II. pripravili ca 80 s. prepisov GT z rôznych historických tlačí z 18. a 19. storočia písaných v češtine (švabach).  Model má označenie ID78289 SLOVAK Supermodel print&typewriter (SSPT1)  sme použili  542 strán v kvalite Ground Truth (GT 37897 riadkov a 200697 slov). 59 strán na overenie nového modelu (Validation set ) . repozitárov Štátnej vedeckej knižnice v Ostrave, Slovenskej národnej knižnice v Martine, z repozitára Manuskriptorium, zo Štátneho archívu
DOI:10.5281/zenodo.11218526