SAVREMENI JEZICKI KORPUSI NA ZAPADNOM BALKANU - ISTORIJAT, TRENUTNO STANJE I BUDUCNOST

Iako je vaznost jezièkih korpusa2 u savremenoj lingvisitici danas opste poznata, samo je mali broj lingvista u svetu prepoznao tu vaznost tako rano kao lingvistièka zajednica Zapadnog Balkana. Prateæ i razvoj masinskog prevoðenja èetrdesetih i pedesetih godina proslog veka, prvenstveno u Sjedinjenim...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:Slavistična revija 2012-10, Vol.60 (4), p.677
1. Verfasser: Dobric, Nikola
Format: Artikel
Sprache:eng ; slv
Schlagworte:
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Iako je vaznost jezièkih korpusa2 u savremenoj lingvisitici danas opste poznata, samo je mali broj lingvista u svetu prepoznao tu vaznost tako rano kao lingvistièka zajednica Zapadnog Balkana. Prateæ i razvoj masinskog prevoðenja èetrdesetih i pedesetih godina proslog veka, prvenstveno u Sjedinjenim Amerièkim Drzavama, prvi korpus u sliène svrhe je takoðe zapoèet u to vreme i na ovim prostorima. Zapoceo ga je psiholog Ðorðe Kostic 1957. godine u Beogradu sa ciljem razvitka jezickih tehnologija za prepoznavanje govora i masinsko prevoðenje sa tadasnjeg srpsko-hrvatskog jezika. Projekat je trajao do 1962. godine (Kost ic 2003: 261), ali korpus tada ipak nije elektronski obraðen. Iduci u korak ne samo sa teoretskim nego i sa tehnoloskim inovacijama u podrucju obrade prirodnog jezika, prvi elektronski korpus na Zapadnom Balkanu napravljen je u Zagrebu vec 1967. godine, samo tri godine posle pojavljivanja prvog elektronskog korpusa na svetu, Brown Corpus korpusa. Bio je to elektronski obraðeni ep Osman Ivana Gundulica koji je pripremio Zeljko Bujas. Pojava ovog korpusa je pokrenula lavinu interesovanja za stvaranje elektronskih korpusa i vec 1968. imamo jos jedan korpus konstruisan u Zagrebu, Jezik Marka Marulica, koji je pripremio Milan Mogus ([Marko Tadic] 1997: 388) i koji je dalje prosiren sedamdesetih i osamdesetih godina proslog veka3 i rezultirao Jednomilijunskim korpusom hrvatskog knjizevnog jezika (iliti takozvanim Mogusevim Korpusom). Zavod za lingvistiku Filozofskog fakulteta Sveucilista u Zagrebu je takoðe bio dom vecem korpusnom projektu izmeðu 1972. i 1975. godine pod naslovom Englesko-hrvatski leksikografski korpus koji je vazno pomenuti kao jos jedan primer ranog razvitka elektronskih korpusa u regionu iako je kao paralelni korpus izvan opsega ovog rada. Godine 1971. Denis Poniz je na Univerzitetu u Ljubljani prekucao dve kutije 80-kolonskih papirnih kartica teksta koje su zajedno sadrzavale nekih 4.000 redova iliti 320.000 karaktera uzetih iz molitvenog opusa Janeza (Krstnika) Svetokriskog, dok je Tomo Pisanski isprogramirao frekvencijski brojac slova i jos neke oblike racunarske analize. Rezultati ovog poduhvata su objavljeni 1974. godine u knjizi Slovenski jezik, literatura, racunalniki (podnaslovljenom numericno-statisticno raziskovanje konstantnih in spremenljivih kolicin v slovenskem jeziku, prozi in poeziji). Iste godine simpozijum Informatica 74 na Bledu je ukazao na mogucnosti i potrebe racunarske obrade teksta u regionu (Tancig i Tanci
ISSN:0350-6894
1855-7570