An Approach to Parallelization of Remote Data Integration Tasks

Data integration from autonomous, remote data sources is complicated by the data source heterogeneity, lack of methodological support and appropriate data integration systems. To solve this problem, the On-demand Remote Data Integration Architecture (ORDIA) is defined, which promotes maintenance and...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:Rīgas Tehniskās universitātes zinātniskie raksti. Scientific proceedings of Riga Technical university. 5. Sērija, Datorzinātne Datorzinātne, 2011-01, Vol.45 (1), p.24-30
Hauptverfasser: Kampars, Janis, Grabis, Janis
Format: Artikel
Sprache:eng
Schlagworte:
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Data integration from autonomous, remote data sources is complicated by the data source heterogeneity, lack of methodological support and appropriate data integration systems. To solve this problem, the On-demand Remote Data Integration Architecture (ORDIA) is defined, which promotes maintenance and allows minimizing data integration time. A data integration task parallelization algorithm is the key part of this architecture. A detailed description of this algorithm is provided, and its performance is evaluated by experimental comparison with other data integration solutions. Uzņēmumi ikdienā pieņem dažādus lēmumus. Nepieciešamie dati var atrasties ārpus uzņēmuma. Datu savākšana un pārveidošana analīzei piemērotā formā tiek saukta par biznesa intelekta datu integrāciju. Lai analizētu ārējos datus, tradicionāli tiek izveidota to pilna lokāla kopija, tomēr tam ir nepieciešama atbilstoša infrastruktūra un regulāra datu atjaunošana. Eksistē alternatīva pieeja - dati kā pakalpojums (Data as a Service), kurā datu avoti ir attālas, heterogēnas tīmekļa pakalpes. Līdz ar to ir iespējams iegūt tikai nepieciešamos datus tad, kad tas ir nepieciešams (pieprasījuma datu integrācija). Atkrīt jautājumi, kas saistīti ar infrastruktūras izveidi liela datu apjoma glabāšanai un regulāru datu atjaunošanu. Tradicionālie datu un lietojumprogrammatūras integrācijas rīki nav piemēroti datu integrācijai no ārējām, heterogēnām tīmekļa pakalpēm. Integrācijas procesu sarežgī vairāki faktori, piemēram, datu avotos izmantoto protokolu un standartu dažādība, daļēji strukturēta formāta izmantošana un datu avotu interfeisu mainība. Šajā pētījumā tiek definēta attālu avotu pieprasījuma datu integrācijas sistēmas arhitektūra, kas balstās uz abstrakcijas pieeju un ļauj pilnībā nodalīt datu integrācijas procesu no tīmekļa pakalpju piekļuves logikas. Īpaša vērība tiek pievērsta kopējā datu integrācijas laika minimizēšanai un datu integrācijas uzdevumu paralelizācijai. Tiek definēts algoritms, kas nodrošina pareizu un savlaicīgu datu integrācijas uzdevumu izpildi. Lai novērtētu algoritma efektivitāti, sistēmas prototips tiek praktiski salīdzināts ar komerciālu ETL sistēmu (Microsoft SQL Server 2008 Integration Services) un secīgu datu integrācijas risinājumu. Iegūtie rezultāti apstiprina datu integrācijas uzdevumu paralelizācijas nozīmi, kā arī to, ka arhitektūrā īstenotais algoritms ļauj nodrošināt mazāku datu integrācijas laiku nekā ETL sistēma. Starpība starp datu integrācijas laiku ETL sistē
ISSN:1407-7493
DOI:10.2478/v10143-011-0037-y