Influence of Membership Functions on Classification of Multi-Dimensional Data

The aim of this study is to explore whether the number of intervals for each attribute influences the classification result and whether a larger number of intervals provide better classification accuracy using the Fuzzy PRISM algorithm. The feature selection has been carried out using Fast correlati...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:Rīgas Tehniskās universitātes zinātniskie raksti. Scientific proceedings of Riga Technical university. 5. Sērija, Datorzinātne Datorzinātne, 2011-01, Vol.45 (1), p.78-84
Hauptverfasser: Gasparovica, Madara, Tuleiko, Irena, Aleksejeva, Ludmila
Format: Artikel
Sprache:eng
Schlagworte:
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:The aim of this study is to explore whether the number of intervals for each attribute influences the classification result and whether a larger number of intervals provide better classification accuracy using the Fuzzy PRISM algorithm. The feature selection has been carried out using Fast correlation-based filter solution, and then the decreased data sets have been applied in experiments with preferences used in the previous experiment series. The article also provides conclusions about the obtained classification results and analyzes criteria of certain experiments and their impact on the final result. Also a series of experiments was carried out to assess how and whether the classification result is influenced by categorization of continuous data, which is one of the membership function construction steps; Fuzzy unordered rule induction algorithm was used. The experiments have been carried out using four real data sets - Golub leukemia, Singh prostate, as well as Gastric cancer and leukemia donor data sets of the Latvian Biomedical Research and Study Center. Šajā rakstā pētīts tas, vai katra atribūta intervālu skaits ietekmē klasifikācijas rezultātu, kā arī tas, vai lielāks intervālu skaits nodrošina arī labāku klasifikācijas rezultātu. Eksperimentu veikšanai izmantots FuzzyPRISM algoritms. Eksperimentos izmantotas četras reālas datu kopas - Golub leukemia, Singh prostate, Leukemia II un Latvijas biomedicīnas pētījumu un studiju centra kuņga vēža pacientu un veselo pacientu datu kopas. Visām datu kopām ir ļoti liels atribūtu skaits (līdz pat 10 000 atribūtu) un salīdzinoši neliels ierakstu skaits. Pirmajā sērijā, kurā bija divpadsmit eksperimenti, netika veikta atribūtu atlase. Nākamajā sērijā veikta atribūtu atlase, izmantojot Fast Correlation Based Filter risinājumu, un atkārtoti eksperimenti ar iepriekšējā eksperimentu sērijā izmantotajiem uzstādījumiem. Var secināt, ka vairāk likumu iegūts atribūtu atlases eksperimentos. Papildus trim eksperimentiem apmācības kopā veikta atribūtu atlase, izmantojot Fast Correlation Based Filter ar desmitkārtīgo šķērsvalidāciju, lai pārliecinātos, par to kā šķērsvalidācija ietekmē gala rezultātu. Izdarīti secinājumi par iegūtajiem klasifikācijas rezultātiem, kā arī analizēti atsevišķi eksperimentu parametri un to ietekme uz gala rezultātu. Izmantojot algoritmu FURIA, veikta arī eksperimentu sērija, lai noskaidrotu kā un vai klasifikācijas rezultātu ietekmē skaitlisku datu pārveidošana par kategoriskiem, kas ir viens
ISSN:1407-7493
DOI:10.2478/v10143-011-0046-x