데이터마이닝 패키지에서 변수선택 편의에 관한 연구
데이터마이닝 패키지에 구현된 분류나무 알고리즘 가운데 CART,CHAID,QUEST,C4.5에서 변수선택법을 비교하였다. CART의 전체탐색법이 편의를 갖는다는 사실은 잘 알려졌으며, 여기서는 상품화된 패키지들에서 이들 알고리즘의 편의와 선택력을 모의실험 연구를 통하여 비교하였다. 상용 패키지로는 CART, Enterprise Miner, AnswerTree, Clementine을 사용하였다. 본 논문의 제한된 모의실험 연구 결과에 의하면 C4.5와 CART는 모두 변수선택에서 심각한 편의를 갖고 있으며, CHAID와 QUEST는...
Gespeichert in:
Veröffentlicht in: | Ŭngyong tʻonggye yŏnʼgu 2001, Vol.14 (2), p.475-486 |
---|---|
Hauptverfasser: | , , , |
Format: | Artikel |
Sprache: | kor |
Online-Zugang: | Volltext |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | 데이터마이닝 패키지에 구현된 분류나무 알고리즘 가운데 CART,CHAID,QUEST,C4.5에서 변수선택법을 비교하였다. CART의 전체탐색법이 편의를 갖는다는 사실은 잘 알려졌으며, 여기서는 상품화된 패키지들에서 이들 알고리즘의 편의와 선택력을 모의실험 연구를 통하여 비교하였다. 상용 패키지로는 CART, Enterprise Miner, AnswerTree, Clementine을 사용하였다. 본 논문의 제한된 모의실험 연구 결과에 의하면 C4.5와 CART는 모두 변수선택에서 심각한 편의를 갖고 있으며, CHAID와 QUEST는 비교적 안정된 결과를 보여주고 있었다.
We compare the variable selection methods in classification tree algorithms such as CART, CHAID, QUEST, and C4.5. It is well known that the exhaustive search method of CART has serious bias problem in variable selection toward many-valued categorical predictors. In this paper we compare the commercial softwares in terms of variable selection bias and power. A Monte Carlo simulation study was performed to compare the softwares such as CART, Enterprise Miner, AnswerTree, and Clementine. The results show that the softwares based on C4.5 and the exhaustive search of CART are seriously biased in variable selection. The bias of CHAID is less serious than that are seriously biased in variable selection. The bias of CHAID is less serious than that of CART or C4.5. QUEST does not show any serious bias. But, the unbiased methods are not necessarily most powerful in variable selection. |
---|---|
ISSN: | 1225-066X 2383-5818 |