SMOTE_EASY: UM ALGORITMO PARA TRATAR O PROBLEMA DE CLASSIFICAÇÃO EM BASES DE DADOS REAIS
RESUMO A maioria das ferramentas de classificação assume que a distribuição dos dados seja balanceada ou com custos iguais, quando classificados incorretamente. Mas, na prática, é muito comum a ocorrência de bases de dados onde existam classes desbalanceadas, como no diagnóstico de doenças, no qual...
Gespeichert in:
Veröffentlicht in: | Revista de gestão da tecnologia e sistemas de informação 2016-04, Vol.13 (1), p.61-80 |
---|---|
Hauptverfasser: | , , |
Format: | Artikel |
Sprache: | por |
Schlagworte: | |
Online-Zugang: | Volltext |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | RESUMO A maioria das ferramentas de classificação assume que a distribuição dos dados seja balanceada ou com custos iguais, quando classificados incorretamente. Mas, na prática, é muito comum a ocorrência de bases de dados onde existam classes desbalanceadas, como no diagnóstico de doenças, no qual os casos confirmados são geralmente raros quando comparados com a população sadia. Outros exemplos são detecção de chamadas fraudulentas, detecção de intrusos em redes. Nestes casos, a classificação incorreta de uma classe minoritária (ex. diagnosticar uma pessoa portadora de câncer como sadia) pode resultar em consequências mais graves que classificar de forma incorreta uma classe majoritária. Por isso, é importante o tratamento de bases de dados em que ocorram classes desbalanceadas. Este artigo apresenta o algoritmo SMOTE_Easy, que é capaz de efetuar a classificação de dados, mesmo com uma alta taxa de desbalanceamento entre as diferentes classes. Para provar sua eficácia, foi feita uma comparação com os principais algoritmos para tratar problemas de classificação onde existam dados desbalanceados. Obteve-se êxito em praticamente todas as bases de dados testadas. |
---|---|
ISSN: | 1807-1775 1807-1775 |
DOI: | 10.4301/S1807-17752016000100004 |