Método de concordancia bayesiano y su aplicación en problemas de clasificación multiclase con categorías desequilibradas

Antecedentes: Actualmente la clasificación de fenómenos se dificulta por la masiva existencia de casos donde algunas clases están muy poco representadas en comparación con otras, refiriéndonos así a datos multiclase desequilibrados que impiden un óptimo desempeño del clasificador. Los análisis de co...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
1. Verfasser: Borja Robalino, Ricardo Stalin
Format: Dissertation
Sprache:spa
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Antecedentes: Actualmente la clasificación de fenómenos se dificulta por la masiva existencia de casos donde algunas clases están muy poco representadas en comparación con otras, refiriéndonos así a datos multiclase desequilibrados que impiden un óptimo desempeño del clasificador. Los análisis de concordancia ya sea entre un gold estándar (patrón) y un clasificador o a su vez entre dos clasificadores utilizan el índice kappa como elemento de validación que permite realizar una comparación confiable basada en la relación entre la precisión observada y la esperada, demostrando gran sensibilidad para casos desbalanceados. Los métodos bayesianos han ganado terreno especialmente en el área de la salud en la mayoría de cálculos estadísticos, permitiendo a través del teorema de Bayes y la teoría de la decisión generar modelos que adicionen información del fenómeno en la distribución a priori transmitiéndola a la distribución a posteriori con la ayuda de métodos de simulación de cadenas de Markov Monte Carlo (MCMC). Objetivo: Ayudar a solucionar problemas de clasificación multiclase con categorías desequilibradas, los cuales son cada vez más comunes debido a la aparición de nuevos métodos procedentes del campo del aprendizaje automático, poniendo el enfoque en métodos de concordancia con la aplicación de la inferencia estadística. Obteniendo la estimación puntual del parámetro de interés a través de modelos que presenten robustez y exactitud en sucesos con probabilidades extremas, permitiendo la inserción de información en la distribución a priori en forma de probabilidad. Métodos: El trabajo se centra en el diseño de una librería para el lenguaje R llamada K_Freq_Bay, que posee funciones principales y secundarias que permite obtener el análisis frecuentista y bayesiano en problemas de clasificación categóricos multiclase. El enfoque bayesiano trabaja con tres modelos planteados: Dirichlet-Dirichlet, Dirichlet-Multinomial y Beta-Beta. La librería proporciona un informe con las estimaciones del índice kappa y estadísticas básicas en los dos métodos aplicados, gráficas de densidad kappa frecuentista y bayesiano, análisis de convergencia de Gelman Rubin, análisis de estacionariedad de Von Mises y análisis descriptivo de categorías. En la validación de la librería K_Freq_Bay se aplica los tres modelos planteados a simulaciones del gold estándar y tres observadores con cinco categorías y tamaños muestrales de 921 y 9000 con información a priori de prevalencias de clase