Seguimiento en modelos de regresión logística
Most data mining projects in real life applications give as a result only static solutions which, in time, lose their inherent capacity to explain the phenomena they were originally built for. We introduce an theoretical-practical framework that allows to closely follow up logistic regression models...
Gespeichert in:
Veröffentlicht in: | Revista Ingeniería industrial 2009-07, Vol.8 (2), p.31-44 |
---|---|
Hauptverfasser: | , , |
Format: | Artikel |
Sprache: | spa |
Schlagworte: | |
Online-Zugang: | Volltext |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | Most data mining projects in real life applications give as a result only static solutions which,
in time, lose their inherent capacity to explain the phenomena they were originally built for. We
introduce an theoretical-practical framework that allows to closely follow up logistic regression
models to determine the moment when they must be updated, maintaining an strict control
over their evolution, the variables in them and relevant changes that can occur in the population
since they were originally designed. The statistical test presented include classical tests
such as Kolmogorov-Smirnov and Chi-Squared statistic to measure changes in means of the
variables present in the models, plus a novel test designed from the distribution of the models
coefficients that allows to measure the moment when a population has changed more than
the confidence intervals defined from the original parameters. The methodology was tested
using the databases from two real world micro-entrepreneurs credit scoring projects developed between the years 2007 and 2008, with very good results.
La gran mayoría de los proyectos de minería de datos que utilizan la metodología KDD en
la vida real entregan solamente soluciones estáticas, que con el paso del tiempo pierden la
capacidad de explicar los fenómenos para los que fueron construidos inicialmente. Presentamos
un marco teórico-práctico que permite realizar un seguimiento cercano a los modelos
para determinar el momento donde éstos deben ser actualizados, manteniendo un estricto
control sobre la evolución de los mismos, las variables presentes en ellos y los cambios relevantes
que pueden ocurrir en la población desde que fueron inicialmente diseñados. Los
tests estadísticos incluyen tests clásicos como las pruebas de Kolmogorov-Smirnov o la prueba
de Chi-Cuadrado para medir los cambios en las medias de las variables en los modelos,
más un test novedoso diseñado en base a la distribución de los coeficientes en los modelos
y la desviación estándar observada de las variables, que permite medir cuándo la población
ha cambiado más allá de los intervalos de confianza definidos por los parámetros iniciales.
La metodología fue puesta a prueba utilizando las bases de datos reales de dos proyectos de
Credit Scoring a microempresarios, realizados entre los años 2007 y 2008 con muy buenos resultados. |
---|---|
ISSN: | 0718-8307 0717-9103 0718-8307 |