Bankruptcy prediction for Norwegian enterprises using interpretable machine learning models with a novel timeseries problem formulation
Prediksjon av konkurs hos selskaper er et emne som er relevant både hos investorer, kreditorer, banker og regulatorer. I denne oppgaven bruker vi et datasett bestående av årsrapporter fra mer enn 175 000 norske små- og mellomstore bedrifter over 8 år til å trene tre statiske statistiske modeller (lo...
Gespeichert in:
1. Verfasser: | |
---|---|
Format: | Dissertation |
Sprache: | eng |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | Prediksjon av konkurs hos selskaper er et emne som er relevant både hos investorer, kreditorer, banker og regulatorer. I denne oppgaven bruker vi et datasett bestående av årsrapporter fra mer enn 175 000 norske små- og mellomstore bedrifter over 8 år til å trene tre statiske statistiske modeller (logistisk regresjon, nevrale nettverk og CatBoost), og tester ytelsen på et representativt sett ytelsesmetrikker. Nytt for området er prediksjonsrammeverket CatBoost, som gir en AUC-score på 0.8735 på et balansert testdatasett, sammenlignet med 0.8437 hos den mer tradisjonelle logistisk regresjonsmodellen.
Ytelsesøkningen kommer delvis av introduksjonen av en ny kategorisk variabel som inneholder informasjon om industrområdet til selskapet. Vi presenterer og tester også forskjellige måter å integrere kategoriske variabler i modellen, og finner at target encoding gir generelt best resultater. Vi finner også at et mer kompakt variabelsett med 30 nøkkeltallvariabler (i motsetning til 156 i det fulle variabelsettet) gir sammenlignbar ytelse i alle tilfeller.
Videre formulerer vi konkursproduksjonsproblemet som et tidsrekkeprediksjonsproblem, og bruker følgende år med nøkkeltall til å konstruere tidsrekker med 1-4 år av denne dataen. Vi implementerer to tidsrekkemodeller basert på nevrale nettverk, RNN og LSTM, som produserer testsett AUC-scorer på henholdsvis 0.8651 og 0.8698. Tidsrekkemodellene yter verre enn CatBoost-modellen (og sammenlignbart med det vanlige nevrale nettverket) på tidsrekker med 1 år tilgjengelig data, men produserer signifikant bedre resultater på tidsrekker med 3 og 4 år med data, med AUC-scorer på henholdsvis 0.8827 og 0.8891 for LSTM-modellen.
Til slutt presenterer vi et teoretisk solid rammeverk for modellinterpretasjon, kalt SHAP, som gir verdier for individuelle variabelbidrag til enhver modellprediksjon. Vi demonstrerer så hvordan dette rammeverket kan brukes på våre konkursprediksjonsmodeller, både til variabelseleksjon og analyse av modellens lærte oppførsel. Vi finner at førstnevnte produserer sammenlignbare resultater som med mer komplekse variabelseleksjonsmetoder. |
---|