Automatic sparse principal component analysis

The wide availability of computers enables us to accumulate a huge amount of data, thus effective tools to extract information from the huge volume of data have become critical. Principal component analysis (PCA) is a useful and traditional tool for dimensionality reduction of massive high‐dimension...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:Canadian journal of statistics 2021-09, Vol.49 (3), p.678-697
Hauptverfasser: Park, Heewon, Yamaguchi, Rui, Imoto, Seiya, Miyano, Satoru
Format: Artikel
Sprache:eng
Schlagworte:
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:The wide availability of computers enables us to accumulate a huge amount of data, thus effective tools to extract information from the huge volume of data have become critical. Principal component analysis (PCA) is a useful and traditional tool for dimensionality reduction of massive high‐dimensional datasets. Recently, sparse principal component (PC) loading estimation based on L1‐type regularization has drawn a large amount of attention. Although sparse PCA makes interpretation easily and performs dimension reduction without disturbance from noisy features, the existing studies on sparse PCA were based on an arbitrary number of PCs without any statistical justification. We propose a novel method, called as automatic sparse PCA, which can perform PC selection and sparse PC loading estimation, simultaneously. For PC selection, we first develop sparse singular value decomposition (sparse SVD), then incorporate sparsity into PC loading estimation. The proposed method enables us to perform dimension reduction and PC loading estimation, simultaneously. Furthermore, we can perform PCA without disturbance from noisy features. It can be seen through Monte Carlo experiments that the proposed automatic sparse PCA outperforms sparse structure identification and reconstructing data based on low‐dimensional projection. The proposed method is also applied to a number of real datasets and it can be also seen that our method achieves effectiveness for estimation accuracy and interpreting PCA results. Résumé La grande disponibilité des ordinateurs nous permet d'accumuler des quantités phénoménales de données, exacerbant le besoin d'outils efficaces permettant d'extraire l'information qu'elles contiennent. L'analyse en composantes principales (ACP) est un outil traditionnel permettant de réduire la dimension de jeux de données massifs. Récemment, l'estimation de coefficients des composantes principales (CP) éparses avec une régularisation de type L1 a beaucoup attiré l'attention. Une ACP éparse facilite l'interprétation et réduit la dimension sans être dérangée par les facteurs bruités, mais les méthodes existantes utilisent un nombre arbitraire de CP sans fournir de justification statistique. Les auteurs proposent une nouvelle méthode, l'ACP éparse automatique, qui peut simultanément choisir les CP éparses et en estimer les coefficients. Pour la sélection de CP, les auteurs développent d'abord la décomposition en valeurs singulières éparses, puis ils incorporent la parci
ISSN:0319-5724
1708-945X
DOI:10.1002/cjs.11579