Model selection properties of forward selection and sequential cross‐validation for high‐dimensional regression
Forward selection (FS) is a popular variable selection method for linear regression. But theoretical understanding of FS with a diverging number of covariates is still limited. We derive sufficient conditions for FS to attain model selection consistency. Our conditions are similar to those for ortho...
Gespeichert in:
Veröffentlicht in: | Canadian journal of statistics 2022-06, Vol.50 (2), p.454-470 |
---|---|
Hauptverfasser: | , |
Format: | Artikel |
Sprache: | eng |
Schlagworte: | |
Online-Zugang: | Volltext |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | Forward selection (FS) is a popular variable selection method for linear regression. But theoretical understanding of FS with a diverging number of covariates is still limited. We derive sufficient conditions for FS to attain model selection consistency. Our conditions are similar to those for orthogonal matching pursuit, but are obtained using a different argument. When the true model size is unknown, we derive sufficient conditions for model selection consistency of FS with a data‐driven stopping rule, based on a sequential variant of cross‐validation. As a byproduct of our proofs, we also have a sharp (sufficient and almost necessary) condition for model selection consistency of “wrapper” forward search for linear regression. We illustrate intuition and demonstrate performance of our methods using simulation studies and real datasets.
Résumé
La sélection ascendante (SA) est une méthode de sélection de variables populaire en régression linéaire. Les propriétés théoriques de cette méthode avec un nombre divergent de covariables sont toutefois peu connues. Les auteurs déterminent des conditions suffisantes pour que la SA converge vers la sélection des bonnes variables. Ces conditions sont similaires à celles de la poursuite de correspondances orthogonales, mais elles sont obtenues avec un raisonnement différent. Dans le cas où la taille du vrai modèle est inconnue, les auteurs déterminent des conditions suffisantes pour la convergence d'une SA avec une règle d'arrêt empirique basée sur une variante séquentielle de la validation croisée. Grâce à leurs preuves, les auteurs établissent également des conditions suffisantes et presque nécessaires pour la convergence d'une sélection de type emballage avec la régression linéaire. Ils illustrent leur intuition et démontrent la performance de leurs méthodes par des simulations et l'analyse de données réelles. |
---|---|
ISSN: | 0319-5724 1708-945X |
DOI: | 10.1002/cjs.11635 |