Model selection properties of forward selection and sequential cross‐validation for high‐dimensional regression

Forward selection (FS) is a popular variable selection method for linear regression. But theoretical understanding of FS with a diverging number of covariates is still limited. We derive sufficient conditions for FS to attain model selection consistency. Our conditions are similar to those for ortho...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:Canadian journal of statistics 2022-06, Vol.50 (2), p.454-470
Hauptverfasser: Wieczorek, Jerzy, Lei, Jing
Format: Artikel
Sprache:eng
Schlagworte:
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
container_end_page 470
container_issue 2
container_start_page 454
container_title Canadian journal of statistics
container_volume 50
creator Wieczorek, Jerzy
Lei, Jing
description Forward selection (FS) is a popular variable selection method for linear regression. But theoretical understanding of FS with a diverging number of covariates is still limited. We derive sufficient conditions for FS to attain model selection consistency. Our conditions are similar to those for orthogonal matching pursuit, but are obtained using a different argument. When the true model size is unknown, we derive sufficient conditions for model selection consistency of FS with a data‐driven stopping rule, based on a sequential variant of cross‐validation. As a byproduct of our proofs, we also have a sharp (sufficient and almost necessary) condition for model selection consistency of “wrapper” forward search for linear regression. We illustrate intuition and demonstrate performance of our methods using simulation studies and real datasets. Résumé La sélection ascendante (SA) est une méthode de sélection de variables populaire en régression linéaire. Les propriétés théoriques de cette méthode avec un nombre divergent de covariables sont toutefois peu connues. Les auteurs déterminent des conditions suffisantes pour que la SA converge vers la sélection des bonnes variables. Ces conditions sont similaires à celles de la poursuite de correspondances orthogonales, mais elles sont obtenues avec un raisonnement différent. Dans le cas où la taille du vrai modèle est inconnue, les auteurs déterminent des conditions suffisantes pour la convergence d'une SA avec une règle d'arrêt empirique basée sur une variante séquentielle de la validation croisée. Grâce à leurs preuves, les auteurs établissent également des conditions suffisantes et presque nécessaires pour la convergence d'une sélection de type emballage avec la régression linéaire. Ils illustrent leur intuition et démontrent la performance de leurs méthodes par des simulations et l'analyse de données réelles.
doi_str_mv 10.1002/cjs.11635
format Article
fullrecord <record><control><sourceid>proquest_cross</sourceid><recordid>TN_cdi_proquest_journals_2666848747</recordid><sourceformat>XML</sourceformat><sourcesystem>PC</sourcesystem><sourcerecordid>2666848747</sourcerecordid><originalsourceid>FETCH-LOGICAL-c2975-c8ffc44ac795d6391d3ad8d7d239228f1951921aeb9650d4f9394754b243676a3</originalsourceid><addsrcrecordid>eNp1kD1OAzEQhS0EEiFQcIOVqCg28b_XJYr4VRAFINFZztpOHG12F3tDlI4jcEZOgpOloKEazcz3Rm8eAOcIjhCEeFwu4wghTtgBGCABi1xS9nYIBpAgmTOB6TE4iXEJIWEI4QGIj42xVRZtZcvON3XWhqa1ofM2Zo3LXBM2Opg_e13vuve1rTuvq6wMTYzfn18fuvJG74mkyRZ-vkhT41e2jmmYyGDnwcZdcwqOnK6iPfutQ_B6c_0yucunT7f3k6tpXmIpWF4WzpWU6lJIZjiRyBBtCiMMJhLjwiHJkMRI25nkDBrqJJFUMDrDlHDBNRmCi_5u-ikZjp1aNuuQvESFOecFLQQVibrsqf0rwTrVBr_SYasQVLtMVcpU7TNN7LhnN76y2_9BNXl47hU_cEB8Wg</addsrcrecordid><sourcetype>Aggregation Database</sourcetype><iscdi>true</iscdi><recordtype>article</recordtype><pqid>2666848747</pqid></control><display><type>article</type><title>Model selection properties of forward selection and sequential cross‐validation for high‐dimensional regression</title><source>Wiley Online Library Journals Frontfile Complete</source><creator>Wieczorek, Jerzy ; Lei, Jing</creator><creatorcontrib>Wieczorek, Jerzy ; Lei, Jing</creatorcontrib><description>Forward selection (FS) is a popular variable selection method for linear regression. But theoretical understanding of FS with a diverging number of covariates is still limited. We derive sufficient conditions for FS to attain model selection consistency. Our conditions are similar to those for orthogonal matching pursuit, but are obtained using a different argument. When the true model size is unknown, we derive sufficient conditions for model selection consistency of FS with a data‐driven stopping rule, based on a sequential variant of cross‐validation. As a byproduct of our proofs, we also have a sharp (sufficient and almost necessary) condition for model selection consistency of “wrapper” forward search for linear regression. We illustrate intuition and demonstrate performance of our methods using simulation studies and real datasets. Résumé La sélection ascendante (SA) est une méthode de sélection de variables populaire en régression linéaire. Les propriétés théoriques de cette méthode avec un nombre divergent de covariables sont toutefois peu connues. Les auteurs déterminent des conditions suffisantes pour que la SA converge vers la sélection des bonnes variables. Ces conditions sont similaires à celles de la poursuite de correspondances orthogonales, mais elles sont obtenues avec un raisonnement différent. Dans le cas où la taille du vrai modèle est inconnue, les auteurs déterminent des conditions suffisantes pour la convergence d'une SA avec une règle d'arrêt empirique basée sur une variante séquentielle de la validation croisée. Grâce à leurs preuves, les auteurs établissent également des conditions suffisantes et presque nécessaires pour la convergence d'une sélection de type emballage avec la régression linéaire. Ils illustrent leur intuition et démontrent la performance de leurs méthodes par des simulations et l'analyse de données réelles.</description><identifier>ISSN: 0319-5724</identifier><identifier>EISSN: 1708-945X</identifier><identifier>DOI: 10.1002/cjs.11635</identifier><language>eng</language><publisher>Hoboken, USA: John Wiley &amp; Sons, Inc</publisher><subject>Consistency ; Convergence ; Datasets ; Intuition ; Linear regression ; Matched pursuit ; model selection consistency ; Regression ; Regression analysis ; Simulation ; wrapper forward search</subject><ispartof>Canadian journal of statistics, 2022-06, Vol.50 (2), p.454-470</ispartof><rights>2021 Statistical Society of Canada</rights><rights>2022 Statistical Society of Canada</rights><lds50>peer_reviewed</lds50><woscitedreferencessubscribed>false</woscitedreferencessubscribed><citedby>FETCH-LOGICAL-c2975-c8ffc44ac795d6391d3ad8d7d239228f1951921aeb9650d4f9394754b243676a3</citedby><cites>FETCH-LOGICAL-c2975-c8ffc44ac795d6391d3ad8d7d239228f1951921aeb9650d4f9394754b243676a3</cites><orcidid>0000-0002-2859-6534</orcidid></display><links><openurl>$$Topenurl_article</openurl><openurlfulltext>$$Topenurlfull_article</openurlfulltext><thumbnail>$$Tsyndetics_thumb_exl</thumbnail><linktopdf>$$Uhttps://onlinelibrary.wiley.com/doi/pdf/10.1002%2Fcjs.11635$$EPDF$$P50$$Gwiley$$H</linktopdf><linktohtml>$$Uhttps://onlinelibrary.wiley.com/doi/full/10.1002%2Fcjs.11635$$EHTML$$P50$$Gwiley$$H</linktohtml><link.rule.ids>314,778,782,1414,27907,27908,45557,45558</link.rule.ids></links><search><creatorcontrib>Wieczorek, Jerzy</creatorcontrib><creatorcontrib>Lei, Jing</creatorcontrib><title>Model selection properties of forward selection and sequential cross‐validation for high‐dimensional regression</title><title>Canadian journal of statistics</title><description>Forward selection (FS) is a popular variable selection method for linear regression. But theoretical understanding of FS with a diverging number of covariates is still limited. We derive sufficient conditions for FS to attain model selection consistency. Our conditions are similar to those for orthogonal matching pursuit, but are obtained using a different argument. When the true model size is unknown, we derive sufficient conditions for model selection consistency of FS with a data‐driven stopping rule, based on a sequential variant of cross‐validation. As a byproduct of our proofs, we also have a sharp (sufficient and almost necessary) condition for model selection consistency of “wrapper” forward search for linear regression. We illustrate intuition and demonstrate performance of our methods using simulation studies and real datasets. Résumé La sélection ascendante (SA) est une méthode de sélection de variables populaire en régression linéaire. Les propriétés théoriques de cette méthode avec un nombre divergent de covariables sont toutefois peu connues. Les auteurs déterminent des conditions suffisantes pour que la SA converge vers la sélection des bonnes variables. Ces conditions sont similaires à celles de la poursuite de correspondances orthogonales, mais elles sont obtenues avec un raisonnement différent. Dans le cas où la taille du vrai modèle est inconnue, les auteurs déterminent des conditions suffisantes pour la convergence d'une SA avec une règle d'arrêt empirique basée sur une variante séquentielle de la validation croisée. Grâce à leurs preuves, les auteurs établissent également des conditions suffisantes et presque nécessaires pour la convergence d'une sélection de type emballage avec la régression linéaire. Ils illustrent leur intuition et démontrent la performance de leurs méthodes par des simulations et l'analyse de données réelles.</description><subject>Consistency</subject><subject>Convergence</subject><subject>Datasets</subject><subject>Intuition</subject><subject>Linear regression</subject><subject>Matched pursuit</subject><subject>model selection consistency</subject><subject>Regression</subject><subject>Regression analysis</subject><subject>Simulation</subject><subject>wrapper forward search</subject><issn>0319-5724</issn><issn>1708-945X</issn><fulltext>true</fulltext><rsrctype>article</rsrctype><creationdate>2022</creationdate><recordtype>article</recordtype><recordid>eNp1kD1OAzEQhS0EEiFQcIOVqCg28b_XJYr4VRAFINFZztpOHG12F3tDlI4jcEZOgpOloKEazcz3Rm8eAOcIjhCEeFwu4wghTtgBGCABi1xS9nYIBpAgmTOB6TE4iXEJIWEI4QGIj42xVRZtZcvON3XWhqa1ofM2Zo3LXBM2Opg_e13vuve1rTuvq6wMTYzfn18fuvJG74mkyRZ-vkhT41e2jmmYyGDnwcZdcwqOnK6iPfutQ_B6c_0yucunT7f3k6tpXmIpWF4WzpWU6lJIZjiRyBBtCiMMJhLjwiHJkMRI25nkDBrqJJFUMDrDlHDBNRmCi_5u-ikZjp1aNuuQvESFOecFLQQVibrsqf0rwTrVBr_SYasQVLtMVcpU7TNN7LhnN76y2_9BNXl47hU_cEB8Wg</recordid><startdate>202206</startdate><enddate>202206</enddate><creator>Wieczorek, Jerzy</creator><creator>Lei, Jing</creator><general>John Wiley &amp; Sons, Inc</general><general>Wiley Subscription Services, Inc</general><scope>AAYXX</scope><scope>CITATION</scope><scope>7SC</scope><scope>8BJ</scope><scope>8FD</scope><scope>FQK</scope><scope>H8D</scope><scope>JBE</scope><scope>JQ2</scope><scope>L7M</scope><scope>L~C</scope><scope>L~D</scope><orcidid>https://orcid.org/0000-0002-2859-6534</orcidid></search><sort><creationdate>202206</creationdate><title>Model selection properties of forward selection and sequential cross‐validation for high‐dimensional regression</title><author>Wieczorek, Jerzy ; Lei, Jing</author></sort><facets><frbrtype>5</frbrtype><frbrgroupid>cdi_FETCH-LOGICAL-c2975-c8ffc44ac795d6391d3ad8d7d239228f1951921aeb9650d4f9394754b243676a3</frbrgroupid><rsrctype>articles</rsrctype><prefilter>articles</prefilter><language>eng</language><creationdate>2022</creationdate><topic>Consistency</topic><topic>Convergence</topic><topic>Datasets</topic><topic>Intuition</topic><topic>Linear regression</topic><topic>Matched pursuit</topic><topic>model selection consistency</topic><topic>Regression</topic><topic>Regression analysis</topic><topic>Simulation</topic><topic>wrapper forward search</topic><toplevel>peer_reviewed</toplevel><toplevel>online_resources</toplevel><creatorcontrib>Wieczorek, Jerzy</creatorcontrib><creatorcontrib>Lei, Jing</creatorcontrib><collection>CrossRef</collection><collection>Computer and Information Systems Abstracts</collection><collection>International Bibliography of the Social Sciences (IBSS)</collection><collection>Technology Research Database</collection><collection>International Bibliography of the Social Sciences</collection><collection>Aerospace Database</collection><collection>International Bibliography of the Social Sciences</collection><collection>ProQuest Computer Science Collection</collection><collection>Advanced Technologies Database with Aerospace</collection><collection>Computer and Information Systems Abstracts – Academic</collection><collection>Computer and Information Systems Abstracts Professional</collection><jtitle>Canadian journal of statistics</jtitle></facets><delivery><delcategory>Remote Search Resource</delcategory><fulltext>fulltext</fulltext></delivery><addata><au>Wieczorek, Jerzy</au><au>Lei, Jing</au><format>journal</format><genre>article</genre><ristype>JOUR</ristype><atitle>Model selection properties of forward selection and sequential cross‐validation for high‐dimensional regression</atitle><jtitle>Canadian journal of statistics</jtitle><date>2022-06</date><risdate>2022</risdate><volume>50</volume><issue>2</issue><spage>454</spage><epage>470</epage><pages>454-470</pages><issn>0319-5724</issn><eissn>1708-945X</eissn><abstract>Forward selection (FS) is a popular variable selection method for linear regression. But theoretical understanding of FS with a diverging number of covariates is still limited. We derive sufficient conditions for FS to attain model selection consistency. Our conditions are similar to those for orthogonal matching pursuit, but are obtained using a different argument. When the true model size is unknown, we derive sufficient conditions for model selection consistency of FS with a data‐driven stopping rule, based on a sequential variant of cross‐validation. As a byproduct of our proofs, we also have a sharp (sufficient and almost necessary) condition for model selection consistency of “wrapper” forward search for linear regression. We illustrate intuition and demonstrate performance of our methods using simulation studies and real datasets. Résumé La sélection ascendante (SA) est une méthode de sélection de variables populaire en régression linéaire. Les propriétés théoriques de cette méthode avec un nombre divergent de covariables sont toutefois peu connues. Les auteurs déterminent des conditions suffisantes pour que la SA converge vers la sélection des bonnes variables. Ces conditions sont similaires à celles de la poursuite de correspondances orthogonales, mais elles sont obtenues avec un raisonnement différent. Dans le cas où la taille du vrai modèle est inconnue, les auteurs déterminent des conditions suffisantes pour la convergence d'une SA avec une règle d'arrêt empirique basée sur une variante séquentielle de la validation croisée. Grâce à leurs preuves, les auteurs établissent également des conditions suffisantes et presque nécessaires pour la convergence d'une sélection de type emballage avec la régression linéaire. Ils illustrent leur intuition et démontrent la performance de leurs méthodes par des simulations et l'analyse de données réelles.</abstract><cop>Hoboken, USA</cop><pub>John Wiley &amp; Sons, Inc</pub><doi>10.1002/cjs.11635</doi><tpages>17</tpages><orcidid>https://orcid.org/0000-0002-2859-6534</orcidid></addata></record>
fulltext fulltext
identifier ISSN: 0319-5724
ispartof Canadian journal of statistics, 2022-06, Vol.50 (2), p.454-470
issn 0319-5724
1708-945X
language eng
recordid cdi_proquest_journals_2666848747
source Wiley Online Library Journals Frontfile Complete
subjects Consistency
Convergence
Datasets
Intuition
Linear regression
Matched pursuit
model selection consistency
Regression
Regression analysis
Simulation
wrapper forward search
title Model selection properties of forward selection and sequential cross‐validation for high‐dimensional regression
url https://sfx.bib-bvb.de/sfx_tum?ctx_ver=Z39.88-2004&ctx_enc=info:ofi/enc:UTF-8&ctx_tim=2025-01-17T07%3A32%3A28IST&url_ver=Z39.88-2004&url_ctx_fmt=infofi/fmt:kev:mtx:ctx&rfr_id=info:sid/primo.exlibrisgroup.com:primo3-Article-proquest_cross&rft_val_fmt=info:ofi/fmt:kev:mtx:journal&rft.genre=article&rft.atitle=Model%20selection%20properties%20of%20forward%20selection%20and%20sequential%20cross%E2%80%90validation%20for%20high%E2%80%90dimensional%20regression&rft.jtitle=Canadian%20journal%20of%20statistics&rft.au=Wieczorek,%20Jerzy&rft.date=2022-06&rft.volume=50&rft.issue=2&rft.spage=454&rft.epage=470&rft.pages=454-470&rft.issn=0319-5724&rft.eissn=1708-945X&rft_id=info:doi/10.1002/cjs.11635&rft_dat=%3Cproquest_cross%3E2666848747%3C/proquest_cross%3E%3Curl%3E%3C/url%3E&disable_directlink=true&sfx.directlink=off&sfx.report_link=0&rft_id=info:oai/&rft_pqid=2666848747&rft_id=info:pmid/&rfr_iscdi=true