Model selection properties of forward selection and sequential cross‐validation for high‐dimensional regression
Forward selection (FS) is a popular variable selection method for linear regression. But theoretical understanding of FS with a diverging number of covariates is still limited. We derive sufficient conditions for FS to attain model selection consistency. Our conditions are similar to those for ortho...
Gespeichert in:
Veröffentlicht in: | Canadian journal of statistics 2022-06, Vol.50 (2), p.454-470 |
---|---|
Hauptverfasser: | , |
Format: | Artikel |
Sprache: | eng |
Schlagworte: | |
Online-Zugang: | Volltext |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
container_end_page | 470 |
---|---|
container_issue | 2 |
container_start_page | 454 |
container_title | Canadian journal of statistics |
container_volume | 50 |
creator | Wieczorek, Jerzy Lei, Jing |
description | Forward selection (FS) is a popular variable selection method for linear regression. But theoretical understanding of FS with a diverging number of covariates is still limited. We derive sufficient conditions for FS to attain model selection consistency. Our conditions are similar to those for orthogonal matching pursuit, but are obtained using a different argument. When the true model size is unknown, we derive sufficient conditions for model selection consistency of FS with a data‐driven stopping rule, based on a sequential variant of cross‐validation. As a byproduct of our proofs, we also have a sharp (sufficient and almost necessary) condition for model selection consistency of “wrapper” forward search for linear regression. We illustrate intuition and demonstrate performance of our methods using simulation studies and real datasets.
Résumé
La sélection ascendante (SA) est une méthode de sélection de variables populaire en régression linéaire. Les propriétés théoriques de cette méthode avec un nombre divergent de covariables sont toutefois peu connues. Les auteurs déterminent des conditions suffisantes pour que la SA converge vers la sélection des bonnes variables. Ces conditions sont similaires à celles de la poursuite de correspondances orthogonales, mais elles sont obtenues avec un raisonnement différent. Dans le cas où la taille du vrai modèle est inconnue, les auteurs déterminent des conditions suffisantes pour la convergence d'une SA avec une règle d'arrêt empirique basée sur une variante séquentielle de la validation croisée. Grâce à leurs preuves, les auteurs établissent également des conditions suffisantes et presque nécessaires pour la convergence d'une sélection de type emballage avec la régression linéaire. Ils illustrent leur intuition et démontrent la performance de leurs méthodes par des simulations et l'analyse de données réelles. |
doi_str_mv | 10.1002/cjs.11635 |
format | Article |
fullrecord | <record><control><sourceid>proquest_cross</sourceid><recordid>TN_cdi_proquest_journals_2666848747</recordid><sourceformat>XML</sourceformat><sourcesystem>PC</sourcesystem><sourcerecordid>2666848747</sourcerecordid><originalsourceid>FETCH-LOGICAL-c2975-c8ffc44ac795d6391d3ad8d7d239228f1951921aeb9650d4f9394754b243676a3</originalsourceid><addsrcrecordid>eNp1kD1OAzEQhS0EEiFQcIOVqCg28b_XJYr4VRAFINFZztpOHG12F3tDlI4jcEZOgpOloKEazcz3Rm8eAOcIjhCEeFwu4wghTtgBGCABi1xS9nYIBpAgmTOB6TE4iXEJIWEI4QGIj42xVRZtZcvON3XWhqa1ofM2Zo3LXBM2Opg_e13vuve1rTuvq6wMTYzfn18fuvJG74mkyRZ-vkhT41e2jmmYyGDnwcZdcwqOnK6iPfutQ_B6c_0yucunT7f3k6tpXmIpWF4WzpWU6lJIZjiRyBBtCiMMJhLjwiHJkMRI25nkDBrqJJFUMDrDlHDBNRmCi_5u-ikZjp1aNuuQvESFOecFLQQVibrsqf0rwTrVBr_SYasQVLtMVcpU7TNN7LhnN76y2_9BNXl47hU_cEB8Wg</addsrcrecordid><sourcetype>Aggregation Database</sourcetype><iscdi>true</iscdi><recordtype>article</recordtype><pqid>2666848747</pqid></control><display><type>article</type><title>Model selection properties of forward selection and sequential cross‐validation for high‐dimensional regression</title><source>Wiley Online Library Journals Frontfile Complete</source><creator>Wieczorek, Jerzy ; Lei, Jing</creator><creatorcontrib>Wieczorek, Jerzy ; Lei, Jing</creatorcontrib><description>Forward selection (FS) is a popular variable selection method for linear regression. But theoretical understanding of FS with a diverging number of covariates is still limited. We derive sufficient conditions for FS to attain model selection consistency. Our conditions are similar to those for orthogonal matching pursuit, but are obtained using a different argument. When the true model size is unknown, we derive sufficient conditions for model selection consistency of FS with a data‐driven stopping rule, based on a sequential variant of cross‐validation. As a byproduct of our proofs, we also have a sharp (sufficient and almost necessary) condition for model selection consistency of “wrapper” forward search for linear regression. We illustrate intuition and demonstrate performance of our methods using simulation studies and real datasets.
Résumé
La sélection ascendante (SA) est une méthode de sélection de variables populaire en régression linéaire. Les propriétés théoriques de cette méthode avec un nombre divergent de covariables sont toutefois peu connues. Les auteurs déterminent des conditions suffisantes pour que la SA converge vers la sélection des bonnes variables. Ces conditions sont similaires à celles de la poursuite de correspondances orthogonales, mais elles sont obtenues avec un raisonnement différent. Dans le cas où la taille du vrai modèle est inconnue, les auteurs déterminent des conditions suffisantes pour la convergence d'une SA avec une règle d'arrêt empirique basée sur une variante séquentielle de la validation croisée. Grâce à leurs preuves, les auteurs établissent également des conditions suffisantes et presque nécessaires pour la convergence d'une sélection de type emballage avec la régression linéaire. Ils illustrent leur intuition et démontrent la performance de leurs méthodes par des simulations et l'analyse de données réelles.</description><identifier>ISSN: 0319-5724</identifier><identifier>EISSN: 1708-945X</identifier><identifier>DOI: 10.1002/cjs.11635</identifier><language>eng</language><publisher>Hoboken, USA: John Wiley & Sons, Inc</publisher><subject>Consistency ; Convergence ; Datasets ; Intuition ; Linear regression ; Matched pursuit ; model selection consistency ; Regression ; Regression analysis ; Simulation ; wrapper forward search</subject><ispartof>Canadian journal of statistics, 2022-06, Vol.50 (2), p.454-470</ispartof><rights>2021 Statistical Society of Canada</rights><rights>2022 Statistical Society of Canada</rights><lds50>peer_reviewed</lds50><woscitedreferencessubscribed>false</woscitedreferencessubscribed><citedby>FETCH-LOGICAL-c2975-c8ffc44ac795d6391d3ad8d7d239228f1951921aeb9650d4f9394754b243676a3</citedby><cites>FETCH-LOGICAL-c2975-c8ffc44ac795d6391d3ad8d7d239228f1951921aeb9650d4f9394754b243676a3</cites><orcidid>0000-0002-2859-6534</orcidid></display><links><openurl>$$Topenurl_article</openurl><openurlfulltext>$$Topenurlfull_article</openurlfulltext><thumbnail>$$Tsyndetics_thumb_exl</thumbnail><linktopdf>$$Uhttps://onlinelibrary.wiley.com/doi/pdf/10.1002%2Fcjs.11635$$EPDF$$P50$$Gwiley$$H</linktopdf><linktohtml>$$Uhttps://onlinelibrary.wiley.com/doi/full/10.1002%2Fcjs.11635$$EHTML$$P50$$Gwiley$$H</linktohtml><link.rule.ids>314,778,782,1414,27907,27908,45557,45558</link.rule.ids></links><search><creatorcontrib>Wieczorek, Jerzy</creatorcontrib><creatorcontrib>Lei, Jing</creatorcontrib><title>Model selection properties of forward selection and sequential cross‐validation for high‐dimensional regression</title><title>Canadian journal of statistics</title><description>Forward selection (FS) is a popular variable selection method for linear regression. But theoretical understanding of FS with a diverging number of covariates is still limited. We derive sufficient conditions for FS to attain model selection consistency. Our conditions are similar to those for orthogonal matching pursuit, but are obtained using a different argument. When the true model size is unknown, we derive sufficient conditions for model selection consistency of FS with a data‐driven stopping rule, based on a sequential variant of cross‐validation. As a byproduct of our proofs, we also have a sharp (sufficient and almost necessary) condition for model selection consistency of “wrapper” forward search for linear regression. We illustrate intuition and demonstrate performance of our methods using simulation studies and real datasets.
Résumé
La sélection ascendante (SA) est une méthode de sélection de variables populaire en régression linéaire. Les propriétés théoriques de cette méthode avec un nombre divergent de covariables sont toutefois peu connues. Les auteurs déterminent des conditions suffisantes pour que la SA converge vers la sélection des bonnes variables. Ces conditions sont similaires à celles de la poursuite de correspondances orthogonales, mais elles sont obtenues avec un raisonnement différent. Dans le cas où la taille du vrai modèle est inconnue, les auteurs déterminent des conditions suffisantes pour la convergence d'une SA avec une règle d'arrêt empirique basée sur une variante séquentielle de la validation croisée. Grâce à leurs preuves, les auteurs établissent également des conditions suffisantes et presque nécessaires pour la convergence d'une sélection de type emballage avec la régression linéaire. Ils illustrent leur intuition et démontrent la performance de leurs méthodes par des simulations et l'analyse de données réelles.</description><subject>Consistency</subject><subject>Convergence</subject><subject>Datasets</subject><subject>Intuition</subject><subject>Linear regression</subject><subject>Matched pursuit</subject><subject>model selection consistency</subject><subject>Regression</subject><subject>Regression analysis</subject><subject>Simulation</subject><subject>wrapper forward search</subject><issn>0319-5724</issn><issn>1708-945X</issn><fulltext>true</fulltext><rsrctype>article</rsrctype><creationdate>2022</creationdate><recordtype>article</recordtype><recordid>eNp1kD1OAzEQhS0EEiFQcIOVqCg28b_XJYr4VRAFINFZztpOHG12F3tDlI4jcEZOgpOloKEazcz3Rm8eAOcIjhCEeFwu4wghTtgBGCABi1xS9nYIBpAgmTOB6TE4iXEJIWEI4QGIj42xVRZtZcvON3XWhqa1ofM2Zo3LXBM2Opg_e13vuve1rTuvq6wMTYzfn18fuvJG74mkyRZ-vkhT41e2jmmYyGDnwcZdcwqOnK6iPfutQ_B6c_0yucunT7f3k6tpXmIpWF4WzpWU6lJIZjiRyBBtCiMMJhLjwiHJkMRI25nkDBrqJJFUMDrDlHDBNRmCi_5u-ikZjp1aNuuQvESFOecFLQQVibrsqf0rwTrVBr_SYasQVLtMVcpU7TNN7LhnN76y2_9BNXl47hU_cEB8Wg</recordid><startdate>202206</startdate><enddate>202206</enddate><creator>Wieczorek, Jerzy</creator><creator>Lei, Jing</creator><general>John Wiley & Sons, Inc</general><general>Wiley Subscription Services, Inc</general><scope>AAYXX</scope><scope>CITATION</scope><scope>7SC</scope><scope>8BJ</scope><scope>8FD</scope><scope>FQK</scope><scope>H8D</scope><scope>JBE</scope><scope>JQ2</scope><scope>L7M</scope><scope>L~C</scope><scope>L~D</scope><orcidid>https://orcid.org/0000-0002-2859-6534</orcidid></search><sort><creationdate>202206</creationdate><title>Model selection properties of forward selection and sequential cross‐validation for high‐dimensional regression</title><author>Wieczorek, Jerzy ; Lei, Jing</author></sort><facets><frbrtype>5</frbrtype><frbrgroupid>cdi_FETCH-LOGICAL-c2975-c8ffc44ac795d6391d3ad8d7d239228f1951921aeb9650d4f9394754b243676a3</frbrgroupid><rsrctype>articles</rsrctype><prefilter>articles</prefilter><language>eng</language><creationdate>2022</creationdate><topic>Consistency</topic><topic>Convergence</topic><topic>Datasets</topic><topic>Intuition</topic><topic>Linear regression</topic><topic>Matched pursuit</topic><topic>model selection consistency</topic><topic>Regression</topic><topic>Regression analysis</topic><topic>Simulation</topic><topic>wrapper forward search</topic><toplevel>peer_reviewed</toplevel><toplevel>online_resources</toplevel><creatorcontrib>Wieczorek, Jerzy</creatorcontrib><creatorcontrib>Lei, Jing</creatorcontrib><collection>CrossRef</collection><collection>Computer and Information Systems Abstracts</collection><collection>International Bibliography of the Social Sciences (IBSS)</collection><collection>Technology Research Database</collection><collection>International Bibliography of the Social Sciences</collection><collection>Aerospace Database</collection><collection>International Bibliography of the Social Sciences</collection><collection>ProQuest Computer Science Collection</collection><collection>Advanced Technologies Database with Aerospace</collection><collection>Computer and Information Systems Abstracts Academic</collection><collection>Computer and Information Systems Abstracts Professional</collection><jtitle>Canadian journal of statistics</jtitle></facets><delivery><delcategory>Remote Search Resource</delcategory><fulltext>fulltext</fulltext></delivery><addata><au>Wieczorek, Jerzy</au><au>Lei, Jing</au><format>journal</format><genre>article</genre><ristype>JOUR</ristype><atitle>Model selection properties of forward selection and sequential cross‐validation for high‐dimensional regression</atitle><jtitle>Canadian journal of statistics</jtitle><date>2022-06</date><risdate>2022</risdate><volume>50</volume><issue>2</issue><spage>454</spage><epage>470</epage><pages>454-470</pages><issn>0319-5724</issn><eissn>1708-945X</eissn><abstract>Forward selection (FS) is a popular variable selection method for linear regression. But theoretical understanding of FS with a diverging number of covariates is still limited. We derive sufficient conditions for FS to attain model selection consistency. Our conditions are similar to those for orthogonal matching pursuit, but are obtained using a different argument. When the true model size is unknown, we derive sufficient conditions for model selection consistency of FS with a data‐driven stopping rule, based on a sequential variant of cross‐validation. As a byproduct of our proofs, we also have a sharp (sufficient and almost necessary) condition for model selection consistency of “wrapper” forward search for linear regression. We illustrate intuition and demonstrate performance of our methods using simulation studies and real datasets.
Résumé
La sélection ascendante (SA) est une méthode de sélection de variables populaire en régression linéaire. Les propriétés théoriques de cette méthode avec un nombre divergent de covariables sont toutefois peu connues. Les auteurs déterminent des conditions suffisantes pour que la SA converge vers la sélection des bonnes variables. Ces conditions sont similaires à celles de la poursuite de correspondances orthogonales, mais elles sont obtenues avec un raisonnement différent. Dans le cas où la taille du vrai modèle est inconnue, les auteurs déterminent des conditions suffisantes pour la convergence d'une SA avec une règle d'arrêt empirique basée sur une variante séquentielle de la validation croisée. Grâce à leurs preuves, les auteurs établissent également des conditions suffisantes et presque nécessaires pour la convergence d'une sélection de type emballage avec la régression linéaire. Ils illustrent leur intuition et démontrent la performance de leurs méthodes par des simulations et l'analyse de données réelles.</abstract><cop>Hoboken, USA</cop><pub>John Wiley & Sons, Inc</pub><doi>10.1002/cjs.11635</doi><tpages>17</tpages><orcidid>https://orcid.org/0000-0002-2859-6534</orcidid></addata></record> |
fulltext | fulltext |
identifier | ISSN: 0319-5724 |
ispartof | Canadian journal of statistics, 2022-06, Vol.50 (2), p.454-470 |
issn | 0319-5724 1708-945X |
language | eng |
recordid | cdi_proquest_journals_2666848747 |
source | Wiley Online Library Journals Frontfile Complete |
subjects | Consistency Convergence Datasets Intuition Linear regression Matched pursuit model selection consistency Regression Regression analysis Simulation wrapper forward search |
title | Model selection properties of forward selection and sequential cross‐validation for high‐dimensional regression |
url | https://sfx.bib-bvb.de/sfx_tum?ctx_ver=Z39.88-2004&ctx_enc=info:ofi/enc:UTF-8&ctx_tim=2025-01-17T07%3A32%3A28IST&url_ver=Z39.88-2004&url_ctx_fmt=infofi/fmt:kev:mtx:ctx&rfr_id=info:sid/primo.exlibrisgroup.com:primo3-Article-proquest_cross&rft_val_fmt=info:ofi/fmt:kev:mtx:journal&rft.genre=article&rft.atitle=Model%20selection%20properties%20of%20forward%20selection%20and%20sequential%20cross%E2%80%90validation%20for%20high%E2%80%90dimensional%20regression&rft.jtitle=Canadian%20journal%20of%20statistics&rft.au=Wieczorek,%20Jerzy&rft.date=2022-06&rft.volume=50&rft.issue=2&rft.spage=454&rft.epage=470&rft.pages=454-470&rft.issn=0319-5724&rft.eissn=1708-945X&rft_id=info:doi/10.1002/cjs.11635&rft_dat=%3Cproquest_cross%3E2666848747%3C/proquest_cross%3E%3Curl%3E%3C/url%3E&disable_directlink=true&sfx.directlink=off&sfx.report_link=0&rft_id=info:oai/&rft_pqid=2666848747&rft_id=info:pmid/&rfr_iscdi=true |