Cluster analysis with regression of non‐Gaussian functional data on covariates
Cluster analysis with functional data often imposes normality assumptions on outcomes and is typically carried out without covariates or supervision. However, nonnormal functional data are frequently encountered in practice, and unsupervised learning, without directly tying covariates to clusters, o...
Gespeichert in:
Veröffentlicht in: | Canadian journal of statistics 2022-03, Vol.50 (1), p.221-240 |
---|---|
Hauptverfasser: | , , , , |
Format: | Artikel |
Sprache: | eng |
Schlagworte: | |
Online-Zugang: | Volltext |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
container_end_page | 240 |
---|---|
container_issue | 1 |
container_start_page | 221 |
container_title | Canadian journal of statistics |
container_volume | 50 |
creator | Jiang, Jiakun Lin, Huazhen Peng, Heng Fan, Gang‐Zhi Li, Yi |
description | Cluster analysis with functional data often imposes normality assumptions on outcomes and is typically carried out without covariates or supervision. However, nonnormal functional data are frequently encountered in practice, and unsupervised learning, without directly tying covariates to clusters, often makes the resulting clusters less interpretable. To address these issues, we propose a new semiparametric transformation functional regression model, which enables us to cluster nonnormal functional data in the presence of covariates. Our model incorporates several unique features. First, it omits the normality assumptions on the functional response, which adds more flexibility to the modelling. Second, our model allows clusters to have distinct relationships between functional responses and covariates, and thus makes the clusters formed more interpretable. Third, unlike various competing methods, we allow the number of clusters to be unspecified and data‐driven. We develop a new method, which combines penalized likelihood and estimating equations, to estimate the number of clusters, regression parameters, and transformation functions simultaneously; we also establish the large‐sample properties such as consistency and asymptotic normality. Simulations confirm the utility of our proposed approach. We use our proposed method to analyze Chinese housing market data and garner some interesting findings.
Résumé
En cas de données fonctionnelles, l'analyse par grappes est souvent réalisée sous l'hypothèse de normalité et se fait généralement sans tenir compte de covariables et sans supervision. Mais en pratique, comme il est fréquent que les données fonctionnelles à l'étude ne soient pas gaussiennes, le recours à un apprentissage non supervisé sans un lien direct entre les covariables et les clusters fournit des résultats difficiles à interpréter. Pour remédier à ces problèmes, les auteurs du présent travail proposent un nouveau modèle de régression fonctionnelle de transformation semi‐paramétrique (STFR) qui permet de regrouper des données fonctionnelles non normales en présence de covariables. Le modèle proposé intègre plusieurs caractéristiques particulières. Premièrement, en omettant l'hypothèse de normalité de la variable réponse fonctionnelle, il rend la modélisation bien plus flexible. Deuxièmement, en permettant aux relations entre les variables réponses fonctionnelles et les covariables de varier d'un cluster à l'autre, il facilite l'interprétation des cl |
doi_str_mv | 10.1002/cjs.11680 |
format | Article |
fullrecord | <record><control><sourceid>proquest_cross</sourceid><recordid>TN_cdi_proquest_journals_2633103470</recordid><sourceformat>XML</sourceformat><sourcesystem>PC</sourcesystem><sourcerecordid>2633103470</sourcerecordid><originalsourceid>FETCH-LOGICAL-c3320-b7c9ad07daea9d24c6f38f280e8ae9a648ec991f5f100bc7ccc33559346b37973</originalsourceid><addsrcrecordid>eNp1kMFKxDAQhoMouK4efIOAJw_dnTRt0xyl6KosKKjgLcymiXapjSaty958BJ_RJzFar54GZr5_mPkIOWYwYwDpXK_DjLGihB0yYQLKRGb54y6ZAGcyyUWa7ZODENYAPGcsnZDbqh1CbzzFDtttaALdNP0z9ebJmxAa11Fnaee6r4_PBQ6xgx21Q6f7OMKW1tgjjZB27-gb7E04JHsW22CO_uqUPFyc31eXyfJmcVWdLRPNeQrJSmiJNYgaDco6zXRheWnTEkyJRmKRlUZLyWxu41srLbSOuTyXPCtWXEjBp-Rk3Pvq3dtgQq_WbvDxpqDSgnMGPBMQqdOR0t6F4I1Vr755Qb9VDNSPMBWFqV9hkZ2P7KZpzfZ_UFXXd2PiG3tTblk</addsrcrecordid><sourcetype>Aggregation Database</sourcetype><iscdi>true</iscdi><recordtype>article</recordtype><pqid>2633103470</pqid></control><display><type>article</type><title>Cluster analysis with regression of non‐Gaussian functional data on covariates</title><source>Access via Wiley Online Library</source><creator>Jiang, Jiakun ; Lin, Huazhen ; Peng, Heng ; Fan, Gang‐Zhi ; Li, Yi</creator><creatorcontrib>Jiang, Jiakun ; Lin, Huazhen ; Peng, Heng ; Fan, Gang‐Zhi ; Li, Yi</creatorcontrib><description>Cluster analysis with functional data often imposes normality assumptions on outcomes and is typically carried out without covariates or supervision. However, nonnormal functional data are frequently encountered in practice, and unsupervised learning, without directly tying covariates to clusters, often makes the resulting clusters less interpretable. To address these issues, we propose a new semiparametric transformation functional regression model, which enables us to cluster nonnormal functional data in the presence of covariates. Our model incorporates several unique features. First, it omits the normality assumptions on the functional response, which adds more flexibility to the modelling. Second, our model allows clusters to have distinct relationships between functional responses and covariates, and thus makes the clusters formed more interpretable. Third, unlike various competing methods, we allow the number of clusters to be unspecified and data‐driven. We develop a new method, which combines penalized likelihood and estimating equations, to estimate the number of clusters, regression parameters, and transformation functions simultaneously; we also establish the large‐sample properties such as consistency and asymptotic normality. Simulations confirm the utility of our proposed approach. We use our proposed method to analyze Chinese housing market data and garner some interesting findings.
Résumé
En cas de données fonctionnelles, l'analyse par grappes est souvent réalisée sous l'hypothèse de normalité et se fait généralement sans tenir compte de covariables et sans supervision. Mais en pratique, comme il est fréquent que les données fonctionnelles à l'étude ne soient pas gaussiennes, le recours à un apprentissage non supervisé sans un lien direct entre les covariables et les clusters fournit des résultats difficiles à interpréter. Pour remédier à ces problèmes, les auteurs du présent travail proposent un nouveau modèle de régression fonctionnelle de transformation semi‐paramétrique (STFR) qui permet de regrouper des données fonctionnelles non normales en présence de covariables. Le modèle proposé intègre plusieurs caractéristiques particulières. Premièrement, en omettant l'hypothèse de normalité de la variable réponse fonctionnelle, il rend la modélisation bien plus flexible. Deuxièmement, en permettant aux relations entre les variables réponses fonctionnelles et les covariables de varier d'un cluster à l'autre, il facilite l'interprétation des clusters construits. Troisièmement, contrairement à diverses méthodes concurrentes, l'approche proposée ne fixe pas le nombre de clusters à l'avance mais adopte davantage un choix automatique. La méthode ainsi développée combine les équations d'estimation et la vraisemblance pénalisée pour estimer simultanément le nombre de clusters, les paramètres de régression et les fonctions de transformation. Enfin, en plus d'une étude du comportement asymptotique des estimateurs proposés, dont la convergence et la normalité asymptotiques, les auteurs présentent des simulations et une analyse de données du marché immobilier chinois afin de confirmer les bonnes performances et l'utilité pratique de la méthode proposée.</description><identifier>ISSN: 0319-5724</identifier><identifier>EISSN: 1708-945X</identifier><identifier>DOI: 10.1002/cjs.11680</identifier><language>eng</language><publisher>Hoboken, USA: John Wiley & Sons, Inc</publisher><subject>Cluster analysis ; Clustering ; Convergence ; Data analysis ; Estimation ; Flexibility ; functional data ; Housing ; Housing market ; Learning ; longitudinal data ; Normality ; Regression analysis ; Regression models ; semiparametric transformation functional regression ; Simulation ; Statistical methods ; supervised learning ; Transformation ; Transformations (mathematics)</subject><ispartof>Canadian journal of statistics, 2022-03, Vol.50 (1), p.221-240</ispartof><rights>2021 Statistical Society of Canada</rights><rights>2022 Statistical Society of Canada</rights><lds50>peer_reviewed</lds50><oa>free_for_read</oa><woscitedreferencessubscribed>false</woscitedreferencessubscribed><citedby>FETCH-LOGICAL-c3320-b7c9ad07daea9d24c6f38f280e8ae9a648ec991f5f100bc7ccc33559346b37973</citedby><cites>FETCH-LOGICAL-c3320-b7c9ad07daea9d24c6f38f280e8ae9a648ec991f5f100bc7ccc33559346b37973</cites><orcidid>0000-0002-4890-9550</orcidid></display><links><openurl>$$Topenurl_article</openurl><openurlfulltext>$$Topenurlfull_article</openurlfulltext><thumbnail>$$Tsyndetics_thumb_exl</thumbnail><linktopdf>$$Uhttps://onlinelibrary.wiley.com/doi/pdf/10.1002%2Fcjs.11680$$EPDF$$P50$$Gwiley$$H</linktopdf><linktohtml>$$Uhttps://onlinelibrary.wiley.com/doi/full/10.1002%2Fcjs.11680$$EHTML$$P50$$Gwiley$$H</linktohtml><link.rule.ids>314,780,784,1417,27924,27925,45574,45575</link.rule.ids></links><search><creatorcontrib>Jiang, Jiakun</creatorcontrib><creatorcontrib>Lin, Huazhen</creatorcontrib><creatorcontrib>Peng, Heng</creatorcontrib><creatorcontrib>Fan, Gang‐Zhi</creatorcontrib><creatorcontrib>Li, Yi</creatorcontrib><title>Cluster analysis with regression of non‐Gaussian functional data on covariates</title><title>Canadian journal of statistics</title><description>Cluster analysis with functional data often imposes normality assumptions on outcomes and is typically carried out without covariates or supervision. However, nonnormal functional data are frequently encountered in practice, and unsupervised learning, without directly tying covariates to clusters, often makes the resulting clusters less interpretable. To address these issues, we propose a new semiparametric transformation functional regression model, which enables us to cluster nonnormal functional data in the presence of covariates. Our model incorporates several unique features. First, it omits the normality assumptions on the functional response, which adds more flexibility to the modelling. Second, our model allows clusters to have distinct relationships between functional responses and covariates, and thus makes the clusters formed more interpretable. Third, unlike various competing methods, we allow the number of clusters to be unspecified and data‐driven. We develop a new method, which combines penalized likelihood and estimating equations, to estimate the number of clusters, regression parameters, and transformation functions simultaneously; we also establish the large‐sample properties such as consistency and asymptotic normality. Simulations confirm the utility of our proposed approach. We use our proposed method to analyze Chinese housing market data and garner some interesting findings.
Résumé
En cas de données fonctionnelles, l'analyse par grappes est souvent réalisée sous l'hypothèse de normalité et se fait généralement sans tenir compte de covariables et sans supervision. Mais en pratique, comme il est fréquent que les données fonctionnelles à l'étude ne soient pas gaussiennes, le recours à un apprentissage non supervisé sans un lien direct entre les covariables et les clusters fournit des résultats difficiles à interpréter. Pour remédier à ces problèmes, les auteurs du présent travail proposent un nouveau modèle de régression fonctionnelle de transformation semi‐paramétrique (STFR) qui permet de regrouper des données fonctionnelles non normales en présence de covariables. Le modèle proposé intègre plusieurs caractéristiques particulières. Premièrement, en omettant l'hypothèse de normalité de la variable réponse fonctionnelle, il rend la modélisation bien plus flexible. Deuxièmement, en permettant aux relations entre les variables réponses fonctionnelles et les covariables de varier d'un cluster à l'autre, il facilite l'interprétation des clusters construits. Troisièmement, contrairement à diverses méthodes concurrentes, l'approche proposée ne fixe pas le nombre de clusters à l'avance mais adopte davantage un choix automatique. La méthode ainsi développée combine les équations d'estimation et la vraisemblance pénalisée pour estimer simultanément le nombre de clusters, les paramètres de régression et les fonctions de transformation. Enfin, en plus d'une étude du comportement asymptotique des estimateurs proposés, dont la convergence et la normalité asymptotiques, les auteurs présentent des simulations et une analyse de données du marché immobilier chinois afin de confirmer les bonnes performances et l'utilité pratique de la méthode proposée.</description><subject>Cluster analysis</subject><subject>Clustering</subject><subject>Convergence</subject><subject>Data analysis</subject><subject>Estimation</subject><subject>Flexibility</subject><subject>functional data</subject><subject>Housing</subject><subject>Housing market</subject><subject>Learning</subject><subject>longitudinal data</subject><subject>Normality</subject><subject>Regression analysis</subject><subject>Regression models</subject><subject>semiparametric transformation functional regression</subject><subject>Simulation</subject><subject>Statistical methods</subject><subject>supervised learning</subject><subject>Transformation</subject><subject>Transformations (mathematics)</subject><issn>0319-5724</issn><issn>1708-945X</issn><fulltext>true</fulltext><rsrctype>article</rsrctype><creationdate>2022</creationdate><recordtype>article</recordtype><recordid>eNp1kMFKxDAQhoMouK4efIOAJw_dnTRt0xyl6KosKKjgLcymiXapjSaty958BJ_RJzFar54GZr5_mPkIOWYwYwDpXK_DjLGihB0yYQLKRGb54y6ZAGcyyUWa7ZODENYAPGcsnZDbqh1CbzzFDtttaALdNP0z9ebJmxAa11Fnaee6r4_PBQ6xgx21Q6f7OMKW1tgjjZB27-gb7E04JHsW22CO_uqUPFyc31eXyfJmcVWdLRPNeQrJSmiJNYgaDco6zXRheWnTEkyJRmKRlUZLyWxu41srLbSOuTyXPCtWXEjBp-Rk3Pvq3dtgQq_WbvDxpqDSgnMGPBMQqdOR0t6F4I1Vr755Qb9VDNSPMBWFqV9hkZ2P7KZpzfZ_UFXXd2PiG3tTblk</recordid><startdate>202203</startdate><enddate>202203</enddate><creator>Jiang, Jiakun</creator><creator>Lin, Huazhen</creator><creator>Peng, Heng</creator><creator>Fan, Gang‐Zhi</creator><creator>Li, Yi</creator><general>John Wiley & Sons, Inc</general><general>Wiley Subscription Services, Inc</general><scope>AAYXX</scope><scope>CITATION</scope><scope>7SC</scope><scope>8BJ</scope><scope>8FD</scope><scope>FQK</scope><scope>H8D</scope><scope>JBE</scope><scope>JQ2</scope><scope>L7M</scope><scope>L~C</scope><scope>L~D</scope><orcidid>https://orcid.org/0000-0002-4890-9550</orcidid></search><sort><creationdate>202203</creationdate><title>Cluster analysis with regression of non‐Gaussian functional data on covariates</title><author>Jiang, Jiakun ; Lin, Huazhen ; Peng, Heng ; Fan, Gang‐Zhi ; Li, Yi</author></sort><facets><frbrtype>5</frbrtype><frbrgroupid>cdi_FETCH-LOGICAL-c3320-b7c9ad07daea9d24c6f38f280e8ae9a648ec991f5f100bc7ccc33559346b37973</frbrgroupid><rsrctype>articles</rsrctype><prefilter>articles</prefilter><language>eng</language><creationdate>2022</creationdate><topic>Cluster analysis</topic><topic>Clustering</topic><topic>Convergence</topic><topic>Data analysis</topic><topic>Estimation</topic><topic>Flexibility</topic><topic>functional data</topic><topic>Housing</topic><topic>Housing market</topic><topic>Learning</topic><topic>longitudinal data</topic><topic>Normality</topic><topic>Regression analysis</topic><topic>Regression models</topic><topic>semiparametric transformation functional regression</topic><topic>Simulation</topic><topic>Statistical methods</topic><topic>supervised learning</topic><topic>Transformation</topic><topic>Transformations (mathematics)</topic><toplevel>peer_reviewed</toplevel><toplevel>online_resources</toplevel><creatorcontrib>Jiang, Jiakun</creatorcontrib><creatorcontrib>Lin, Huazhen</creatorcontrib><creatorcontrib>Peng, Heng</creatorcontrib><creatorcontrib>Fan, Gang‐Zhi</creatorcontrib><creatorcontrib>Li, Yi</creatorcontrib><collection>CrossRef</collection><collection>Computer and Information Systems Abstracts</collection><collection>International Bibliography of the Social Sciences (IBSS)</collection><collection>Technology Research Database</collection><collection>International Bibliography of the Social Sciences</collection><collection>Aerospace Database</collection><collection>International Bibliography of the Social Sciences</collection><collection>ProQuest Computer Science Collection</collection><collection>Advanced Technologies Database with Aerospace</collection><collection>Computer and Information Systems Abstracts Academic</collection><collection>Computer and Information Systems Abstracts Professional</collection><jtitle>Canadian journal of statistics</jtitle></facets><delivery><delcategory>Remote Search Resource</delcategory><fulltext>fulltext</fulltext></delivery><addata><au>Jiang, Jiakun</au><au>Lin, Huazhen</au><au>Peng, Heng</au><au>Fan, Gang‐Zhi</au><au>Li, Yi</au><format>journal</format><genre>article</genre><ristype>JOUR</ristype><atitle>Cluster analysis with regression of non‐Gaussian functional data on covariates</atitle><jtitle>Canadian journal of statistics</jtitle><date>2022-03</date><risdate>2022</risdate><volume>50</volume><issue>1</issue><spage>221</spage><epage>240</epage><pages>221-240</pages><issn>0319-5724</issn><eissn>1708-945X</eissn><abstract>Cluster analysis with functional data often imposes normality assumptions on outcomes and is typically carried out without covariates or supervision. However, nonnormal functional data are frequently encountered in practice, and unsupervised learning, without directly tying covariates to clusters, often makes the resulting clusters less interpretable. To address these issues, we propose a new semiparametric transformation functional regression model, which enables us to cluster nonnormal functional data in the presence of covariates. Our model incorporates several unique features. First, it omits the normality assumptions on the functional response, which adds more flexibility to the modelling. Second, our model allows clusters to have distinct relationships between functional responses and covariates, and thus makes the clusters formed more interpretable. Third, unlike various competing methods, we allow the number of clusters to be unspecified and data‐driven. We develop a new method, which combines penalized likelihood and estimating equations, to estimate the number of clusters, regression parameters, and transformation functions simultaneously; we also establish the large‐sample properties such as consistency and asymptotic normality. Simulations confirm the utility of our proposed approach. We use our proposed method to analyze Chinese housing market data and garner some interesting findings.
Résumé
En cas de données fonctionnelles, l'analyse par grappes est souvent réalisée sous l'hypothèse de normalité et se fait généralement sans tenir compte de covariables et sans supervision. Mais en pratique, comme il est fréquent que les données fonctionnelles à l'étude ne soient pas gaussiennes, le recours à un apprentissage non supervisé sans un lien direct entre les covariables et les clusters fournit des résultats difficiles à interpréter. Pour remédier à ces problèmes, les auteurs du présent travail proposent un nouveau modèle de régression fonctionnelle de transformation semi‐paramétrique (STFR) qui permet de regrouper des données fonctionnelles non normales en présence de covariables. Le modèle proposé intègre plusieurs caractéristiques particulières. Premièrement, en omettant l'hypothèse de normalité de la variable réponse fonctionnelle, il rend la modélisation bien plus flexible. Deuxièmement, en permettant aux relations entre les variables réponses fonctionnelles et les covariables de varier d'un cluster à l'autre, il facilite l'interprétation des clusters construits. Troisièmement, contrairement à diverses méthodes concurrentes, l'approche proposée ne fixe pas le nombre de clusters à l'avance mais adopte davantage un choix automatique. La méthode ainsi développée combine les équations d'estimation et la vraisemblance pénalisée pour estimer simultanément le nombre de clusters, les paramètres de régression et les fonctions de transformation. Enfin, en plus d'une étude du comportement asymptotique des estimateurs proposés, dont la convergence et la normalité asymptotiques, les auteurs présentent des simulations et une analyse de données du marché immobilier chinois afin de confirmer les bonnes performances et l'utilité pratique de la méthode proposée.</abstract><cop>Hoboken, USA</cop><pub>John Wiley & Sons, Inc</pub><doi>10.1002/cjs.11680</doi><tpages>20</tpages><orcidid>https://orcid.org/0000-0002-4890-9550</orcidid><oa>free_for_read</oa></addata></record> |
fulltext | fulltext |
identifier | ISSN: 0319-5724 |
ispartof | Canadian journal of statistics, 2022-03, Vol.50 (1), p.221-240 |
issn | 0319-5724 1708-945X |
language | eng |
recordid | cdi_proquest_journals_2633103470 |
source | Access via Wiley Online Library |
subjects | Cluster analysis Clustering Convergence Data analysis Estimation Flexibility functional data Housing Housing market Learning longitudinal data Normality Regression analysis Regression models semiparametric transformation functional regression Simulation Statistical methods supervised learning Transformation Transformations (mathematics) |
title | Cluster analysis with regression of non‐Gaussian functional data on covariates |
url | https://sfx.bib-bvb.de/sfx_tum?ctx_ver=Z39.88-2004&ctx_enc=info:ofi/enc:UTF-8&ctx_tim=2024-12-20T12%3A46%3A31IST&url_ver=Z39.88-2004&url_ctx_fmt=infofi/fmt:kev:mtx:ctx&rfr_id=info:sid/primo.exlibrisgroup.com:primo3-Article-proquest_cross&rft_val_fmt=info:ofi/fmt:kev:mtx:journal&rft.genre=article&rft.atitle=Cluster%20analysis%20with%20regression%20of%20non%E2%80%90Gaussian%20functional%20data%20on%20covariates&rft.jtitle=Canadian%20journal%20of%20statistics&rft.au=Jiang,%20Jiakun&rft.date=2022-03&rft.volume=50&rft.issue=1&rft.spage=221&rft.epage=240&rft.pages=221-240&rft.issn=0319-5724&rft.eissn=1708-945X&rft_id=info:doi/10.1002/cjs.11680&rft_dat=%3Cproquest_cross%3E2633103470%3C/proquest_cross%3E%3Curl%3E%3C/url%3E&disable_directlink=true&sfx.directlink=off&sfx.report_link=0&rft_id=info:oai/&rft_pqid=2633103470&rft_id=info:pmid/&rfr_iscdi=true |