Cluster analysis with regression of non‐Gaussian functional data on covariates

Cluster analysis with functional data often imposes normality assumptions on outcomes and is typically carried out without covariates or supervision. However, nonnormal functional data are frequently encountered in practice, and unsupervised learning, without directly tying covariates to clusters, o...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:Canadian journal of statistics 2022-03, Vol.50 (1), p.221-240
Hauptverfasser: Jiang, Jiakun, Lin, Huazhen, Peng, Heng, Fan, Gang‐Zhi, Li, Yi
Format: Artikel
Sprache:eng
Schlagworte:
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
container_end_page 240
container_issue 1
container_start_page 221
container_title Canadian journal of statistics
container_volume 50
creator Jiang, Jiakun
Lin, Huazhen
Peng, Heng
Fan, Gang‐Zhi
Li, Yi
description Cluster analysis with functional data often imposes normality assumptions on outcomes and is typically carried out without covariates or supervision. However, nonnormal functional data are frequently encountered in practice, and unsupervised learning, without directly tying covariates to clusters, often makes the resulting clusters less interpretable. To address these issues, we propose a new semiparametric transformation functional regression model, which enables us to cluster nonnormal functional data in the presence of covariates. Our model incorporates several unique features. First, it omits the normality assumptions on the functional response, which adds more flexibility to the modelling. Second, our model allows clusters to have distinct relationships between functional responses and covariates, and thus makes the clusters formed more interpretable. Third, unlike various competing methods, we allow the number of clusters to be unspecified and data‐driven. We develop a new method, which combines penalized likelihood and estimating equations, to estimate the number of clusters, regression parameters, and transformation functions simultaneously; we also establish the large‐sample properties such as consistency and asymptotic normality. Simulations confirm the utility of our proposed approach. We use our proposed method to analyze Chinese housing market data and garner some interesting findings. Résumé En cas de données fonctionnelles, l'analyse par grappes est souvent réalisée sous l'hypothèse de normalité et se fait généralement sans tenir compte de covariables et sans supervision. Mais en pratique, comme il est fréquent que les données fonctionnelles à l'étude ne soient pas gaussiennes, le recours à un apprentissage non supervisé sans un lien direct entre les covariables et les clusters fournit des résultats difficiles à interpréter. Pour remédier à ces problèmes, les auteurs du présent travail proposent un nouveau modèle de régression fonctionnelle de transformation semi‐paramétrique (STFR) qui permet de regrouper des données fonctionnelles non normales en présence de covariables. Le modèle proposé intègre plusieurs caractéristiques particulières. Premièrement, en omettant l'hypothèse de normalité de la variable réponse fonctionnelle, il rend la modélisation bien plus flexible. Deuxièmement, en permettant aux relations entre les variables réponses fonctionnelles et les covariables de varier d'un cluster à l'autre, il facilite l'interprétation des cl
doi_str_mv 10.1002/cjs.11680
format Article
fullrecord <record><control><sourceid>proquest_cross</sourceid><recordid>TN_cdi_proquest_journals_2633103470</recordid><sourceformat>XML</sourceformat><sourcesystem>PC</sourcesystem><sourcerecordid>2633103470</sourcerecordid><originalsourceid>FETCH-LOGICAL-c3320-b7c9ad07daea9d24c6f38f280e8ae9a648ec991f5f100bc7ccc33559346b37973</originalsourceid><addsrcrecordid>eNp1kMFKxDAQhoMouK4efIOAJw_dnTRt0xyl6KosKKjgLcymiXapjSaty958BJ_RJzFar54GZr5_mPkIOWYwYwDpXK_DjLGihB0yYQLKRGb54y6ZAGcyyUWa7ZODENYAPGcsnZDbqh1CbzzFDtttaALdNP0z9ebJmxAa11Fnaee6r4_PBQ6xgx21Q6f7OMKW1tgjjZB27-gb7E04JHsW22CO_uqUPFyc31eXyfJmcVWdLRPNeQrJSmiJNYgaDco6zXRheWnTEkyJRmKRlUZLyWxu41srLbSOuTyXPCtWXEjBp-Rk3Pvq3dtgQq_WbvDxpqDSgnMGPBMQqdOR0t6F4I1Vr755Qb9VDNSPMBWFqV9hkZ2P7KZpzfZ_UFXXd2PiG3tTblk</addsrcrecordid><sourcetype>Aggregation Database</sourcetype><iscdi>true</iscdi><recordtype>article</recordtype><pqid>2633103470</pqid></control><display><type>article</type><title>Cluster analysis with regression of non‐Gaussian functional data on covariates</title><source>Access via Wiley Online Library</source><creator>Jiang, Jiakun ; Lin, Huazhen ; Peng, Heng ; Fan, Gang‐Zhi ; Li, Yi</creator><creatorcontrib>Jiang, Jiakun ; Lin, Huazhen ; Peng, Heng ; Fan, Gang‐Zhi ; Li, Yi</creatorcontrib><description>Cluster analysis with functional data often imposes normality assumptions on outcomes and is typically carried out without covariates or supervision. However, nonnormal functional data are frequently encountered in practice, and unsupervised learning, without directly tying covariates to clusters, often makes the resulting clusters less interpretable. To address these issues, we propose a new semiparametric transformation functional regression model, which enables us to cluster nonnormal functional data in the presence of covariates. Our model incorporates several unique features. First, it omits the normality assumptions on the functional response, which adds more flexibility to the modelling. Second, our model allows clusters to have distinct relationships between functional responses and covariates, and thus makes the clusters formed more interpretable. Third, unlike various competing methods, we allow the number of clusters to be unspecified and data‐driven. We develop a new method, which combines penalized likelihood and estimating equations, to estimate the number of clusters, regression parameters, and transformation functions simultaneously; we also establish the large‐sample properties such as consistency and asymptotic normality. Simulations confirm the utility of our proposed approach. We use our proposed method to analyze Chinese housing market data and garner some interesting findings. Résumé En cas de données fonctionnelles, l'analyse par grappes est souvent réalisée sous l'hypothèse de normalité et se fait généralement sans tenir compte de covariables et sans supervision. Mais en pratique, comme il est fréquent que les données fonctionnelles à l'étude ne soient pas gaussiennes, le recours à un apprentissage non supervisé sans un lien direct entre les covariables et les clusters fournit des résultats difficiles à interpréter. Pour remédier à ces problèmes, les auteurs du présent travail proposent un nouveau modèle de régression fonctionnelle de transformation semi‐paramétrique (STFR) qui permet de regrouper des données fonctionnelles non normales en présence de covariables. Le modèle proposé intègre plusieurs caractéristiques particulières. Premièrement, en omettant l'hypothèse de normalité de la variable réponse fonctionnelle, il rend la modélisation bien plus flexible. Deuxièmement, en permettant aux relations entre les variables réponses fonctionnelles et les covariables de varier d'un cluster à l'autre, il facilite l'interprétation des clusters construits. Troisièmement, contrairement à diverses méthodes concurrentes, l'approche proposée ne fixe pas le nombre de clusters à l'avance mais adopte davantage un choix automatique. La méthode ainsi développée combine les équations d'estimation et la vraisemblance pénalisée pour estimer simultanément le nombre de clusters, les paramètres de régression et les fonctions de transformation. Enfin, en plus d'une étude du comportement asymptotique des estimateurs proposés, dont la convergence et la normalité asymptotiques, les auteurs présentent des simulations et une analyse de données du marché immobilier chinois afin de confirmer les bonnes performances et l'utilité pratique de la méthode proposée.</description><identifier>ISSN: 0319-5724</identifier><identifier>EISSN: 1708-945X</identifier><identifier>DOI: 10.1002/cjs.11680</identifier><language>eng</language><publisher>Hoboken, USA: John Wiley &amp; Sons, Inc</publisher><subject>Cluster analysis ; Clustering ; Convergence ; Data analysis ; Estimation ; Flexibility ; functional data ; Housing ; Housing market ; Learning ; longitudinal data ; Normality ; Regression analysis ; Regression models ; semiparametric transformation functional regression ; Simulation ; Statistical methods ; supervised learning ; Transformation ; Transformations (mathematics)</subject><ispartof>Canadian journal of statistics, 2022-03, Vol.50 (1), p.221-240</ispartof><rights>2021 Statistical Society of Canada</rights><rights>2022 Statistical Society of Canada</rights><lds50>peer_reviewed</lds50><oa>free_for_read</oa><woscitedreferencessubscribed>false</woscitedreferencessubscribed><citedby>FETCH-LOGICAL-c3320-b7c9ad07daea9d24c6f38f280e8ae9a648ec991f5f100bc7ccc33559346b37973</citedby><cites>FETCH-LOGICAL-c3320-b7c9ad07daea9d24c6f38f280e8ae9a648ec991f5f100bc7ccc33559346b37973</cites><orcidid>0000-0002-4890-9550</orcidid></display><links><openurl>$$Topenurl_article</openurl><openurlfulltext>$$Topenurlfull_article</openurlfulltext><thumbnail>$$Tsyndetics_thumb_exl</thumbnail><linktopdf>$$Uhttps://onlinelibrary.wiley.com/doi/pdf/10.1002%2Fcjs.11680$$EPDF$$P50$$Gwiley$$H</linktopdf><linktohtml>$$Uhttps://onlinelibrary.wiley.com/doi/full/10.1002%2Fcjs.11680$$EHTML$$P50$$Gwiley$$H</linktohtml><link.rule.ids>314,780,784,1417,27924,27925,45574,45575</link.rule.ids></links><search><creatorcontrib>Jiang, Jiakun</creatorcontrib><creatorcontrib>Lin, Huazhen</creatorcontrib><creatorcontrib>Peng, Heng</creatorcontrib><creatorcontrib>Fan, Gang‐Zhi</creatorcontrib><creatorcontrib>Li, Yi</creatorcontrib><title>Cluster analysis with regression of non‐Gaussian functional data on covariates</title><title>Canadian journal of statistics</title><description>Cluster analysis with functional data often imposes normality assumptions on outcomes and is typically carried out without covariates or supervision. However, nonnormal functional data are frequently encountered in practice, and unsupervised learning, without directly tying covariates to clusters, often makes the resulting clusters less interpretable. To address these issues, we propose a new semiparametric transformation functional regression model, which enables us to cluster nonnormal functional data in the presence of covariates. Our model incorporates several unique features. First, it omits the normality assumptions on the functional response, which adds more flexibility to the modelling. Second, our model allows clusters to have distinct relationships between functional responses and covariates, and thus makes the clusters formed more interpretable. Third, unlike various competing methods, we allow the number of clusters to be unspecified and data‐driven. We develop a new method, which combines penalized likelihood and estimating equations, to estimate the number of clusters, regression parameters, and transformation functions simultaneously; we also establish the large‐sample properties such as consistency and asymptotic normality. Simulations confirm the utility of our proposed approach. We use our proposed method to analyze Chinese housing market data and garner some interesting findings. Résumé En cas de données fonctionnelles, l'analyse par grappes est souvent réalisée sous l'hypothèse de normalité et se fait généralement sans tenir compte de covariables et sans supervision. Mais en pratique, comme il est fréquent que les données fonctionnelles à l'étude ne soient pas gaussiennes, le recours à un apprentissage non supervisé sans un lien direct entre les covariables et les clusters fournit des résultats difficiles à interpréter. Pour remédier à ces problèmes, les auteurs du présent travail proposent un nouveau modèle de régression fonctionnelle de transformation semi‐paramétrique (STFR) qui permet de regrouper des données fonctionnelles non normales en présence de covariables. Le modèle proposé intègre plusieurs caractéristiques particulières. Premièrement, en omettant l'hypothèse de normalité de la variable réponse fonctionnelle, il rend la modélisation bien plus flexible. Deuxièmement, en permettant aux relations entre les variables réponses fonctionnelles et les covariables de varier d'un cluster à l'autre, il facilite l'interprétation des clusters construits. Troisièmement, contrairement à diverses méthodes concurrentes, l'approche proposée ne fixe pas le nombre de clusters à l'avance mais adopte davantage un choix automatique. La méthode ainsi développée combine les équations d'estimation et la vraisemblance pénalisée pour estimer simultanément le nombre de clusters, les paramètres de régression et les fonctions de transformation. Enfin, en plus d'une étude du comportement asymptotique des estimateurs proposés, dont la convergence et la normalité asymptotiques, les auteurs présentent des simulations et une analyse de données du marché immobilier chinois afin de confirmer les bonnes performances et l'utilité pratique de la méthode proposée.</description><subject>Cluster analysis</subject><subject>Clustering</subject><subject>Convergence</subject><subject>Data analysis</subject><subject>Estimation</subject><subject>Flexibility</subject><subject>functional data</subject><subject>Housing</subject><subject>Housing market</subject><subject>Learning</subject><subject>longitudinal data</subject><subject>Normality</subject><subject>Regression analysis</subject><subject>Regression models</subject><subject>semiparametric transformation functional regression</subject><subject>Simulation</subject><subject>Statistical methods</subject><subject>supervised learning</subject><subject>Transformation</subject><subject>Transformations (mathematics)</subject><issn>0319-5724</issn><issn>1708-945X</issn><fulltext>true</fulltext><rsrctype>article</rsrctype><creationdate>2022</creationdate><recordtype>article</recordtype><recordid>eNp1kMFKxDAQhoMouK4efIOAJw_dnTRt0xyl6KosKKjgLcymiXapjSaty958BJ_RJzFar54GZr5_mPkIOWYwYwDpXK_DjLGihB0yYQLKRGb54y6ZAGcyyUWa7ZODENYAPGcsnZDbqh1CbzzFDtttaALdNP0z9ebJmxAa11Fnaee6r4_PBQ6xgx21Q6f7OMKW1tgjjZB27-gb7E04JHsW22CO_uqUPFyc31eXyfJmcVWdLRPNeQrJSmiJNYgaDco6zXRheWnTEkyJRmKRlUZLyWxu41srLbSOuTyXPCtWXEjBp-Rk3Pvq3dtgQq_WbvDxpqDSgnMGPBMQqdOR0t6F4I1Vr755Qb9VDNSPMBWFqV9hkZ2P7KZpzfZ_UFXXd2PiG3tTblk</recordid><startdate>202203</startdate><enddate>202203</enddate><creator>Jiang, Jiakun</creator><creator>Lin, Huazhen</creator><creator>Peng, Heng</creator><creator>Fan, Gang‐Zhi</creator><creator>Li, Yi</creator><general>John Wiley &amp; Sons, Inc</general><general>Wiley Subscription Services, Inc</general><scope>AAYXX</scope><scope>CITATION</scope><scope>7SC</scope><scope>8BJ</scope><scope>8FD</scope><scope>FQK</scope><scope>H8D</scope><scope>JBE</scope><scope>JQ2</scope><scope>L7M</scope><scope>L~C</scope><scope>L~D</scope><orcidid>https://orcid.org/0000-0002-4890-9550</orcidid></search><sort><creationdate>202203</creationdate><title>Cluster analysis with regression of non‐Gaussian functional data on covariates</title><author>Jiang, Jiakun ; Lin, Huazhen ; Peng, Heng ; Fan, Gang‐Zhi ; Li, Yi</author></sort><facets><frbrtype>5</frbrtype><frbrgroupid>cdi_FETCH-LOGICAL-c3320-b7c9ad07daea9d24c6f38f280e8ae9a648ec991f5f100bc7ccc33559346b37973</frbrgroupid><rsrctype>articles</rsrctype><prefilter>articles</prefilter><language>eng</language><creationdate>2022</creationdate><topic>Cluster analysis</topic><topic>Clustering</topic><topic>Convergence</topic><topic>Data analysis</topic><topic>Estimation</topic><topic>Flexibility</topic><topic>functional data</topic><topic>Housing</topic><topic>Housing market</topic><topic>Learning</topic><topic>longitudinal data</topic><topic>Normality</topic><topic>Regression analysis</topic><topic>Regression models</topic><topic>semiparametric transformation functional regression</topic><topic>Simulation</topic><topic>Statistical methods</topic><topic>supervised learning</topic><topic>Transformation</topic><topic>Transformations (mathematics)</topic><toplevel>peer_reviewed</toplevel><toplevel>online_resources</toplevel><creatorcontrib>Jiang, Jiakun</creatorcontrib><creatorcontrib>Lin, Huazhen</creatorcontrib><creatorcontrib>Peng, Heng</creatorcontrib><creatorcontrib>Fan, Gang‐Zhi</creatorcontrib><creatorcontrib>Li, Yi</creatorcontrib><collection>CrossRef</collection><collection>Computer and Information Systems Abstracts</collection><collection>International Bibliography of the Social Sciences (IBSS)</collection><collection>Technology Research Database</collection><collection>International Bibliography of the Social Sciences</collection><collection>Aerospace Database</collection><collection>International Bibliography of the Social Sciences</collection><collection>ProQuest Computer Science Collection</collection><collection>Advanced Technologies Database with Aerospace</collection><collection>Computer and Information Systems Abstracts – Academic</collection><collection>Computer and Information Systems Abstracts Professional</collection><jtitle>Canadian journal of statistics</jtitle></facets><delivery><delcategory>Remote Search Resource</delcategory><fulltext>fulltext</fulltext></delivery><addata><au>Jiang, Jiakun</au><au>Lin, Huazhen</au><au>Peng, Heng</au><au>Fan, Gang‐Zhi</au><au>Li, Yi</au><format>journal</format><genre>article</genre><ristype>JOUR</ristype><atitle>Cluster analysis with regression of non‐Gaussian functional data on covariates</atitle><jtitle>Canadian journal of statistics</jtitle><date>2022-03</date><risdate>2022</risdate><volume>50</volume><issue>1</issue><spage>221</spage><epage>240</epage><pages>221-240</pages><issn>0319-5724</issn><eissn>1708-945X</eissn><abstract>Cluster analysis with functional data often imposes normality assumptions on outcomes and is typically carried out without covariates or supervision. However, nonnormal functional data are frequently encountered in practice, and unsupervised learning, without directly tying covariates to clusters, often makes the resulting clusters less interpretable. To address these issues, we propose a new semiparametric transformation functional regression model, which enables us to cluster nonnormal functional data in the presence of covariates. Our model incorporates several unique features. First, it omits the normality assumptions on the functional response, which adds more flexibility to the modelling. Second, our model allows clusters to have distinct relationships between functional responses and covariates, and thus makes the clusters formed more interpretable. Third, unlike various competing methods, we allow the number of clusters to be unspecified and data‐driven. We develop a new method, which combines penalized likelihood and estimating equations, to estimate the number of clusters, regression parameters, and transformation functions simultaneously; we also establish the large‐sample properties such as consistency and asymptotic normality. Simulations confirm the utility of our proposed approach. We use our proposed method to analyze Chinese housing market data and garner some interesting findings. Résumé En cas de données fonctionnelles, l'analyse par grappes est souvent réalisée sous l'hypothèse de normalité et se fait généralement sans tenir compte de covariables et sans supervision. Mais en pratique, comme il est fréquent que les données fonctionnelles à l'étude ne soient pas gaussiennes, le recours à un apprentissage non supervisé sans un lien direct entre les covariables et les clusters fournit des résultats difficiles à interpréter. Pour remédier à ces problèmes, les auteurs du présent travail proposent un nouveau modèle de régression fonctionnelle de transformation semi‐paramétrique (STFR) qui permet de regrouper des données fonctionnelles non normales en présence de covariables. Le modèle proposé intègre plusieurs caractéristiques particulières. Premièrement, en omettant l'hypothèse de normalité de la variable réponse fonctionnelle, il rend la modélisation bien plus flexible. Deuxièmement, en permettant aux relations entre les variables réponses fonctionnelles et les covariables de varier d'un cluster à l'autre, il facilite l'interprétation des clusters construits. Troisièmement, contrairement à diverses méthodes concurrentes, l'approche proposée ne fixe pas le nombre de clusters à l'avance mais adopte davantage un choix automatique. La méthode ainsi développée combine les équations d'estimation et la vraisemblance pénalisée pour estimer simultanément le nombre de clusters, les paramètres de régression et les fonctions de transformation. Enfin, en plus d'une étude du comportement asymptotique des estimateurs proposés, dont la convergence et la normalité asymptotiques, les auteurs présentent des simulations et une analyse de données du marché immobilier chinois afin de confirmer les bonnes performances et l'utilité pratique de la méthode proposée.</abstract><cop>Hoboken, USA</cop><pub>John Wiley &amp; Sons, Inc</pub><doi>10.1002/cjs.11680</doi><tpages>20</tpages><orcidid>https://orcid.org/0000-0002-4890-9550</orcidid><oa>free_for_read</oa></addata></record>
fulltext fulltext
identifier ISSN: 0319-5724
ispartof Canadian journal of statistics, 2022-03, Vol.50 (1), p.221-240
issn 0319-5724
1708-945X
language eng
recordid cdi_proquest_journals_2633103470
source Access via Wiley Online Library
subjects Cluster analysis
Clustering
Convergence
Data analysis
Estimation
Flexibility
functional data
Housing
Housing market
Learning
longitudinal data
Normality
Regression analysis
Regression models
semiparametric transformation functional regression
Simulation
Statistical methods
supervised learning
Transformation
Transformations (mathematics)
title Cluster analysis with regression of non‐Gaussian functional data on covariates
url https://sfx.bib-bvb.de/sfx_tum?ctx_ver=Z39.88-2004&ctx_enc=info:ofi/enc:UTF-8&ctx_tim=2024-12-20T12%3A46%3A31IST&url_ver=Z39.88-2004&url_ctx_fmt=infofi/fmt:kev:mtx:ctx&rfr_id=info:sid/primo.exlibrisgroup.com:primo3-Article-proquest_cross&rft_val_fmt=info:ofi/fmt:kev:mtx:journal&rft.genre=article&rft.atitle=Cluster%20analysis%20with%20regression%20of%20non%E2%80%90Gaussian%20functional%20data%20on%20covariates&rft.jtitle=Canadian%20journal%20of%20statistics&rft.au=Jiang,%20Jiakun&rft.date=2022-03&rft.volume=50&rft.issue=1&rft.spage=221&rft.epage=240&rft.pages=221-240&rft.issn=0319-5724&rft.eissn=1708-945X&rft_id=info:doi/10.1002/cjs.11680&rft_dat=%3Cproquest_cross%3E2633103470%3C/proquest_cross%3E%3Curl%3E%3C/url%3E&disable_directlink=true&sfx.directlink=off&sfx.report_link=0&rft_id=info:oai/&rft_pqid=2633103470&rft_id=info:pmid/&rfr_iscdi=true