Imputação de dados climáticos utilizando a decomposição por valores singulares: uma comparação empírica
Um problema comum em dados climáticos é a informação ausente. Recentemente, foram desenvolvidos quatro métodos de imputação que têm como base a decomposição por valores singulares de uma matriz (DVS). O objetivo deste artigo é avaliar os novos desenvolvimentos fazendo uma comparação por meio de um e...
Gespeichert in:
Veröffentlicht in: | Revista brasileira de meteorologia 2014-12, Vol.29 (4), p.527-536 |
---|---|
Hauptverfasser: | , , |
Format: | Artikel |
Sprache: | eng |
Online-Zugang: | Volltext |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | Um problema comum em dados climáticos é a informação ausente. Recentemente, foram desenvolvidos quatro métodos de imputação que têm como base a decomposição por valores singulares de uma matriz (DVS). O objetivo deste artigo é avaliar os novos desenvolvimentos fazendo uma comparação por meio de um estudo de simulação baseado em duas matrizes completas de dados reais. Uma matriz corresponde à precipitação histórica de Piracicaba/SP - Brasil, enquanto a outra matriz corresponde às características meteorológicas multivariadas na mesma cidade desde o ano 1997 até 2012. No estudo foram feitas retiradas aleatórias de diferentes porcentagens com posterior imputação, comparando as metodologias através de três critérios: a raiz quadrada normalizada do erro quadrático médio, a estatística de similaridade de Procrustes e o coeficiente de correlação não paramétrico de Spearman. Concluiu-se que a DVS deve ser utilizada unicamente quando sejam analisadas matrizes multivariadas e, no caso de matrizes de precipitação, a imputação pela média mensal supera o desempenho de métodos baseados na DVS.
A common problem in climate data is missing information. Recently, four methods have been developed which are based in the singular value decomposition of a matrix (SVD). The aim of this paper is to evaluate these new developments making a comparison by means of a simulation study based on two complete matrices of real data. One corresponds to the historical precipitation of Piracicaba / SP - Brazil and the other matrix corresponds to multivariate meteorological characteristics in the same city from year 1997 to 2012. In the study, values were deleted randomly at different percentages with subsequent imputation, comparing the methodologies by three criteria: the normalized root mean squared error, the similarity statistic of Procrustes and the Spearman correlation coefficient. It was concluded that the SVD should be used only when multivariate matrices are analyzed and when matrices of precipitation are used, the monthly mean overcome the performance of other methods based on the SVD. |
---|---|
ISSN: | 0102-7786 0102-7786 |
DOI: | 10.1590/0102-778620130005 |