基于稀疏表示的大数据在政府统计工作中应用
针对大数据对政府统计工作影响越来越大的现状,文章提出了一种基于稀疏表示的大数据统计算法框架。首先利用了有放回Bootstrap在数据中的样本和特征上采样形成不同数据子集。用多形态保留相似性方法融合子集中的异构数据,再在融合数据上作数据变换使得数据方便处理和富有信息,最后将变换后数据形成基元字典,基元字典加权构成稀疏表示的字典矩阵。建议算法在加利福尼亚大学机器学习UCI数据库中的Gisette和Internet Advertisements两个数据集进行了大量实验,实验表明,建议算法在数据集都具有最高的分类正确率和最快的运算速度。...
Gespeichert in:
Veröffentlicht in: | 统计与决策 2015-10 (21), p.71-74 |
---|---|
1. Verfasser: | |
Format: | Artikel |
Sprache: | chi |
Schlagworte: | |
Online-Zugang: | Volltext |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | 针对大数据对政府统计工作影响越来越大的现状,文章提出了一种基于稀疏表示的大数据统计算法框架。首先利用了有放回Bootstrap在数据中的样本和特征上采样形成不同数据子集。用多形态保留相似性方法融合子集中的异构数据,再在融合数据上作数据变换使得数据方便处理和富有信息,最后将变换后数据形成基元字典,基元字典加权构成稀疏表示的字典矩阵。建议算法在加利福尼亚大学机器学习UCI数据库中的Gisette和Internet Advertisements两个数据集进行了大量实验,实验表明,建议算法在数据集都具有最高的分类正确率和最快的运算速度。 |
---|---|
ISSN: | 1002-6487 |