基于稀疏表示的大数据在政府统计工作中应用

针对大数据对政府统计工作影响越来越大的现状,文章提出了一种基于稀疏表示的大数据统计算法框架。首先利用了有放回Bootstrap在数据中的样本和特征上采样形成不同数据子集。用多形态保留相似性方法融合子集中的异构数据,再在融合数据上作数据变换使得数据方便处理和富有信息,最后将变换后数据形成基元字典,基元字典加权构成稀疏表示的字典矩阵。建议算法在加利福尼亚大学机器学习UCI数据库中的Gisette和Internet Advertisements两个数据集进行了大量实验,实验表明,建议算法在数据集都具有最高的分类正确率和最快的运算速度。...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:统计与决策 2015-10 (21), p.71-74
1. Verfasser: 张乾 金升菊 罗玉坤
Format: Artikel
Sprache:chi
Schlagworte:
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:针对大数据对政府统计工作影响越来越大的现状,文章提出了一种基于稀疏表示的大数据统计算法框架。首先利用了有放回Bootstrap在数据中的样本和特征上采样形成不同数据子集。用多形态保留相似性方法融合子集中的异构数据,再在融合数据上作数据变换使得数据方便处理和富有信息,最后将变换后数据形成基元字典,基元字典加权构成稀疏表示的字典矩阵。建议算法在加利福尼亚大学机器学习UCI数据库中的Gisette和Internet Advertisements两个数据集进行了大量实验,实验表明,建议算法在数据集都具有最高的分类正确率和最快的运算速度。
ISSN:1002-6487