基于文本挖掘的海外矿产资源开发项目动态风险评价特征选择算法研究

风险分析是海外矿产资源开发项目成败的关键。已有研究显示不断迅速更新的、含大量信息的文本数据,可以通过文本分类动态评价海外矿业投资项目风险。文本分类作为文本挖掘的重要应用,其能否取得较好的分类效果,对特征集进行降维处理成为关键环节。在研究常用特征选择方法的基础上,利用词频及特征项的类别分布信息,改进原有的频度、类间集中度、类内分散度3个指标,提出新的特征选择方法TFTD。实验采用朴素贝叶斯、KNN、SVM分类器,并将信息增益(IG)、χ2统计量(CHI)、文档频率(DF)、基尼指数(Gini index)与TFTD方法进行比较,结果表明TFTD的特征降维处理可以在分类器上获得较好的分类效果。...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:科技进步与对策 2014-05, Vol.31 (11), p.81-86
1. Verfasser: 胡东滨 李雪 徐丽华
Format: Artikel
Sprache:chi
Schlagworte:
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:风险分析是海外矿产资源开发项目成败的关键。已有研究显示不断迅速更新的、含大量信息的文本数据,可以通过文本分类动态评价海外矿业投资项目风险。文本分类作为文本挖掘的重要应用,其能否取得较好的分类效果,对特征集进行降维处理成为关键环节。在研究常用特征选择方法的基础上,利用词频及特征项的类别分布信息,改进原有的频度、类间集中度、类内分散度3个指标,提出新的特征选择方法TFTD。实验采用朴素贝叶斯、KNN、SVM分类器,并将信息增益(IG)、χ2统计量(CHI)、文档频率(DF)、基尼指数(Gini index)与TFTD方法进行比较,结果表明TFTD的特征降维处理可以在分类器上获得较好的分类效果。
ISSN:1001-7348
DOI:10.6049/kjjbydc.2014GC0208