基于文本分类的政府网站信箱自动转递方法研究
TP39%G35; [目的]为改善政府网站领导信箱传统人工转递方式存在的人力、时间成本较高以及工作人员负担较重等问题,研究网站来信的自动转递方法.[方法]选择较有代表性的分类算法,包括朴素贝叶斯、决策树、随机森林以及多层神经网络,对北京、合肥和深圳的市长信箱文本数据进行对比实验,进而设计一套基于文本分类的政府网站信箱自动转递方法,并给出相应的应用建议.[结果]神经网络算法在市长信箱文本的分类表现最优,宏平均精确度和召回率均达0.85以上,且所有微平均指标均达0.93以上;朴素贝叶斯算法次之;随机森林算法的宏平均精确度很高,但召回率较差;决策树算法的精确度和召回率都较一般.[局限]未能兼顾来信数...
Gespeichert in:
Veröffentlicht in: | 数据分析与知识发现 2020, Vol.4 (6), p.51-59 |
---|---|
Hauptverfasser: | , , , |
Format: | Artikel |
Sprache: | chi |
Online-Zugang: | Volltext |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | TP39%G35; [目的]为改善政府网站领导信箱传统人工转递方式存在的人力、时间成本较高以及工作人员负担较重等问题,研究网站来信的自动转递方法.[方法]选择较有代表性的分类算法,包括朴素贝叶斯、决策树、随机森林以及多层神经网络,对北京、合肥和深圳的市长信箱文本数据进行对比实验,进而设计一套基于文本分类的政府网站信箱自动转递方法,并给出相应的应用建议.[结果]神经网络算法在市长信箱文本的分类表现最优,宏平均精确度和召回率均达0.85以上,且所有微平均指标均达0.93以上;朴素贝叶斯算法次之;随机森林算法的宏平均精确度很高,但召回率较差;决策树算法的精确度和召回率都较一般.[局限]未能兼顾来信数量不均衡对结果的影响,且实验时剔除了数据量过小的部门的来信数据,这在实际应用中可能会存在一定偏差.[结论]本文设计的政府网站信箱自动转递方法能够优化领导信箱运作机制,对提升线上政民互动效率,降低人力及行政成本具有积极意义. |
---|---|
ISSN: | 2096-3467 |
DOI: | 10.11925/infotech.2096-3467.2019.1182 |