基于Spark的舆情情感大数据分析集成方法
TP391; 随着移动互联技术的不断发展,社交媒体成为了公众分享观点和抒发情感的主要平台,在重大社会事件下对社交媒体文本进行情感分析能够有效监控舆情.针对现有中文社交媒体情感分析算法的准确性能和运行效率较低的问题,提出了一种基于Spark分布式系统的集成情感大数据分析方法(Spark Feature Weighted Stacking,S-FWS).该方法首先基于Jieba库预分词和PMI关联度完成新词发现;然后考虑词语重要度混合提取文本特征,并使用Lasso进行特征选择;最后改进传统Stacking框架忽略特征重要度的缺点,使用初级学习器的准确率信息对类概率特征进行加权处理并构造多项式特征,...
Gespeichert in:
Veröffentlicht in: | 计算机科学 2021, Vol.48 (9), p.118-124 |
---|---|
Hauptverfasser: | , , , |
Format: | Artikel |
Sprache: | chi |
Online-Zugang: | Volltext |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
container_end_page | 124 |
---|---|
container_issue | 9 |
container_start_page | 118 |
container_title | 计算机科学 |
container_volume | 48 |
creator | 戴宏亮 钟国金 游志铭 戴宏明 |
description | TP391; 随着移动互联技术的不断发展,社交媒体成为了公众分享观点和抒发情感的主要平台,在重大社会事件下对社交媒体文本进行情感分析能够有效监控舆情.针对现有中文社交媒体情感分析算法的准确性能和运行效率较低的问题,提出了一种基于Spark分布式系统的集成情感大数据分析方法(Spark Feature Weighted Stacking,S-FWS).该方法首先基于Jieba库预分词和PMI关联度完成新词发现;然后考虑词语重要度混合提取文本特征,并使用Lasso进行特征选择;最后改进传统Stacking框架忽略特征重要度的缺点,使用初级学习器的准确率信息对类概率特征进行加权处理并构造多项式特征,进而训练次级学习器.分别在单机模式和Spark平台下引入多种算法进行对比实验,实验结果证明所提S-FWS方法的准确性能和耗时性能具备一定优势,并且分布式系统能够大幅提高算法的运行效率,同时随着集群工作节点的增加,算法耗时逐渐降低. |
doi_str_mv | 10.11896/jsjkx.210400280 |
format | Article |
fullrecord | <record><control><sourceid>wanfang_jour</sourceid><recordid>TN_cdi_wanfang_journals_jsjkx202109015</recordid><sourceformat>XML</sourceformat><sourcesystem>PC</sourcesystem><wanfj_id>jsjkx202109015</wanfj_id><sourcerecordid>jsjkx202109015</sourcerecordid><originalsourceid>FETCH-wanfang_journals_jsjkx2021090153</originalsourceid><addsrcrecordid>eNpjYJAwNNAzNLSwNNPPKs7KrtAzMjQwMTAwsjBgYeA0BDJ0DY3NIzgYeIuLM5MMjIzNTIDQkJPB9On8XU929QUXJBZlP5_V8qKj7VlzKwi1zH-6ZPmzqRue9a57ChScN-Hl7LZnHROeTdv5bPNUHgbWtMSc4lReKM3NoObmGuLsoVuemJeWmJcen5VfWpQHlIkHO8bIAOgaSwNDU2OiFQIAE-hNHQ</addsrcrecordid><sourcetype>Aggregation Database</sourcetype><iscdi>true</iscdi><recordtype>article</recordtype></control><display><type>article</type><title>基于Spark的舆情情感大数据分析集成方法</title><source>DOAJ Directory of Open Access Journals</source><creator>戴宏亮 ; 钟国金 ; 游志铭 ; 戴宏明</creator><creatorcontrib>戴宏亮 ; 钟国金 ; 游志铭 ; 戴宏明</creatorcontrib><description>TP391; 随着移动互联技术的不断发展,社交媒体成为了公众分享观点和抒发情感的主要平台,在重大社会事件下对社交媒体文本进行情感分析能够有效监控舆情.针对现有中文社交媒体情感分析算法的准确性能和运行效率较低的问题,提出了一种基于Spark分布式系统的集成情感大数据分析方法(Spark Feature Weighted Stacking,S-FWS).该方法首先基于Jieba库预分词和PMI关联度完成新词发现;然后考虑词语重要度混合提取文本特征,并使用Lasso进行特征选择;最后改进传统Stacking框架忽略特征重要度的缺点,使用初级学习器的准确率信息对类概率特征进行加权处理并构造多项式特征,进而训练次级学习器.分别在单机模式和Spark平台下引入多种算法进行对比实验,实验结果证明所提S-FWS方法的准确性能和耗时性能具备一定优势,并且分布式系统能够大幅提高算法的运行效率,同时随着集群工作节点的增加,算法耗时逐渐降低.</description><identifier>ISSN: 1002-137X</identifier><identifier>DOI: 10.11896/jsjkx.210400280</identifier><language>chi</language><publisher>广州大学经济与统计学院 广州 510006%华南理工大学软件学院 广州 510006</publisher><ispartof>计算机科学, 2021, Vol.48 (9), p.118-124</ispartof><rights>Copyright © Wanfang Data Co. Ltd. All Rights Reserved.</rights><woscitedreferencessubscribed>false</woscitedreferencessubscribed></display><links><openurl>$$Topenurl_article</openurl><openurlfulltext>$$Topenurlfull_article</openurlfulltext><thumbnail>$$Uhttp://www.wanfangdata.com.cn/images/PeriodicalImages/jsjkx/jsjkx.jpg</thumbnail><link.rule.ids>314,776,780,860,4009,27902,27903,27904</link.rule.ids></links><search><creatorcontrib>戴宏亮</creatorcontrib><creatorcontrib>钟国金</creatorcontrib><creatorcontrib>游志铭</creatorcontrib><creatorcontrib>戴宏明</creatorcontrib><title>基于Spark的舆情情感大数据分析集成方法</title><title>计算机科学</title><description>TP391; 随着移动互联技术的不断发展,社交媒体成为了公众分享观点和抒发情感的主要平台,在重大社会事件下对社交媒体文本进行情感分析能够有效监控舆情.针对现有中文社交媒体情感分析算法的准确性能和运行效率较低的问题,提出了一种基于Spark分布式系统的集成情感大数据分析方法(Spark Feature Weighted Stacking,S-FWS).该方法首先基于Jieba库预分词和PMI关联度完成新词发现;然后考虑词语重要度混合提取文本特征,并使用Lasso进行特征选择;最后改进传统Stacking框架忽略特征重要度的缺点,使用初级学习器的准确率信息对类概率特征进行加权处理并构造多项式特征,进而训练次级学习器.分别在单机模式和Spark平台下引入多种算法进行对比实验,实验结果证明所提S-FWS方法的准确性能和耗时性能具备一定优势,并且分布式系统能够大幅提高算法的运行效率,同时随着集群工作节点的增加,算法耗时逐渐降低.</description><issn>1002-137X</issn><fulltext>true</fulltext><rsrctype>article</rsrctype><creationdate>2021</creationdate><recordtype>article</recordtype><recordid>eNpjYJAwNNAzNLSwNNPPKs7KrtAzMjQwMTAwsjBgYeA0BDJ0DY3NIzgYeIuLM5MMjIzNTIDQkJPB9On8XU929QUXJBZlP5_V8qKj7VlzKwi1zH-6ZPmzqRue9a57ChScN-Hl7LZnHROeTdv5bPNUHgbWtMSc4lReKM3NoObmGuLsoVuemJeWmJcen5VfWpQHlIkHO8bIAOgaSwNDU2OiFQIAE-hNHQ</recordid><startdate>2021</startdate><enddate>2021</enddate><creator>戴宏亮</creator><creator>钟国金</creator><creator>游志铭</creator><creator>戴宏明</creator><general>广州大学经济与统计学院 广州 510006%华南理工大学软件学院 广州 510006</general><scope>2B.</scope><scope>4A8</scope><scope>92I</scope><scope>93N</scope><scope>PSX</scope><scope>TCJ</scope></search><sort><creationdate>2021</creationdate><title>基于Spark的舆情情感大数据分析集成方法</title><author>戴宏亮 ; 钟国金 ; 游志铭 ; 戴宏明</author></sort><facets><frbrtype>5</frbrtype><frbrgroupid>cdi_FETCH-wanfang_journals_jsjkx2021090153</frbrgroupid><rsrctype>articles</rsrctype><prefilter>articles</prefilter><language>chi</language><creationdate>2021</creationdate><toplevel>online_resources</toplevel><creatorcontrib>戴宏亮</creatorcontrib><creatorcontrib>钟国金</creatorcontrib><creatorcontrib>游志铭</creatorcontrib><creatorcontrib>戴宏明</creatorcontrib><collection>Wanfang Data Journals - Hong Kong</collection><collection>WANFANG Data Centre</collection><collection>Wanfang Data Journals</collection><collection>万方数据期刊 - 香港版</collection><collection>China Online Journals (COJ)</collection><collection>China Online Journals (COJ)</collection><jtitle>计算机科学</jtitle></facets><delivery><delcategory>Remote Search Resource</delcategory><fulltext>fulltext</fulltext></delivery><addata><au>戴宏亮</au><au>钟国金</au><au>游志铭</au><au>戴宏明</au><format>journal</format><genre>article</genre><ristype>JOUR</ristype><atitle>基于Spark的舆情情感大数据分析集成方法</atitle><jtitle>计算机科学</jtitle><date>2021</date><risdate>2021</risdate><volume>48</volume><issue>9</issue><spage>118</spage><epage>124</epage><pages>118-124</pages><issn>1002-137X</issn><abstract>TP391; 随着移动互联技术的不断发展,社交媒体成为了公众分享观点和抒发情感的主要平台,在重大社会事件下对社交媒体文本进行情感分析能够有效监控舆情.针对现有中文社交媒体情感分析算法的准确性能和运行效率较低的问题,提出了一种基于Spark分布式系统的集成情感大数据分析方法(Spark Feature Weighted Stacking,S-FWS).该方法首先基于Jieba库预分词和PMI关联度完成新词发现;然后考虑词语重要度混合提取文本特征,并使用Lasso进行特征选择;最后改进传统Stacking框架忽略特征重要度的缺点,使用初级学习器的准确率信息对类概率特征进行加权处理并构造多项式特征,进而训练次级学习器.分别在单机模式和Spark平台下引入多种算法进行对比实验,实验结果证明所提S-FWS方法的准确性能和耗时性能具备一定优势,并且分布式系统能够大幅提高算法的运行效率,同时随着集群工作节点的增加,算法耗时逐渐降低.</abstract><pub>广州大学经济与统计学院 广州 510006%华南理工大学软件学院 广州 510006</pub><doi>10.11896/jsjkx.210400280</doi></addata></record> |
fulltext | fulltext |
identifier | ISSN: 1002-137X |
ispartof | 计算机科学, 2021, Vol.48 (9), p.118-124 |
issn | 1002-137X |
language | chi |
recordid | cdi_wanfang_journals_jsjkx202109015 |
source | DOAJ Directory of Open Access Journals |
title | 基于Spark的舆情情感大数据分析集成方法 |
url | https://sfx.bib-bvb.de/sfx_tum?ctx_ver=Z39.88-2004&ctx_enc=info:ofi/enc:UTF-8&ctx_tim=2025-01-24T14%3A28%3A41IST&url_ver=Z39.88-2004&url_ctx_fmt=infofi/fmt:kev:mtx:ctx&rfr_id=info:sid/primo.exlibrisgroup.com:primo3-Article-wanfang_jour&rft_val_fmt=info:ofi/fmt:kev:mtx:journal&rft.genre=article&rft.atitle=%E5%9F%BA%E4%BA%8ESpark%E7%9A%84%E8%88%86%E6%83%85%E6%83%85%E6%84%9F%E5%A4%A7%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90%E9%9B%86%E6%88%90%E6%96%B9%E6%B3%95&rft.jtitle=%E8%AE%A1%E7%AE%97%E6%9C%BA%E7%A7%91%E5%AD%A6&rft.au=%E6%88%B4%E5%AE%8F%E4%BA%AE&rft.date=2021&rft.volume=48&rft.issue=9&rft.spage=118&rft.epage=124&rft.pages=118-124&rft.issn=1002-137X&rft_id=info:doi/10.11896/jsjkx.210400280&rft_dat=%3Cwanfang_jour%3Ejsjkx202109015%3C/wanfang_jour%3E%3Curl%3E%3C/url%3E&disable_directlink=true&sfx.directlink=off&sfx.report_link=0&rft_id=info:oai/&rft_id=info:pmid/&rft_wanfj_id=jsjkx202109015&rfr_iscdi=true |