基于Doc2Vec增强特征的长文本主题聚类研究

TP391; 针对新闻长文本语义表征的难点,基于Doc2Vec文档嵌入和词向量加权方式构建增强的特征表示.利用DV-sim方法和DV-tfidf方法从文档首尾部分特定词性的内容中提取增强特征,再分别与Doc2Vec文档向量组合,形成新的全局表征.DV-sim从语义角度,采用特征词与Doc2Vec向量的相似度获得词权重;DV-tfidf从词频统计角度,采用词频-逆文档频率方式获得词权重,然后利用HDBSCAN算法在THUCNews和Sogou数据集上进行主题聚类.相比直接应用Doc2 Vec向量,DV-sim在两个数据集上的噪声数分别减少60.82%和60.63%,准确率提高12.14%和20....

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:计算机科学 2023, Vol.50 (z1), p.211-216
1. Verfasser: 陈洁
Format: Artikel
Sprache:chi
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
container_end_page 216
container_issue z1
container_start_page 211
container_title 计算机科学
container_volume 50
creator 陈洁
description TP391; 针对新闻长文本语义表征的难点,基于Doc2Vec文档嵌入和词向量加权方式构建增强的特征表示.利用DV-sim方法和DV-tfidf方法从文档首尾部分特定词性的内容中提取增强特征,再分别与Doc2Vec文档向量组合,形成新的全局表征.DV-sim从语义角度,采用特征词与Doc2Vec向量的相似度获得词权重;DV-tfidf从词频统计角度,采用词频-逆文档频率方式获得词权重,然后利用HDBSCAN算法在THUCNews和Sogou数据集上进行主题聚类.相比直接应用Doc2 Vec向量,DV-sim在两个数据集上的噪声数分别减少60.82%和60.63%,准确率提高12.14%和20.58%,F1-Score值提高15.61%和11.58%;DV-tfifd在两个数据集上的噪声数分别减少15.20%和59.55%,准确率提高10.85%和17.93%,F1-Score值提高15.60%和9.21%.实验结果表明,DV-sim和DV-tfidf都可以提高主题聚类性能,且基于语义的增强特征比基于词频的效果更好,DV-sim在优秀女性人物报道的主题聚类上也得到了有效应用.
doi_str_mv 10.11896/jsjkx.220800192
format Article
fullrecord <record><control><sourceid>wanfang_jour</sourceid><recordid>TN_cdi_wanfang_journals_jsjkx2023z1031</recordid><sourceformat>XML</sourceformat><sourcesystem>PC</sourcesystem><wanfj_id>jsjkx2023z1031</wanfj_id><sourcerecordid>jsjkx2023z1031</sourcerecordid><originalsourceid>FETCH-wanfang_journals_jsjkx2023z10313</originalsourceid><addsrcrecordid>eNpjYJAwNNAzNLSwNNPPKs7KrtAzMjKwMDAwtDRiYeA0NDAw0jU0No_gYOAtLs5MMjAyNjMBQkNOBvOn83c92dXnkp9sFJaa_HTRvKd7dj3v3Pl0X-PzWS0vp-5_Nq392Zw1T3bsfrloxovGWc837n6-YMrzldt4GFjTEnOKU3mhNDeDmptriLOHbnliXlpiXnp8Vn5pUR5QJh7sHCOglVWGBsaGxkQrBABNlU-y</addsrcrecordid><sourcetype>Aggregation Database</sourcetype><iscdi>true</iscdi><recordtype>article</recordtype></control><display><type>article</type><title>基于Doc2Vec增强特征的长文本主题聚类研究</title><source>DOAJ Directory of Open Access Journals</source><creator>陈洁</creator><creatorcontrib>陈洁</creatorcontrib><description>TP391; 针对新闻长文本语义表征的难点,基于Doc2Vec文档嵌入和词向量加权方式构建增强的特征表示.利用DV-sim方法和DV-tfidf方法从文档首尾部分特定词性的内容中提取增强特征,再分别与Doc2Vec文档向量组合,形成新的全局表征.DV-sim从语义角度,采用特征词与Doc2Vec向量的相似度获得词权重;DV-tfidf从词频统计角度,采用词频-逆文档频率方式获得词权重,然后利用HDBSCAN算法在THUCNews和Sogou数据集上进行主题聚类.相比直接应用Doc2 Vec向量,DV-sim在两个数据集上的噪声数分别减少60.82%和60.63%,准确率提高12.14%和20.58%,F1-Score值提高15.61%和11.58%;DV-tfifd在两个数据集上的噪声数分别减少15.20%和59.55%,准确率提高10.85%和17.93%,F1-Score值提高15.60%和9.21%.实验结果表明,DV-sim和DV-tfidf都可以提高主题聚类性能,且基于语义的增强特征比基于词频的效果更好,DV-sim在优秀女性人物报道的主题聚类上也得到了有效应用.</description><identifier>ISSN: 1002-137X</identifier><identifier>DOI: 10.11896/jsjkx.220800192</identifier><language>chi</language><publisher>中华女子学院数据科学与信息技术学院 北京100101</publisher><ispartof>计算机科学, 2023, Vol.50 (z1), p.211-216</ispartof><rights>Copyright © Wanfang Data Co. Ltd. All Rights Reserved.</rights><woscitedreferencessubscribed>false</woscitedreferencessubscribed></display><links><openurl>$$Topenurl_article</openurl><openurlfulltext>$$Topenurlfull_article</openurlfulltext><thumbnail>$$Uhttp://www.wanfangdata.com.cn/images/PeriodicalImages/jsjkx/jsjkx.jpg</thumbnail><link.rule.ids>314,780,784,864,4024,27923,27924,27925</link.rule.ids></links><search><creatorcontrib>陈洁</creatorcontrib><title>基于Doc2Vec增强特征的长文本主题聚类研究</title><title>计算机科学</title><description>TP391; 针对新闻长文本语义表征的难点,基于Doc2Vec文档嵌入和词向量加权方式构建增强的特征表示.利用DV-sim方法和DV-tfidf方法从文档首尾部分特定词性的内容中提取增强特征,再分别与Doc2Vec文档向量组合,形成新的全局表征.DV-sim从语义角度,采用特征词与Doc2Vec向量的相似度获得词权重;DV-tfidf从词频统计角度,采用词频-逆文档频率方式获得词权重,然后利用HDBSCAN算法在THUCNews和Sogou数据集上进行主题聚类.相比直接应用Doc2 Vec向量,DV-sim在两个数据集上的噪声数分别减少60.82%和60.63%,准确率提高12.14%和20.58%,F1-Score值提高15.61%和11.58%;DV-tfifd在两个数据集上的噪声数分别减少15.20%和59.55%,准确率提高10.85%和17.93%,F1-Score值提高15.60%和9.21%.实验结果表明,DV-sim和DV-tfidf都可以提高主题聚类性能,且基于语义的增强特征比基于词频的效果更好,DV-sim在优秀女性人物报道的主题聚类上也得到了有效应用.</description><issn>1002-137X</issn><fulltext>true</fulltext><rsrctype>article</rsrctype><creationdate>2023</creationdate><recordtype>article</recordtype><recordid>eNpjYJAwNNAzNLSwNNPPKs7KrtAzMjKwMDAwtDRiYeA0NDAw0jU0No_gYOAtLs5MMjAyNjMBQkNOBvOn83c92dXnkp9sFJaa_HTRvKd7dj3v3Pl0X-PzWS0vp-5_Nq392Zw1T3bsfrloxovGWc837n6-YMrzldt4GFjTEnOKU3mhNDeDmptriLOHbnliXlpiXnp8Vn5pUR5QJh7sHCOglVWGBsaGxkQrBABNlU-y</recordid><startdate>2023</startdate><enddate>2023</enddate><creator>陈洁</creator><general>中华女子学院数据科学与信息技术学院 北京100101</general><scope>2B.</scope><scope>4A8</scope><scope>92I</scope><scope>93N</scope><scope>PSX</scope><scope>TCJ</scope></search><sort><creationdate>2023</creationdate><title>基于Doc2Vec增强特征的长文本主题聚类研究</title><author>陈洁</author></sort><facets><frbrtype>5</frbrtype><frbrgroupid>cdi_FETCH-wanfang_journals_jsjkx2023z10313</frbrgroupid><rsrctype>articles</rsrctype><prefilter>articles</prefilter><language>chi</language><creationdate>2023</creationdate><toplevel>online_resources</toplevel><creatorcontrib>陈洁</creatorcontrib><collection>Wanfang Data Journals - Hong Kong</collection><collection>WANFANG Data Centre</collection><collection>Wanfang Data Journals</collection><collection>万方数据期刊 - 香港版</collection><collection>China Online Journals (COJ)</collection><collection>China Online Journals (COJ)</collection><jtitle>计算机科学</jtitle></facets><delivery><delcategory>Remote Search Resource</delcategory><fulltext>fulltext</fulltext></delivery><addata><au>陈洁</au><format>journal</format><genre>article</genre><ristype>JOUR</ristype><atitle>基于Doc2Vec增强特征的长文本主题聚类研究</atitle><jtitle>计算机科学</jtitle><date>2023</date><risdate>2023</risdate><volume>50</volume><issue>z1</issue><spage>211</spage><epage>216</epage><pages>211-216</pages><issn>1002-137X</issn><abstract>TP391; 针对新闻长文本语义表征的难点,基于Doc2Vec文档嵌入和词向量加权方式构建增强的特征表示.利用DV-sim方法和DV-tfidf方法从文档首尾部分特定词性的内容中提取增强特征,再分别与Doc2Vec文档向量组合,形成新的全局表征.DV-sim从语义角度,采用特征词与Doc2Vec向量的相似度获得词权重;DV-tfidf从词频统计角度,采用词频-逆文档频率方式获得词权重,然后利用HDBSCAN算法在THUCNews和Sogou数据集上进行主题聚类.相比直接应用Doc2 Vec向量,DV-sim在两个数据集上的噪声数分别减少60.82%和60.63%,准确率提高12.14%和20.58%,F1-Score值提高15.61%和11.58%;DV-tfifd在两个数据集上的噪声数分别减少15.20%和59.55%,准确率提高10.85%和17.93%,F1-Score值提高15.60%和9.21%.实验结果表明,DV-sim和DV-tfidf都可以提高主题聚类性能,且基于语义的增强特征比基于词频的效果更好,DV-sim在优秀女性人物报道的主题聚类上也得到了有效应用.</abstract><pub>中华女子学院数据科学与信息技术学院 北京100101</pub><doi>10.11896/jsjkx.220800192</doi></addata></record>
fulltext fulltext
identifier ISSN: 1002-137X
ispartof 计算机科学, 2023, Vol.50 (z1), p.211-216
issn 1002-137X
language chi
recordid cdi_wanfang_journals_jsjkx2023z1031
source DOAJ Directory of Open Access Journals
title 基于Doc2Vec增强特征的长文本主题聚类研究
url https://sfx.bib-bvb.de/sfx_tum?ctx_ver=Z39.88-2004&ctx_enc=info:ofi/enc:UTF-8&ctx_tim=2024-12-27T15%3A17%3A07IST&url_ver=Z39.88-2004&url_ctx_fmt=infofi/fmt:kev:mtx:ctx&rfr_id=info:sid/primo.exlibrisgroup.com:primo3-Article-wanfang_jour&rft_val_fmt=info:ofi/fmt:kev:mtx:journal&rft.genre=article&rft.atitle=%E5%9F%BA%E4%BA%8EDoc2Vec%E5%A2%9E%E5%BC%BA%E7%89%B9%E5%BE%81%E7%9A%84%E9%95%BF%E6%96%87%E6%9C%AC%E4%B8%BB%E9%A2%98%E8%81%9A%E7%B1%BB%E7%A0%94%E7%A9%B6&rft.jtitle=%E8%AE%A1%E7%AE%97%E6%9C%BA%E7%A7%91%E5%AD%A6&rft.au=%E9%99%88%E6%B4%81&rft.date=2023&rft.volume=50&rft.issue=z1&rft.spage=211&rft.epage=216&rft.pages=211-216&rft.issn=1002-137X&rft_id=info:doi/10.11896/jsjkx.220800192&rft_dat=%3Cwanfang_jour%3Ejsjkx2023z1031%3C/wanfang_jour%3E%3Curl%3E%3C/url%3E&disable_directlink=true&sfx.directlink=off&sfx.report_link=0&rft_id=info:oai/&rft_id=info:pmid/&rft_wanfj_id=jsjkx2023z1031&rfr_iscdi=true