基于Doc2Vec增强特征的长文本主题聚类研究

TP391; 针对新闻长文本语义表征的难点,基于Doc2Vec文档嵌入和词向量加权方式构建增强的特征表示.利用DV-sim方法和DV-tfidf方法从文档首尾部分特定词性的内容中提取增强特征,再分别与Doc2Vec文档向量组合,形成新的全局表征.DV-sim从语义角度,采用特征词与Doc2Vec向量的相似度获得词权重;DV-tfidf从词频统计角度,采用词频-逆文档频率方式获得词权重,然后利用HDBSCAN算法在THUCNews和Sogou数据集上进行主题聚类.相比直接应用Doc2 Vec向量,DV-sim在两个数据集上的噪声数分别减少60.82％和60.63％,准确率提高12.14％和20....

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
Veröffentlicht in:	计算机科学 2023, Vol.50 (z1), p.211-216
1. Verfasser:	陈洁
Format:	Artikel
Sprache:	chi
Online-Zugang:	Volltext
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Beschreibung
Zusammenfassung:	TP391; 针对新闻长文本语义表征的难点,基于Doc2Vec文档嵌入和词向量加权方式构建增强的特征表示.利用DV-sim方法和DV-tfidf方法从文档首尾部分特定词性的内容中提取增强特征,再分别与Doc2Vec文档向量组合,形成新的全局表征.DV-sim从语义角度,采用特征词与Doc2Vec向量的相似度获得词权重;DV-tfidf从词频统计角度,采用词频-逆文档频率方式获得词权重,然后利用HDBSCAN算法在THUCNews和Sogou数据集上进行主题聚类.相比直接应用Doc2 Vec向量,DV-sim在两个数据集上的噪声数分别减少60.82％和60.63％,准确率提高12.14％和20.58％,F1-Score值提高15.61％和11.58％;DV-tfifd在两个数据集上的噪声数分别减少15.20％和59.55％,准确率提高10.85％和17.93％,F1-Score值提高15.60％和9.21％.实验结果表明,DV-sim和DV-tfidf都可以提高主题聚类性能,且基于语义的增强特征比基于词频的效果更好,DV-sim在优秀女性人物报道的主题聚类上也得到了有效应用.
ISSN:	1002-137X
DOI:	10.11896/jsjkx.220800192