基于CBOW模型的个人微博聚类研究

TP391; 个人微博是现在流行的社交工具,因其数量繁杂而对用户浏览产生困扰.本文将语义相似度大的微博聚类以方便用户浏览.主要研究工作如下:1.使用python中的jieba分词对个人微博进行分词预处理并去除停用词;2.将分词数据集利用CBOW模型训练词语向量;3.用词语向量表示个人微博句子向量;4.个人微博句子向量表示成空间中的分布点,使用改进的曼哈顿句子算法计算距离即个人微博间的相似度.5.使用改进的clarans算法聚类.实验表明本文的方法与传统聚类算法如划分法、层次法、密度法等有明显的提高....

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:电脑与电信 2018 (4), p.69-72
Hauptverfasser: 宋添树, 李江宇, 张沁哲
Format: Artikel
Sprache:chi
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:TP391; 个人微博是现在流行的社交工具,因其数量繁杂而对用户浏览产生困扰.本文将语义相似度大的微博聚类以方便用户浏览.主要研究工作如下:1.使用python中的jieba分词对个人微博进行分词预处理并去除停用词;2.将分词数据集利用CBOW模型训练词语向量;3.用词语向量表示个人微博句子向量;4.个人微博句子向量表示成空间中的分布点,使用改进的曼哈顿句子算法计算距离即个人微博间的相似度.5.使用改进的clarans算法聚类.实验表明本文的方法与传统聚类算法如划分法、层次法、密度法等有明显的提高.
ISSN:1008-6609