基于CBOW模型的个人微博聚类研究
TP391; 个人微博是现在流行的社交工具,因其数量繁杂而对用户浏览产生困扰.本文将语义相似度大的微博聚类以方便用户浏览.主要研究工作如下:1.使用python中的jieba分词对个人微博进行分词预处理并去除停用词;2.将分词数据集利用CBOW模型训练词语向量;3.用词语向量表示个人微博句子向量;4.个人微博句子向量表示成空间中的分布点,使用改进的曼哈顿句子算法计算距离即个人微博间的相似度.5.使用改进的clarans算法聚类.实验表明本文的方法与传统聚类算法如划分法、层次法、密度法等有明显的提高....
Gespeichert in:
Veröffentlicht in: | 电脑与电信 2018 (4), p.69-72 |
---|---|
Hauptverfasser: | , , |
Format: | Artikel |
Sprache: | chi |
Online-Zugang: | Volltext |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | TP391; 个人微博是现在流行的社交工具,因其数量繁杂而对用户浏览产生困扰.本文将语义相似度大的微博聚类以方便用户浏览.主要研究工作如下:1.使用python中的jieba分词对个人微博进行分词预处理并去除停用词;2.将分词数据集利用CBOW模型训练词语向量;3.用词语向量表示个人微博句子向量;4.个人微博句子向量表示成空间中的分布点,使用改进的曼哈顿句子算法计算距离即个人微博间的相似度.5.使用改进的clarans算法聚类.实验表明本文的方法与传统聚类算法如划分法、层次法、密度法等有明显的提高. |
---|---|
ISSN: | 1008-6609 |