KDSG-DBSCAN:一种基于K-D Tree和Spark GraphX的高性能DBSCAN算法

DBSCAN是一种基于密度的聚类算法,其能从包含噪声点的数据集中发现任意形状的聚类并且无需预先设定聚类个数,因此得到了广泛应用。但随着数据规模的增大,迭代式的点间距离计算导致经典单机串行DBSCAN算法的性能显著下降,使之无法满足实际应用的效率需求。为此,该文提出一种性能改进的分布式并行聚类算法——KDSG-DBSCAN。该算法利用K-D Tree邻域查询减少点间距离计算次数,利用图连通算法优化局部类簇合并过程,并基于Apache Spark MapReduce平台实现了计算过程的并行化。通过4组对比实验,分析了KDSGDBSCAN、经典DBSCAN与未使用图连通的KDS-DBSCAN算法的执...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:地理与地理信息科学 2017, Vol.33 (6), p.1-7
Hauptverfasser: 高旭, 桂志鹏, 隆玺, 栗法, 吴华意, 秦昆
Format: Artikel
Sprache:chi
Schlagworte:
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
container_end_page 7
container_issue 6
container_start_page 1
container_title 地理与地理信息科学
container_volume 33
creator 高旭
桂志鹏
隆玺
栗法
吴华意
秦昆
description DBSCAN是一种基于密度的聚类算法,其能从包含噪声点的数据集中发现任意形状的聚类并且无需预先设定聚类个数,因此得到了广泛应用。但随着数据规模的增大,迭代式的点间距离计算导致经典单机串行DBSCAN算法的性能显著下降,使之无法满足实际应用的效率需求。为此,该文提出一种性能改进的分布式并行聚类算法——KDSG-DBSCAN。该算法利用K-D Tree邻域查询减少点间距离计算次数,利用图连通算法优化局部类簇合并过程,并基于Apache Spark MapReduce平台实现了计算过程的并行化。通过4组对比实验,分析了KDSGDBSCAN、经典DBSCAN与未使用图连通的KDS-DBSCAN算法的执行效率、KDSG-DBSCAN各子阶段执行时间占比、不同数据规模下KDSG-DBSCAN的扩展性以及不同计算节点数量和CPU核数下KDSG-DBSCAN的扩展性。结果表明,KDSG-DBSCAN算法具有良好的可扩展性和加速比。
doi_str_mv 10.3969/j.issn.1672-0504.2017.06.001
format Article
fullrecord <record><control><sourceid>wanfang_jour_chong</sourceid><recordid>TN_cdi_wanfang_journals_dlxygtyj201706001</recordid><sourceformat>XML</sourceformat><sourcesystem>PC</sourcesystem><cqvip_id>673888855</cqvip_id><wanfj_id>dlxygtyj201706001</wanfj_id><sourcerecordid>dlxygtyj201706001</sourcerecordid><originalsourceid>FETCH-LOGICAL-c611-3f9efccb6ddc1bedc8c1b47cd26e84ace6dd376a00db2f25c1d1df54002c6f643</originalsourceid><addsrcrecordid>eNpjYFAxNNAztjSz1M_SyywuztMzNDM30jUwNTDRMzIwNNczMNMzMDBkYeCEi3Mw8BYXZyYZGBgZmZpbmphwMnh6uwS767o4BTs7-r3fM-vJjobny3ufzt_1ZFeft66LQkhRaurTST3BBYlF2QruRYkFGRHPZ7W8XD3jWcPyF817Ifqer5v-bPNUHgbWtMSc4lReKM3NEOLmGuLsoevj7-7p7Oijm2xmaKhrnGaZmpacnGSWkpJsmJSakmwBpEzMk1OMzFItTBKTU4ESxuZmiQYGKUlGaUamyYYphilppiZAJyebpZmZGHMzaEKMLU_MS0vMS4_Pyi8tygNaGJ-SU1GZXlKZBfK7gRnQ50C1ShC1yRn5eemFmUDVBUWZuYlFlfFm5sYWQGBqagwA-AZpuw</addsrcrecordid><sourcetype>Aggregation Database</sourcetype><iscdi>true</iscdi><recordtype>article</recordtype></control><display><type>article</type><title>KDSG-DBSCAN:一种基于K-D Tree和Spark GraphX的高性能DBSCAN算法</title><source>国家哲学社会科学学术期刊数据库 (National Social Sciences Database)</source><creator>高旭;桂志鹏;隆玺;栗法;吴华意;秦昆</creator><creatorcontrib>高旭;桂志鹏;隆玺;栗法;吴华意;秦昆</creatorcontrib><description>DBSCAN是一种基于密度的聚类算法,其能从包含噪声点的数据集中发现任意形状的聚类并且无需预先设定聚类个数,因此得到了广泛应用。但随着数据规模的增大,迭代式的点间距离计算导致经典单机串行DBSCAN算法的性能显著下降,使之无法满足实际应用的效率需求。为此,该文提出一种性能改进的分布式并行聚类算法——KDSG-DBSCAN。该算法利用K-D Tree邻域查询减少点间距离计算次数,利用图连通算法优化局部类簇合并过程,并基于Apache Spark MapReduce平台实现了计算过程的并行化。通过4组对比实验,分析了KDSGDBSCAN、经典DBSCAN与未使用图连通的KDS-DBSCAN算法的执行效率、KDSG-DBSCAN各子阶段执行时间占比、不同数据规模下KDSG-DBSCAN的扩展性以及不同计算节点数量和CPU核数下KDSG-DBSCAN的扩展性。结果表明,KDSG-DBSCAN算法具有良好的可扩展性和加速比。</description><identifier>ISSN: 1672-0504</identifier><identifier>DOI: 10.3969/j.issn.1672-0504.2017.06.001</identifier><language>chi</language><publisher>武汉大学遥感信息工程学院,湖北武汉430079</publisher><subject>DBSCAN ; GraphX ; K-D ; MapReduce ; Spark ; Tree ; 空间大数据聚类</subject><ispartof>地理与地理信息科学, 2017, Vol.33 (6), p.1-7</ispartof><rights>Copyright © Wanfang Data Co. Ltd. All Rights Reserved.</rights><woscitedreferencessubscribed>false</woscitedreferencessubscribed></display><links><openurl>$$Topenurl_article</openurl><openurlfulltext>$$Topenurlfull_article</openurlfulltext><thumbnail>$$Uhttp://image.cqvip.com/vip1000/qk/92655A/92655A.jpg</thumbnail><link.rule.ids>314,780,784,4024,27923,27924,27925</link.rule.ids></links><search><creatorcontrib>高旭;桂志鹏;隆玺;栗法;吴华意;秦昆</creatorcontrib><title>KDSG-DBSCAN:一种基于K-D Tree和Spark GraphX的高性能DBSCAN算法</title><title>地理与地理信息科学</title><addtitle>Geography and Geo-Information Science</addtitle><description>DBSCAN是一种基于密度的聚类算法,其能从包含噪声点的数据集中发现任意形状的聚类并且无需预先设定聚类个数,因此得到了广泛应用。但随着数据规模的增大,迭代式的点间距离计算导致经典单机串行DBSCAN算法的性能显著下降,使之无法满足实际应用的效率需求。为此,该文提出一种性能改进的分布式并行聚类算法——KDSG-DBSCAN。该算法利用K-D Tree邻域查询减少点间距离计算次数,利用图连通算法优化局部类簇合并过程,并基于Apache Spark MapReduce平台实现了计算过程的并行化。通过4组对比实验,分析了KDSGDBSCAN、经典DBSCAN与未使用图连通的KDS-DBSCAN算法的执行效率、KDSG-DBSCAN各子阶段执行时间占比、不同数据规模下KDSG-DBSCAN的扩展性以及不同计算节点数量和CPU核数下KDSG-DBSCAN的扩展性。结果表明,KDSG-DBSCAN算法具有良好的可扩展性和加速比。</description><subject>DBSCAN</subject><subject>GraphX</subject><subject>K-D</subject><subject>MapReduce</subject><subject>Spark</subject><subject>Tree</subject><subject>空间大数据聚类</subject><issn>1672-0504</issn><fulltext>true</fulltext><rsrctype>article</rsrctype><creationdate>2017</creationdate><recordtype>article</recordtype><recordid>eNpjYFAxNNAztjSz1M_SyywuztMzNDM30jUwNTDRMzIwNNczMNMzMDBkYeCEi3Mw8BYXZyYZGBgZmZpbmphwMnh6uwS767o4BTs7-r3fM-vJjobny3ufzt_1ZFeft66LQkhRaurTST3BBYlF2QruRYkFGRHPZ7W8XD3jWcPyF817Ifqer5v-bPNUHgbWtMSc4lReKM3NEOLmGuLsoevj7-7p7Oijm2xmaKhrnGaZmpacnGSWkpJsmJSakmwBpEzMk1OMzFItTBKTU4ESxuZmiQYGKUlGaUamyYYphilppiZAJyebpZmZGHMzaEKMLU_MS0vMS4_Pyi8tygNaGJ-SU1GZXlKZBfK7gRnQ50C1ShC1yRn5eemFmUDVBUWZuYlFlfFm5sYWQGBqagwA-AZpuw</recordid><startdate>2017</startdate><enddate>2017</enddate><creator>高旭;桂志鹏;隆玺;栗法;吴华意;秦昆</creator><general>武汉大学遥感信息工程学院,湖北武汉430079</general><general>武汉大学测绘遥感信息工程国家重点实验室,湖北武汉430079</general><general>地球空间信息技术协同创新中心,湖北武汉430079%地球空间信息技术协同创新中心,湖北武汉430079</general><scope>2RA</scope><scope>92L</scope><scope>CQIGP</scope><scope>W94</scope><scope>~WA</scope><scope>2B.</scope><scope>4A8</scope><scope>92I</scope><scope>93N</scope><scope>PSX</scope><scope>TCJ</scope></search><sort><creationdate>2017</creationdate><title>KDSG-DBSCAN:一种基于K-D Tree和Spark GraphX的高性能DBSCAN算法</title><author>高旭;桂志鹏;隆玺;栗法;吴华意;秦昆</author></sort><facets><frbrtype>5</frbrtype><frbrgroupid>cdi_FETCH-LOGICAL-c611-3f9efccb6ddc1bedc8c1b47cd26e84ace6dd376a00db2f25c1d1df54002c6f643</frbrgroupid><rsrctype>articles</rsrctype><prefilter>articles</prefilter><language>chi</language><creationdate>2017</creationdate><topic>DBSCAN</topic><topic>GraphX</topic><topic>K-D</topic><topic>MapReduce</topic><topic>Spark</topic><topic>Tree</topic><topic>空间大数据聚类</topic><toplevel>online_resources</toplevel><creatorcontrib>高旭;桂志鹏;隆玺;栗法;吴华意;秦昆</creatorcontrib><collection>中文科技期刊数据库</collection><collection>中文科技期刊数据库-CALIS站点</collection><collection>中文科技期刊数据库-7.0平台</collection><collection>中文科技期刊数据库-自然科学</collection><collection>中文科技期刊数据库- 镜像站点</collection><collection>Wanfang Data Journals - Hong Kong</collection><collection>WANFANG Data Centre</collection><collection>Wanfang Data Journals</collection><collection>万方数据期刊 - 香港版</collection><collection>China Online Journals (COJ)</collection><collection>China Online Journals (COJ)</collection><jtitle>地理与地理信息科学</jtitle></facets><delivery><delcategory>Remote Search Resource</delcategory><fulltext>fulltext</fulltext></delivery><addata><au>高旭;桂志鹏;隆玺;栗法;吴华意;秦昆</au><format>journal</format><genre>article</genre><ristype>JOUR</ristype><atitle>KDSG-DBSCAN:一种基于K-D Tree和Spark GraphX的高性能DBSCAN算法</atitle><jtitle>地理与地理信息科学</jtitle><addtitle>Geography and Geo-Information Science</addtitle><date>2017</date><risdate>2017</risdate><volume>33</volume><issue>6</issue><spage>1</spage><epage>7</epage><pages>1-7</pages><issn>1672-0504</issn><abstract>DBSCAN是一种基于密度的聚类算法,其能从包含噪声点的数据集中发现任意形状的聚类并且无需预先设定聚类个数,因此得到了广泛应用。但随着数据规模的增大,迭代式的点间距离计算导致经典单机串行DBSCAN算法的性能显著下降,使之无法满足实际应用的效率需求。为此,该文提出一种性能改进的分布式并行聚类算法——KDSG-DBSCAN。该算法利用K-D Tree邻域查询减少点间距离计算次数,利用图连通算法优化局部类簇合并过程,并基于Apache Spark MapReduce平台实现了计算过程的并行化。通过4组对比实验,分析了KDSGDBSCAN、经典DBSCAN与未使用图连通的KDS-DBSCAN算法的执行效率、KDSG-DBSCAN各子阶段执行时间占比、不同数据规模下KDSG-DBSCAN的扩展性以及不同计算节点数量和CPU核数下KDSG-DBSCAN的扩展性。结果表明,KDSG-DBSCAN算法具有良好的可扩展性和加速比。</abstract><pub>武汉大学遥感信息工程学院,湖北武汉430079</pub><doi>10.3969/j.issn.1672-0504.2017.06.001</doi><tpages>7</tpages></addata></record>
fulltext fulltext
identifier ISSN: 1672-0504
ispartof 地理与地理信息科学, 2017, Vol.33 (6), p.1-7
issn 1672-0504
language chi
recordid cdi_wanfang_journals_dlxygtyj201706001
source 国家哲学社会科学学术期刊数据库 (National Social Sciences Database)
subjects DBSCAN
GraphX
K-D
MapReduce
Spark
Tree
空间大数据聚类
title KDSG-DBSCAN:一种基于K-D Tree和Spark GraphX的高性能DBSCAN算法
url https://sfx.bib-bvb.de/sfx_tum?ctx_ver=Z39.88-2004&ctx_enc=info:ofi/enc:UTF-8&ctx_tim=2024-12-21T19%3A28%3A25IST&url_ver=Z39.88-2004&url_ctx_fmt=infofi/fmt:kev:mtx:ctx&rfr_id=info:sid/primo.exlibrisgroup.com:primo3-Article-wanfang_jour_chong&rft_val_fmt=info:ofi/fmt:kev:mtx:journal&rft.genre=article&rft.atitle=KDSG-DBSCAN%EF%BC%9A%E4%B8%80%E7%A7%8D%E5%9F%BA%E4%BA%8EK-D%20Tree%E5%92%8CSpark%20GraphX%E7%9A%84%E9%AB%98%E6%80%A7%E8%83%BDDBSCAN%E7%AE%97%E6%B3%95&rft.jtitle=%E5%9C%B0%E7%90%86%E4%B8%8E%E5%9C%B0%E7%90%86%E4%BF%A1%E6%81%AF%E7%A7%91%E5%AD%A6&rft.au=%E9%AB%98%E6%97%AD;%E6%A1%82%E5%BF%97%E9%B9%8F;%E9%9A%86%E7%8E%BA;%E6%A0%97%E6%B3%95;%E5%90%B4%E5%8D%8E%E6%84%8F;%E7%A7%A6%E6%98%86&rft.date=2017&rft.volume=33&rft.issue=6&rft.spage=1&rft.epage=7&rft.pages=1-7&rft.issn=1672-0504&rft_id=info:doi/10.3969/j.issn.1672-0504.2017.06.001&rft_dat=%3Cwanfang_jour_chong%3Edlxygtyj201706001%3C/wanfang_jour_chong%3E%3Curl%3E%3C/url%3E&disable_directlink=true&sfx.directlink=off&sfx.report_link=0&rft_id=info:oai/&rft_id=info:pmid/&rft_cqvip_id=673888855&rft_wanfj_id=dlxygtyj201706001&rfr_iscdi=true