异构分布式深度学习平台的构建和优化方法研究

TP393; 深度学习与大数据技术的结合在资源管理、任务调度等方面还存在许多问题,有待解决与优化.针对异构资源管理能力弱、原生调度算法灵活性差、多框架缺少统一的使用接口3 个问题,提出了一种异构资源下分布式深度学习框架整合平台,并对任务调度算法的优化进行研究.平台以Spark框架为基础,向下对异构资源进行拓展与管理,向上整合了SparkOnAngel与TensorFlowOnSpark 2 种框架,使用物理标注的方法,为挂载不同计算资源的机器打上不同的标签,并借助资源模型的双重表示,进行调度算法优化.结果表明:该平台与传统的spark集群相比,在5 个minist_spark与5 个WordC...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:重庆理工大学学报 2023, Vol.37 (17), p.208-216
Hauptverfasser: 胡昌秀, 张仰森, 彭爽, 陈涵, 祁浩家
Format: Artikel
Sprache:chi
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
container_end_page 216
container_issue 17
container_start_page 208
container_title 重庆理工大学学报
container_volume 37
creator 胡昌秀
张仰森
彭爽
陈涵
祁浩家
description TP393; 深度学习与大数据技术的结合在资源管理、任务调度等方面还存在许多问题,有待解决与优化.针对异构资源管理能力弱、原生调度算法灵活性差、多框架缺少统一的使用接口3 个问题,提出了一种异构资源下分布式深度学习框架整合平台,并对任务调度算法的优化进行研究.平台以Spark框架为基础,向下对异构资源进行拓展与管理,向上整合了SparkOnAngel与TensorFlowOnSpark 2 种框架,使用物理标注的方法,为挂载不同计算资源的机器打上不同的标签,并借助资源模型的双重表示,进行调度算法优化.结果表明:该平台与传统的spark集群相比,在5 个minist_spark与5 个WordCount混合任务场景下,执行耗时降低13.4%;在大批量的WordCount任务场景下,当作业量达到60 时,执行耗时可降低至 32.31%.平台能够扩展对GPU资源的管理,调度算法更加灵活高效,可为多个框架提供统一的调用接口.
doi_str_mv 10.3969/j.issn.1674-8425(z).2023.09.024
format Article
fullrecord <record><control><sourceid>wanfang_jour</sourceid><recordid>TN_cdi_wanfang_journals_cqgxyxb202317025</recordid><sourceformat>XML</sourceformat><sourcesystem>PC</sourcesystem><wanfj_id>cqgxyxb202317025</wanfj_id><sourcerecordid>cqgxyxb202317025</sourcerecordid><originalsourceid>FETCH-wanfang_journals_cqgxyxb2023170253</originalsourceid><addsrcrecordid>eNpjYFA3NNAztjSz1M_SyywuztMzNDM30bUwMTLVqNLUMzIwMtYzsNQzMDJhYeCES3Ew8BYXZyYZGBkZG1qamJtwMtg_3dP0bF7L0462pzuan-7pf7Z949Ndy56uXfZk54KnOzc_7d_wfFYLSMHuXU8n9TzZM-Npz7Rn03Y-2zz1-YIpz1du42FgTUvMKU7lhdLcDBpuriHOHrrliXlpiXnp8Vn5pUV5QJn45ML0isqKJJDLDM0NjEyNSVAKANLQXC0</addsrcrecordid><sourcetype>Aggregation Database</sourcetype><iscdi>true</iscdi><recordtype>article</recordtype></control><display><type>article</type><title>异构分布式深度学习平台的构建和优化方法研究</title><source>国家哲学社会科学学术期刊数据库 (National Social Sciences Database)</source><creator>胡昌秀 ; 张仰森 ; 彭爽 ; 陈涵 ; 祁浩家</creator><creatorcontrib>胡昌秀 ; 张仰森 ; 彭爽 ; 陈涵 ; 祁浩家</creatorcontrib><description>TP393; 深度学习与大数据技术的结合在资源管理、任务调度等方面还存在许多问题,有待解决与优化.针对异构资源管理能力弱、原生调度算法灵活性差、多框架缺少统一的使用接口3 个问题,提出了一种异构资源下分布式深度学习框架整合平台,并对任务调度算法的优化进行研究.平台以Spark框架为基础,向下对异构资源进行拓展与管理,向上整合了SparkOnAngel与TensorFlowOnSpark 2 种框架,使用物理标注的方法,为挂载不同计算资源的机器打上不同的标签,并借助资源模型的双重表示,进行调度算法优化.结果表明:该平台与传统的spark集群相比,在5 个minist_spark与5 个WordCount混合任务场景下,执行耗时降低13.4%;在大批量的WordCount任务场景下,当作业量达到60 时,执行耗时可降低至 32.31%.平台能够扩展对GPU资源的管理,调度算法更加灵活高效,可为多个框架提供统一的调用接口.</description><identifier>ISSN: 1674-8425</identifier><identifier>DOI: 10.3969/j.issn.1674-8425(z).2023.09.024</identifier><language>chi</language><publisher>北京信息科技大学 智能信息处理研究所,北京 100101%北京信息科技大学 智能信息处理研究所,北京 100101</publisher><ispartof>重庆理工大学学报, 2023, Vol.37 (17), p.208-216</ispartof><rights>Copyright © Wanfang Data Co. Ltd. All Rights Reserved.</rights><lds50>peer_reviewed</lds50><woscitedreferencessubscribed>false</woscitedreferencessubscribed></display><links><openurl>$$Topenurl_article</openurl><openurlfulltext>$$Topenurlfull_article</openurlfulltext><thumbnail>$$Uhttp://www.wanfangdata.com.cn/images/PeriodicalImages/cqgxyxb/cqgxyxb.jpg</thumbnail><link.rule.ids>314,780,784,4023,27922,27923,27924</link.rule.ids></links><search><creatorcontrib>胡昌秀</creatorcontrib><creatorcontrib>张仰森</creatorcontrib><creatorcontrib>彭爽</creatorcontrib><creatorcontrib>陈涵</creatorcontrib><creatorcontrib>祁浩家</creatorcontrib><title>异构分布式深度学习平台的构建和优化方法研究</title><title>重庆理工大学学报</title><description>TP393; 深度学习与大数据技术的结合在资源管理、任务调度等方面还存在许多问题,有待解决与优化.针对异构资源管理能力弱、原生调度算法灵活性差、多框架缺少统一的使用接口3 个问题,提出了一种异构资源下分布式深度学习框架整合平台,并对任务调度算法的优化进行研究.平台以Spark框架为基础,向下对异构资源进行拓展与管理,向上整合了SparkOnAngel与TensorFlowOnSpark 2 种框架,使用物理标注的方法,为挂载不同计算资源的机器打上不同的标签,并借助资源模型的双重表示,进行调度算法优化.结果表明:该平台与传统的spark集群相比,在5 个minist_spark与5 个WordCount混合任务场景下,执行耗时降低13.4%;在大批量的WordCount任务场景下,当作业量达到60 时,执行耗时可降低至 32.31%.平台能够扩展对GPU资源的管理,调度算法更加灵活高效,可为多个框架提供统一的调用接口.</description><issn>1674-8425</issn><fulltext>true</fulltext><rsrctype>article</rsrctype><creationdate>2023</creationdate><recordtype>article</recordtype><recordid>eNpjYFA3NNAztjSz1M_SyywuztMzNDM30bUwMTLVqNLUMzIwMtYzsNQzMDJhYeCES3Ew8BYXZyYZGBkZG1qamJtwMtg_3dP0bF7L0462pzuan-7pf7Z949Ndy56uXfZk54KnOzc_7d_wfFYLSMHuXU8n9TzZM-Npz7Rn03Y-2zz1-YIpz1du42FgTUvMKU7lhdLcDBpuriHOHrrliXlpiXnp8Vn5pUV5QJn45ML0isqKJJDLDM0NjEyNSVAKANLQXC0</recordid><startdate>2023</startdate><enddate>2023</enddate><creator>胡昌秀</creator><creator>张仰森</creator><creator>彭爽</creator><creator>陈涵</creator><creator>祁浩家</creator><general>北京信息科技大学 智能信息处理研究所,北京 100101%北京信息科技大学 智能信息处理研究所,北京 100101</general><general>国家经济安全预警工程北京实验室,北京 100044%东北师范大学 文学院,长春 130022</general><scope>2B.</scope><scope>4A8</scope><scope>92I</scope><scope>93N</scope><scope>PSX</scope><scope>TCJ</scope></search><sort><creationdate>2023</creationdate><title>异构分布式深度学习平台的构建和优化方法研究</title><author>胡昌秀 ; 张仰森 ; 彭爽 ; 陈涵 ; 祁浩家</author></sort><facets><frbrtype>5</frbrtype><frbrgroupid>cdi_FETCH-wanfang_journals_cqgxyxb2023170253</frbrgroupid><rsrctype>articles</rsrctype><prefilter>articles</prefilter><language>chi</language><creationdate>2023</creationdate><toplevel>peer_reviewed</toplevel><toplevel>online_resources</toplevel><creatorcontrib>胡昌秀</creatorcontrib><creatorcontrib>张仰森</creatorcontrib><creatorcontrib>彭爽</creatorcontrib><creatorcontrib>陈涵</creatorcontrib><creatorcontrib>祁浩家</creatorcontrib><collection>Wanfang Data Journals - Hong Kong</collection><collection>WANFANG Data Centre</collection><collection>Wanfang Data Journals</collection><collection>万方数据期刊 - 香港版</collection><collection>China Online Journals (COJ)</collection><collection>China Online Journals (COJ)</collection><jtitle>重庆理工大学学报</jtitle></facets><delivery><delcategory>Remote Search Resource</delcategory><fulltext>fulltext</fulltext></delivery><addata><au>胡昌秀</au><au>张仰森</au><au>彭爽</au><au>陈涵</au><au>祁浩家</au><format>journal</format><genre>article</genre><ristype>JOUR</ristype><atitle>异构分布式深度学习平台的构建和优化方法研究</atitle><jtitle>重庆理工大学学报</jtitle><date>2023</date><risdate>2023</risdate><volume>37</volume><issue>17</issue><spage>208</spage><epage>216</epage><pages>208-216</pages><issn>1674-8425</issn><abstract>TP393; 深度学习与大数据技术的结合在资源管理、任务调度等方面还存在许多问题,有待解决与优化.针对异构资源管理能力弱、原生调度算法灵活性差、多框架缺少统一的使用接口3 个问题,提出了一种异构资源下分布式深度学习框架整合平台,并对任务调度算法的优化进行研究.平台以Spark框架为基础,向下对异构资源进行拓展与管理,向上整合了SparkOnAngel与TensorFlowOnSpark 2 种框架,使用物理标注的方法,为挂载不同计算资源的机器打上不同的标签,并借助资源模型的双重表示,进行调度算法优化.结果表明:该平台与传统的spark集群相比,在5 个minist_spark与5 个WordCount混合任务场景下,执行耗时降低13.4%;在大批量的WordCount任务场景下,当作业量达到60 时,执行耗时可降低至 32.31%.平台能够扩展对GPU资源的管理,调度算法更加灵活高效,可为多个框架提供统一的调用接口.</abstract><pub>北京信息科技大学 智能信息处理研究所,北京 100101%北京信息科技大学 智能信息处理研究所,北京 100101</pub><doi>10.3969/j.issn.1674-8425(z).2023.09.024</doi></addata></record>
fulltext fulltext
identifier ISSN: 1674-8425
ispartof 重庆理工大学学报, 2023, Vol.37 (17), p.208-216
issn 1674-8425
language chi
recordid cdi_wanfang_journals_cqgxyxb202317025
source 国家哲学社会科学学术期刊数据库 (National Social Sciences Database)
title 异构分布式深度学习平台的构建和优化方法研究
url https://sfx.bib-bvb.de/sfx_tum?ctx_ver=Z39.88-2004&ctx_enc=info:ofi/enc:UTF-8&ctx_tim=2025-01-09T08%3A40%3A33IST&url_ver=Z39.88-2004&url_ctx_fmt=infofi/fmt:kev:mtx:ctx&rfr_id=info:sid/primo.exlibrisgroup.com:primo3-Article-wanfang_jour&rft_val_fmt=info:ofi/fmt:kev:mtx:journal&rft.genre=article&rft.atitle=%E5%BC%82%E6%9E%84%E5%88%86%E5%B8%83%E5%BC%8F%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E5%B9%B3%E5%8F%B0%E7%9A%84%E6%9E%84%E5%BB%BA%E5%92%8C%E4%BC%98%E5%8C%96%E6%96%B9%E6%B3%95%E7%A0%94%E7%A9%B6&rft.jtitle=%E9%87%8D%E5%BA%86%E7%90%86%E5%B7%A5%E5%A4%A7%E5%AD%A6%E5%AD%A6%E6%8A%A5&rft.au=%E8%83%A1%E6%98%8C%E7%A7%80&rft.date=2023&rft.volume=37&rft.issue=17&rft.spage=208&rft.epage=216&rft.pages=208-216&rft.issn=1674-8425&rft_id=info:doi/10.3969/j.issn.1674-8425(z).2023.09.024&rft_dat=%3Cwanfang_jour%3Ecqgxyxb202317025%3C/wanfang_jour%3E%3Curl%3E%3C/url%3E&disable_directlink=true&sfx.directlink=off&sfx.report_link=0&rft_id=info:oai/&rft_id=info:pmid/&rft_wanfj_id=cqgxyxb202317025&rfr_iscdi=true