异构分布式深度学习平台的构建和优化方法研究

TP393; 深度学习与大数据技术的结合在资源管理、任务调度等方面还存在许多问题,有待解决与优化.针对异构资源管理能力弱、原生调度算法灵活性差、多框架缺少统一的使用接口3 个问题,提出了一种异构资源下分布式深度学习框架整合平台,并对任务调度算法的优化进行研究.平台以Spark框架为基础,向下对异构资源进行拓展与管理,向上整合了SparkOnAngel与TensorFlowOnSpark 2 种框架,使用物理标注的方法,为挂载不同计算资源的机器打上不同的标签,并借助资源模型的双重表示,进行调度算法优化.结果表明:该平台与传统的spark集群相比,在5 个minist_spark与5 个WordC...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
Veröffentlicht in:	重庆理工大学学报 2023, Vol.37 (17), p.208-216
Hauptverfasser:	胡昌秀, 张仰森, 彭爽, 陈涵, 祁浩家
Format:	Artikel
Sprache:	chi
Online-Zugang:	Volltext
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Beschreibung
Zusammenfassung:	TP393; 深度学习与大数据技术的结合在资源管理、任务调度等方面还存在许多问题,有待解决与优化.针对异构资源管理能力弱、原生调度算法灵活性差、多框架缺少统一的使用接口3 个问题,提出了一种异构资源下分布式深度学习框架整合平台,并对任务调度算法的优化进行研究.平台以Spark框架为基础,向下对异构资源进行拓展与管理,向上整合了SparkOnAngel与TensorFlowOnSpark 2 种框架,使用物理标注的方法,为挂载不同计算资源的机器打上不同的标签,并借助资源模型的双重表示,进行调度算法优化.结果表明:该平台与传统的spark集群相比,在5 个minist_spark与5 个WordCount混合任务场景下,执行耗时降低13.4%;在大批量的WordCount任务场景下,当作业量达到60 时,执行耗时可降低至 32.31%.平台能够扩展对GPU资源的管理,调度算法更加灵活高效,可为多个框架提供统一的调用接口.
ISSN:	1674-8425
DOI:	10.3969/j.issn.1674-8425(z).2023.09.024