NETWORK CONGESTION AVOIDANCE OVER HALVING-DOUBLING COLLECTIVE COMMUNICATION

In a distributed training, in order to avoid network congestion, a first computing node may determine an aggregation identifier for sending a data packet from a first process to a second process according to a node-aware halving-doubling algorithm, the first process and the second process belonging...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: RAN, Qianyuan, DONG, Jianbo, FENG, Fei, YE, Jianxi, WANG, Shaochuang
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:In a distributed training, in order to avoid network congestion, a first computing node may determine an aggregation identifier for sending a data packet from a first process to a second process according to a node-aware halving-doubling algorithm, the first process and the second process belonging to different nodes that are connected to different leaf switches under a particular network topology. The first computing node may then send a data packet from the first process to the second process through an aggregation switch corresponding to the aggregation identifier. Dans un apprentissage distribué, afin d'éviter la congestion du réseau, un premier nœud de calcul peut déterminer un identifiant d'agrégation pour envoyer un paquet de données d'un premier processus à un second processus en fonction d'un algorithme de doublement de division sensible au nœud, le premier processus et le second processus appartenant à différents nœuds qui sont connectés à différents commutateurs à lames dans une topologie de réseau particulière. Le premier nœud informatique peut ensuite envoyer un paquet de données du premier processus au second processus par l'intermédiaire d'un commutateur d'agrégation correspondant à l'identificateur d'agrégation.