ELASTICALLY MANAGING WORKERS OF MULTI-WORKER WORKLOADS ON ACCELERATOR DEVICES
The disclosure herein describes elastically managing the execution of workers of multi-worker workloads on accelerator devices. A first worker of a workload is executed on an accelerator device during a first time interval. A first context switch point is identified when the first worker is in a fir...
Gespeichert in:
Hauptverfasser: | , , , , , , , , |
---|---|
Format: | Patent |
Sprache: | eng ; fre |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | The disclosure herein describes elastically managing the execution of workers of multi-worker workloads on accelerator devices. A first worker of a workload is executed on an accelerator device during a first time interval. A first context switch point is identified when the first worker is in a first worker state. At the identified context switch point, a first memory state of the first worker is stored in a host memory and the accelerator device is configured to a second memory state of the second worker. The second worker is executed during a second time interval and a second context switch point is identified at the end of the second time interval when the second worker is in a state that is equivalent to the first worker state. During the intervals, collective communication operations between the workers are accumulated and, at the second context switch point, the accumulated operations are performed.
La divulgation décrit la gestion élastique de l'exécution de travailleurs de charges de travail à travailleurs multiples sur des dispositifs accélérateurs. Un premier travailleur d'une charge de travail est exécuté sur un dispositif accélérateur pendant un premier intervalle de temps. Un premier point de commutation de contexte est identifié lorsque le premier travailleur est dans un premier état de travailleur. Au niveau du point de commutation de contexte identifié, un premier état de mémoire du premier travailleur est stocké dans une mémoire hôte et le dispositif accélérateur est configuré selon un second état de mémoire du second travailleur. Le second travailleur est exécuté pendant un second intervalle de temps et un second point de commutation de contexte est identifié à la fin du second intervalle de temps lorsque le second travailleur est dans un état qui est équivalent au premier état de travailleur. Pendant les intervalles, des opérations de communication collectives entre les travailleurs sont accumulées et, au niveau du second point de commutation de contexte, les opérations accumulées sont réalisées. |
---|