METHOD AND SYSTEM FOR GENERATING A SUBNETWORK DISTRIBUTION OF A DEEP NEURAL NETWORK

A computer implemented method of generating a subnetwork distribution of a deep neural network for a hardware system (300) comprising a plurality of compute nodes (302 a-h), the method comprising, in a processor device (200): receiving (100) a deep neural network (202); receiving (102) topology (204...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: SALOMONSSON, Hans, ÖDMAN, Daniel, TIVERMAN, Ola, ASK, Andreas
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:A computer implemented method of generating a subnetwork distribution of a deep neural network for a hardware system (300) comprising a plurality of compute nodes (302 a-h), the method comprising, in a processor device (200): receiving (100) a deep neural network (202); receiving (102) topology (204) and performance information (206) of the hardware system; receiving (104) runtime statistics (208) of the hardware system; receiving (106) at least one target performance parameter (210) for execution of the deep neural network on the hardware system; for each target performance parameter, dividing (108) the deep neural network into at least one subnetwork distribution (212a-c) based on the runtime statistics of the hardware system and based on the target performance parameter. Each subnetwork in a subnetwork distribution is adapted to be executed on a compute node of the hardware system, and for each subnetwork distribution, determining (110) a performance metric (214a-c) for at least one target performance parameter for execution of the deep neural network on the hardware system. L'invention concerne un procédé mis en œuvre par ordinateur de génération d'une distribution de sous-réseau d'un réseau neuronal profond pour un système matériel (300) comprenant une pluralité de nœuds de calcul (302 a-h), le procédé consistant à, dans un dispositif de processeur (200) : recevoir (100) un réseau neuronal profond (202) ; recevoir (102) des informations de topologie (204) et de performance (206) du système matériel ; recevoir (104) des statistiques d'exécution (208) du système matériel ; recevoir (106) au moins un paramètre de performance cible (210) pour l'exécution du réseau neuronal profond sur le système matériel ; pour chaque paramètre de performance cible, diviser (108) le réseau neuronal profond en au moins une distribution de sous-réseau (212a-c) sur la base des statistiques d'exécution du système matériel et sur la base du paramètre de performance cible. Chaque sous-réseau dans une distribution de sous-réseau est conçu pour être exécuté sur un nœud de calcul du système matériel, et pour chaque distribution de sous-réseau, déterminer (110) une métrique de performance (214a-c) pour au moins un paramètre de performance cible pour l'exécution du réseau neuronal profond sur le système matériel.