ACCELERATE DEEP LEARNING WITH INTER-ITERATION SCHEDULING

An apparatus relates to accelerate deep learning with inter-iteration scheduling based on operation categorization associated with the deep learning. The apparatus includes interface circuitry (1120), programmable circuitry; and instructions to cause the programmable circuitry to: classify a group o...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: ZHANG, Liangang, GONG, Jiong, MA, Guokai, ZHAO, Fan
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:An apparatus relates to accelerate deep learning with inter-iteration scheduling based on operation categorization associated with the deep learning. The apparatus includes interface circuitry (1120), programmable circuitry; and instructions to cause the programmable circuitry to: classify a group of operations of a distributed deep learning workload based on a resource utilization of the group of operations; select at least two operations of the group of operations for overlapped execution based on the classification and a dependency analysis of the at least two operations of the group of operations; and perform a distributed training of the distributed deep learning workload based on an execution schedule that includes overlapped execution of the selected at least two operations. La présente invention concerne un appareil destiné à l'accélération d'un apprentissage profond avec une planification entre itérations sur la base d'une catégorisation d'opérations associée à l'apprentissage profond. L'appareil comprend des circuits d'interface (1120), des circuits programmables ; et des instructions pour amener les circuits programmables à : classifier un groupe d'opérations d'une charge de travail d'apprentissage profond distribuée sur la base d'une utilisation de ressources du groupe d'opérations ; sélectionner au moins deux opérations du groupe d'opérations pour une exécution se recouvrant en partie sur la base de la classification et d'une analyse de dépendance des deux opérations ou plus du groupe d'opérations ; et effectuer un apprentissage distribué de la charge de travail d'apprentissage profond distribuée sur la base d'un calendrier d'exécution qui comprend l'exécution se recouvrant en partie des deux opérations sélectionnées ou plus.